生物信息学中,最具挑战性的难题是如何将一个具体的生物序列表示成为具体的模型或向量,这个模型或向量需要保持生物序列中的准确且有序信息,不仅如此,还要能够抓住生物序列的主要特征。这是因为几乎所有的现有机器只能处理向量而不是生物序列样本。87100

在蛋白质的甲基化实验中,氨基酸成分法和PseAAC[29-31]取得了很大成功,并被广泛应用于计算蛋白质组学等方面的研究

在DNA甲基化的实验中,kmers[23]和gapped kmers[24]都成功应用于预测调控序列上,并取得了可喜的成果[23-25]。同时对Chou提出的 PseAAC[31]进行拓展延伸,设计了称为PseKNC或伪K-tuple核苷酸组成的方法,使用它解决一些DNA上的重要问题,而且创建了与它相关的服务网站。[7,26-28]论文网

在RNA甲基化的实验过程中,需要对RNA序列进行特征提取,将RNA序列表示成为离散的、数值的、计算机可处理的向量,采用SVM分类器对特征提取出的特征向量进行学习,构建预测模型。由于对RNA甲基化的研究过少,目前的提出的特征提取方法都不能很好的表示RNA序列。所以,在RNA序列甲基化识别研究过程中,存在大量的问题:

第一、RNA序列的特征提取,怎样才能准确的提取出基准数据集中RNA序列特征。

第二、分类器,如何突破技术瓶颈,创建出一种更好的、更能将被甲基化的RNA和未被甲基化的RNA分开的分类器;或是怎样选出一种好的分类器用在对RNA序列的学习和预测上。

第三、分类器参数的选择,如何快速寻到最优参数。

第四、高效的算法,如何利用已有的理论知识,创建出更好的预测学习算法。

上一篇:投资风险和收益问题的国内外研究现状与参考文献
下一篇:移动互联网教育国内外研究现状

杂多酸催化剂的研究现状进展

轨道交通形式化方法研究现状

高校科技成果转化国内外研究现状

网格化管理国内外研究现状综述

金属力学性能退化检测研究现状

OER电催化剂的研究现状和参考文献

餐饮品牌设计的研究现状

高校体育场馆效益研究【2772字】

论商业银行中间业务法律...

华夫饼国内外研究现状

家电制造企业绿色供應链...

基于安卓平台的二维码会议管理系统设计

“时尚与旅游”电子杂志的设计制作

ASP.net+sqlserver会员管理系统设计

企业科研管理中统计报表...

透过家徽看日本文化家紋から見る日本文化

农村幼儿教育开题报告