机器学习的基因位点识别(附件)

随着基因组研究的发展,当获得足够的基因组数据后,从DNA序列中进行基因识别成为首要任务,通过机器学习方法进行基因识别被广泛使用。从根源上来说,机器学习涵盖了多个领域,在其中,它包括了人工智能方面、概率论、数理统计、神经网络、自然科学等学科,我们可以通过调查,收集数据,对数据进行处理后,建立合理的模型,查找到其中隐藏在事件本身中的秘密和规律。而本文,从前到后介绍机器学习中的几种分类方法,近邻分类算法,规则学习算法中的决策树算法,黑箱算法中的支持向量机和神经网络算法,并通过实例检验并总结它的优缺点。
目录
摘要1
关键词1
Abstract1
Key words1
1 绪论 1
1.1 课题背景 1
1.2 机器学习算法 1
1.2.1 近邻分类KNN算法 1
1.2.2 决策树算法 2
1.2.3 神经网络算法 2
1.2.4 支持向量机 3
2 算法实现 4
2.1 KNN算法 4
2.2 决策树算法 4
2.3 神经网络算法 5
2.4 支持向量机 6
3 研究算法分析数据 7
3.1 数据调用 7
3.1.1 第1步—收集数据 7
3.1.2 第2步—探索和准备数据 7
3.2 KNN算法 7
3.2.1 转换—minmax标准化数值型数据 7
3.2.2 数据准备—创建训练数据集和测试数据集 8
3.2.3 基于数据训练模型 8
3.2.4 评估模型的性能 8
3.3 决策树算法 8
3.3.1 数据的调用和处理 8
3.3.2 基于数据训练模型 9
3.3.3 评估模型的性能 9
3.4 神经网络算法 10
3.4.1数据的调用和处理 10
3.3.2 基于数据训练模型 10
3.4.3 评估模型的性能 12
3.5支持向量机 12
3.5.1 数据的调用和处理 *好棒文|www.hbsrm.com +Q: ^351916072^ 
12
3.3.2 基于数据训练模型 13
3.5.3 评估模型的性能 13
4结论 13
4.1 KNN算法 13
4.2 决策树算法 14
4.3 神经网络算法 14
4.4 支持向量机 14
致谢 14
参考文献 14
基于机器学习的基因位点识别
引言
引言:生物信息学[1]研究对象为蛋白质、RNA和基因等序,将数学、生物信息学,自然科学等学科领域综合起来,应用各学科知识来分析生物序列,分析数据由此获得生物的各方面信息。在目前为止的的生物学的相关研究中,基因与蛋白质等序列分析和处理是相当重要的一个部分。在我们知道的基因里面,一般来说,每一个蛋白质的序列应该都拥有特殊的基因序列,功能位点就是指在其中发挥着重要作用的结果单元,对于当代的研究人员可以在分析处理功能位点的基础上,查找到对基因中起着调空作用的序列,对其观察研究。那么什么是基因的功能位点识别[2]?它可以去识别RNA,DNA,当然,一些生物因子在某种程度上也能进行识别。基因序列,是碱基的排列,可以通过一系列方法组合成不同密码子,之后在经过转化变为氨基酸,通过氨基酸排列顺序形成不同的蛋白质,组成各种器官和组织,从而导致识别功能位点的作用就不言而喻了。但是,随着科技的发展,人类所学知识的增长,导致研究者们所能探查到的生物序列的数量急剧增加,并且生物本身的内部因素还有其中的运行方式比较复杂,单独依靠实验这种方法去识别出来是不可取的,这样的速度太慢,耗时实在太长。因此创建一种更加科学,更加准确,更加快速的计算方法去进行识别位点,去推动相关学科的发展,为生命科学做出一份贡献是很有必要的。
1 绪论
1.1 课题背景
20世纪后期,生命科学各领域获得巨大发展,导致自然科学中起了巨大变化。在新的21世纪,自然科学领域同样发展的很是喜人,获得许多的突破。计算科学在其中发挥重要作用,作为其中的一个支柱,获得更大的重视是一件显而易见的事情。除此之外,科技的迅猛发展,人类探求更多与基因相关的信息,从而产生人类基因组计划,这件事的实施,导致不断有新的数据产生,急剧扩大了生物的相关数据量,资料库中不断进行更新,数据库也变得越来越复杂,难以进行分析。
但是,因为生物信息数据库非常庞大,所以对于数据分析处理非常困难,处理技术迎来诸多挑战,但同时也带来很多机遇,我们急需新方法的提出。而在此时,计算机科学算法提出新的解决办法,但面对许多重要意义的问题,无法进行处理,或显示出许多不足。在一方面,生物不断进化,会造成生物系统更加复杂;另一方面,许多生物为何会产生这样的结果,我们还没有报告能说明,并且进行解释产生原因。而正在此时,一种适合于数据量大并且缺乏统一理论的方法被提出,即机器学习方法。它的核心是把接收的信息转化为可行动智能的算法,这一事实使得机器学习非常适合于当今的大数据时代如果没有机器学习,要跟上海量信息数据流的步伐几乎是不可能的。因此,机器学习方法某种意义上获得极大发展。现在,在生物信息学各个领域,机器学习产生着深远的影响。研究人员测定着各种的基因序列[3],生命科学领域获得越来越大的发展,在这种形式下,模式识别方法往往更加有效。
1.2 机器学习算法
机器学习[4]包含多种学科,有人工智能方向,统计数据方面,概率论方面,自然科学方面,通过对已有事件进行分析,建立适当的统计模型,总结并归纳得出有用的信息。其不但能对已有信息做出解释,还能对未知事物和无法直接答案的事务做出识别和判断。机器学习有一特色就是数据可以自行处理,提取信息可以自己去完成,极大节约人力物力。在这篇论文中,从前到后介绍机器学习中的几种分类方法,近邻分类算法,规则学习决策树算法,在黑箱算法里的两种算法神经网络算法和支持向量机,并通过实例检验并归纳和总结它的优缺点。

版权保护: 本文由 hbsrm.com编辑,转载请保留链接: www.hbsrm.com/jsj/jsjkxyjs/1603.html

好棒文