ncbi建立一种新人体微生物基因组数据库【字数:9454】
摘 要本文基于NCBI(美国国立生物技术信息中心)的FTP从NCBI数据库上获取数据信息,利用Python编写的程序对信息进行读取、过滤、筛选和整合。将数据以对象的形式存储到二进制的Object数据库文件中。同时利用Python编写爬虫,从NCBI的Taxonomy数据库中获取物种的Taxonomy信息,并对数据库中的存储的Taxonomy信息进行更正。最后,采用多序列比对的方式,去除数据库中冗余的序列,构建成一个精简的、精确的16SrRNA参考序列数据库。
目 录
1.前言 1
1.1 课题背景 1
1.2 NCBI简介 1
1.3 爬虫简介 2
1.4 16SrRNA概述 3
1.5 其他16SrRNA数据库 5
1.6 研究内容和意义 7
1.6.1 研究内容 7
1.6.2 研究意义 8
1.7 总结 8
2.实验部分 9
2.1 数据来源和获取 9
2.1.1 实验所用软件 9
2.1.2 数据来源 9
2.2 SEQ文件的处理 10
2.2.1 SEQ文件结构 10
2.2.2 SEQ文件单元对象化 12
2.2.3 筛选Object文件 12
2.3 利用爬虫获取Taxonomy信息 13
2.3.1 网页获取Taxonomy信息 13
2.3.2 利用爬虫爬取网页Taxonomy信息 13
2.4 多序列比对 15
2.4.1 clustal omega序列比对 15
2.4.2 identity矩阵 16
2.5 数据库的构建 17
3.结果与讨论 18
3.1 结果 18
3.1.1 新16SrRNA数据库 18
3.1.2 数据库统计 18
3.2 讨论 20
3.2.1 数据库存在的问题 20
3.2.2 数据库的优化方案 20
4.结论与展望 21
参考文献 2 *好棒文|www.hbsrm.com +Q: ^351916072#
2
致谢 23
1.前言
1.1 课题背景
随着基因测序的水平不断的提高,人们逐步将测序的目光转移到人体内的微生物上。目前,关于人体微生物尤其是肠道微生物的研究已经成为一个炙手可热的话题。16SrRNA检测技术是目前比较流行的一种人体微生物检测技术,通过该技术可以得到人体内细菌的相对丰度变化,从而为构建疾病模型做准备。16SrRNA检测技术(流程见图1.1),在16SrRNA检测技术中有一个构建OTU表的环节,在做这个环节之前需要匹配OTU对应的菌种及其生物学分类信息,完成这项工作就需要准确的微生物16SrRNA参考数据库,这个数据库应当包含微生物16SrRNA的序列信息以及详细准确的生物学分类信息等。目前许多文献报道中所用的数据库都存在着或多或少的问题,如数据存储、呈现方式各不相同,生物学分类信息不准确等,这些问题会导致最后得到的结果不准确。因此有必要建立一个对不同来源的数据进行统一化处理、集中储存管理的数据库,实现以大数据为基础的数据比对及分析。
/
图1.1 16SrRNA检测技术流程图
1.2 NCBI简介
NCBI(美国国立生物技术信息中心)数据库是目前最大的开源的生物信息数据库,与DDBJ、EMBL数据库并称为世界三大生物信息数据库,并且这三个数据库互相合作、数据共享,其中包括各种DNA数据、RNA数据以及蛋白质数据。甚至还有一些专门的生物学数据库。NCBI数据库每天以2PB的数据量进行更新,其数据量非常大,但这也导致了NCBI数据库上数据的质量并不高,如果想要基于NCBI建立数据库必须要对数据进行过滤。与此同时,NCBI特地提供了FTP服务,让世界各地的科研工作者可以从FTP上下载数据。本课题也是基于NCBI数据库建立的,通过从NCBI上获取16SrRNA的信息来构建数据库。图1.2是NCBI的主页面。
/
图1.2 NCBI的主页面
1.3 爬虫简介
爬虫即自动抓取互联网上信息的程序。Python爬虫的框架主要包括调度器、URL管理器、网页下载器、网页解析器和应用程序五个部分。作用机理可见图1.3。对于一般的使用Python编写的爬虫程序而言,大多数网页下载器采用的是urllib2和request模块;网页解析器采用的一般是re正则表达式模块和beautifulsoup模块。通过这些模块,可以从网上自动获取所需信息。但是,爬虫也有着它的劣势,首先对网络的需求较高,访问一些国外的网站容易出现访问错误,这时候会导致爬虫出错。其次,现在网页越做越大,爬取一些数据耗费的时间成本也在上升。最重要的是,由于动态网页框架(如AJAX)的出现,导致爬取的策略难以定制,有些网站甚至还有着反爬虫机制。所以在本课题中利用爬虫爬取NCBITaxonomy数据库中的准确的Taxonomy信息。
/
图1.3 爬虫框架的相互作用图
1.4 16SrRNA概述
细菌中包含有若干种不同的核糖体RNA,16SrRNA就是其中的一种,16SrDNA是与16SrRNA相对应的基因组DNA,在SILVA数据库中16SrRNA的数据被归类至SSU数据库中。如图1.4是大肠杆菌16SrRNA的16SrDNA的数据,也可以用该序列表示该菌的16SrRNA。
/
图1.4 E.coli 16S rRNA序列
通过对细菌的16SrDNA进行测序,根据得到的序列信息可以对该细菌进行种属的鉴定。目前科学研究表明,16SrRNA普遍存在于原核生物中,作为参与蛋白质生物合成过程中的重要组成部分。从对16SrRNA序列信息的分析来看,可以将整个序列分为9个可变区和10个保守区。如图1.5,绿色部分为保守区,灰色部分为可变区。由于16SrRNA存在着这样的结构,所以可以通过保守区的序列来分析物种之间的亲缘关系,利用可变区来分析物种之间的个体差异性。所以16SrRNA可以看作生物演变的时间钟。其次,根据对16SrRNA分子大小的研究,16SrRNA的相对分子量适中,序列长度约为1540bp,相对于目前的测序技术而言,十分有利于序列的分析。目前一般的测序设备如MiSeq可以测序的序列长度范围大致在250300bp左右,HiSeq测序长度一般在150bp左右。而目前16SrRNA测序测的大部分是在V3至V4区之间的序列,序列长度约为500bp,所以通过双端测序,然后通过序列比对进行拼接可以得到完整的序列。恒定区的序列可以用于引物的设计。通过测序后得到的16SrRNA序列可用于细菌的生物学分类研究。
目 录
1.前言 1
1.1 课题背景 1
1.2 NCBI简介 1
1.3 爬虫简介 2
1.4 16SrRNA概述 3
1.5 其他16SrRNA数据库 5
1.6 研究内容和意义 7
1.6.1 研究内容 7
1.6.2 研究意义 8
1.7 总结 8
2.实验部分 9
2.1 数据来源和获取 9
2.1.1 实验所用软件 9
2.1.2 数据来源 9
2.2 SEQ文件的处理 10
2.2.1 SEQ文件结构 10
2.2.2 SEQ文件单元对象化 12
2.2.3 筛选Object文件 12
2.3 利用爬虫获取Taxonomy信息 13
2.3.1 网页获取Taxonomy信息 13
2.3.2 利用爬虫爬取网页Taxonomy信息 13
2.4 多序列比对 15
2.4.1 clustal omega序列比对 15
2.4.2 identity矩阵 16
2.5 数据库的构建 17
3.结果与讨论 18
3.1 结果 18
3.1.1 新16SrRNA数据库 18
3.1.2 数据库统计 18
3.2 讨论 20
3.2.1 数据库存在的问题 20
3.2.2 数据库的优化方案 20
4.结论与展望 21
参考文献 2 *好棒文|www.hbsrm.com +Q: ^351916072#
2
致谢 23
1.前言
1.1 课题背景
随着基因测序的水平不断的提高,人们逐步将测序的目光转移到人体内的微生物上。目前,关于人体微生物尤其是肠道微生物的研究已经成为一个炙手可热的话题。16SrRNA检测技术是目前比较流行的一种人体微生物检测技术,通过该技术可以得到人体内细菌的相对丰度变化,从而为构建疾病模型做准备。16SrRNA检测技术(流程见图1.1),在16SrRNA检测技术中有一个构建OTU表的环节,在做这个环节之前需要匹配OTU对应的菌种及其生物学分类信息,完成这项工作就需要准确的微生物16SrRNA参考数据库,这个数据库应当包含微生物16SrRNA的序列信息以及详细准确的生物学分类信息等。目前许多文献报道中所用的数据库都存在着或多或少的问题,如数据存储、呈现方式各不相同,生物学分类信息不准确等,这些问题会导致最后得到的结果不准确。因此有必要建立一个对不同来源的数据进行统一化处理、集中储存管理的数据库,实现以大数据为基础的数据比对及分析。
/
图1.1 16SrRNA检测技术流程图
1.2 NCBI简介
NCBI(美国国立生物技术信息中心)数据库是目前最大的开源的生物信息数据库,与DDBJ、EMBL数据库并称为世界三大生物信息数据库,并且这三个数据库互相合作、数据共享,其中包括各种DNA数据、RNA数据以及蛋白质数据。甚至还有一些专门的生物学数据库。NCBI数据库每天以2PB的数据量进行更新,其数据量非常大,但这也导致了NCBI数据库上数据的质量并不高,如果想要基于NCBI建立数据库必须要对数据进行过滤。与此同时,NCBI特地提供了FTP服务,让世界各地的科研工作者可以从FTP上下载数据。本课题也是基于NCBI数据库建立的,通过从NCBI上获取16SrRNA的信息来构建数据库。图1.2是NCBI的主页面。
/
图1.2 NCBI的主页面
1.3 爬虫简介
爬虫即自动抓取互联网上信息的程序。Python爬虫的框架主要包括调度器、URL管理器、网页下载器、网页解析器和应用程序五个部分。作用机理可见图1.3。对于一般的使用Python编写的爬虫程序而言,大多数网页下载器采用的是urllib2和request模块;网页解析器采用的一般是re正则表达式模块和beautifulsoup模块。通过这些模块,可以从网上自动获取所需信息。但是,爬虫也有着它的劣势,首先对网络的需求较高,访问一些国外的网站容易出现访问错误,这时候会导致爬虫出错。其次,现在网页越做越大,爬取一些数据耗费的时间成本也在上升。最重要的是,由于动态网页框架(如AJAX)的出现,导致爬取的策略难以定制,有些网站甚至还有着反爬虫机制。所以在本课题中利用爬虫爬取NCBITaxonomy数据库中的准确的Taxonomy信息。
/
图1.3 爬虫框架的相互作用图
1.4 16SrRNA概述
细菌中包含有若干种不同的核糖体RNA,16SrRNA就是其中的一种,16SrDNA是与16SrRNA相对应的基因组DNA,在SILVA数据库中16SrRNA的数据被归类至SSU数据库中。如图1.4是大肠杆菌16SrRNA的16SrDNA的数据,也可以用该序列表示该菌的16SrRNA。
/
图1.4 E.coli 16S rRNA序列
通过对细菌的16SrDNA进行测序,根据得到的序列信息可以对该细菌进行种属的鉴定。目前科学研究表明,16SrRNA普遍存在于原核生物中,作为参与蛋白质生物合成过程中的重要组成部分。从对16SrRNA序列信息的分析来看,可以将整个序列分为9个可变区和10个保守区。如图1.5,绿色部分为保守区,灰色部分为可变区。由于16SrRNA存在着这样的结构,所以可以通过保守区的序列来分析物种之间的亲缘关系,利用可变区来分析物种之间的个体差异性。所以16SrRNA可以看作生物演变的时间钟。其次,根据对16SrRNA分子大小的研究,16SrRNA的相对分子量适中,序列长度约为1540bp,相对于目前的测序技术而言,十分有利于序列的分析。目前一般的测序设备如MiSeq可以测序的序列长度范围大致在250300bp左右,HiSeq测序长度一般在150bp左右。而目前16SrRNA测序测的大部分是在V3至V4区之间的序列,序列长度约为500bp,所以通过双端测序,然后通过序列比对进行拼接可以得到完整的序列。恒定区的序列可以用于引物的设计。通过测序后得到的16SrRNA序列可用于细菌的生物学分类研究。
版权保护: 本文由 hbsrm.com编辑,转载请保留链接: www.hbsrm.com/hxycl/yyhx/268.html