长江刀鲚精巢转录组微卫星分布特征的研究
利用perl语言,对长江刀鲚精巢转录组序列进行大通量SSR位点的发掘,发现SSRs的序列18,104条, 共13,028个SSRs,平均3.22kb出现一个SSR。在长江刀鲚的转录组中共发现404种碱基重复模式,其中以单核苷重复基序(A/T)n为主导类型,占35.42%。在42,642条注释成功的刀鲚Unigene中,共发现11,367个SSR位点,其中位于编码区的2047个,其出现频率仅为0.179SSR/1000bp,而非编码区为 2.872 SSR/1000 bp。在基因编码区中出现频率最高的是三碱基微卫星(4373 ,33.5%),最低的是五碱基微卫星(6, 0.04%)。刀鲚精巢转录组所含微卫星以重复长度20-300bp的序列最多,大于 300 bp 的为 12.78%。刀鲚精巢转录组中,含微卫星基因的平均表达水平显著低于不含微卫星基因,其中含复杂微卫星基因的平均基因表达水平最低。关键字刀鲚;微卫星;转录组;分布特征Characterization of microsatellite in Testis of Coilia ectenes from Yangtse River transcriptomeStudent majoring in Aquaculture Chen Suhua Tutor Fang Di-anAbstract:The microsatellites or simple sequence repeats (SSRs) in testis transcriptome of Coilia ectenes were characterized. A total of 18 104 SSRs were identified in 13 028 unigenes, with one SSR per 3.22 kb. Among all 404 SSR motifs, (A/T)n was the most frequent repeat motif (35.42%). A total of 11 367SSRs occurred in 42 642 unigenes with Blast matches to annotated proteins in four databases, only 2 047 of *好棒文|www.hbsrm.com +Q: @351916072@
which occurred in protein-coding regions of these sequences. The density of SSRs was much higher in non-coding regions than in coding regions (0.179 SSRs per 1000 base pairs in coding regions vs. 2.872 in non-coding regions). In the six repeat motifs, tri-nucleotide repeats were the most abundant in coding regions (4373,33.5%), penta-nucleotide (6,0.04%) repeats were the lowest frequency. The expression level of genes containing microsatellites was significantly lower than that not containing microsatellites. The overall expression levels of genes containing compound microsatellites were lowest.微卫星(microsatellite)又称SSR (simple sequence repeats,简单重复序列),由少数几个核苷酸组成的串联重复序列,一般以1~6个碱基为核心序列,是广泛存在于真核生物基因组中的高度重复序列,少数原核生物基因组中也有[1]。有很多研究致力于微卫星的丰度和分布,进而研究微卫星在物种间的差异,由此揭示物种的产生机制、进化及功能等。微卫星标记具有高多态性、多等位性、共显性、高可重复性、数量丰富且对基因组有很好覆盖性等特点[2-3],是进行物种亲缘关系研究及遗传多样性分析的有效工具,能客观地反映群体间的遗传变异和分化,而且试验成本低、结果相对稳定、操作简单,是不同物种遗传研究中使用最广泛、发展最迅速的分子标记技术[4-5]。一系列的研究结果表明,微卫星等位基因数目与重复单位数目有明显的正相关,它能更加有效地揭示遗传多样性。在真核生物基因组中,微卫星一般出现于内含子和基因间隔区,也出现在DNA编码区。目前许多研究表明,编码区中微卫星序列的变异,会导致基因表达产物的改变。在人类及动物中[6-7],基因中的微卫星序列长度的改变将会引起相应基因的功能变化,同时编码区微卫星发生频率比其他基因组区域要低,在植物[8-11]中也有相关报道。如人类和动物中有许多编码区微卫星序列的变异引起表型变化或导致遗传疾病发生,在杨树和水稻等不同物种基因组中编码区微卫星的变异发生频率均低于编码区。长江刀鲚是长江中下游重要的经济鱼类之一,属鲱形目、鳀科、鲚属,为洄游性鱼类,分布在大西洋以西,在我国产于黄渤海和东海一带,凡通海的江河如辽河、黄河、海河、长江、钱塘江均能见到。每年3-5月份鱼群会群集从进海口逆流而上,进入江河生殖洄游,长江刀鲚味鲜美,营养价值高。刘引兰[12]等人的报道中较为详细地综述了刀鲚的体态特征、生活习性、食性及遗传多样性方面的特点,为刀鲚资源的保护与利用提供大量资料。由于近年来捕捞量的增加以及水域生态环境的变化,长江刀鲚产量逐年下降[12-14],生物资源的保护尤为重要,遗传多样性研究有助于揭示生物多样性各个层次潜在的遗传进程[15],是生物多样性保护和持续利用研究的前提,微卫星标记为遗传多样性研究方法的其中之一。到目前为止,刀鲚的遗传多样性研究方面以取得一定的成果,马春艳[16]和李东红[17]等人分别运用RAPD、ISSR标记对长江刀鲚进行遗传多样性分析,其结果一致表明刀鲚群体的遗传多样性比较丰富,物种的遗传多样性越丰富,其适应能力、生存能力和进化潜力就越大,这说明刀鲚的适应性和进化潜力比较大,不同区域的刀鲚还存在一定的种群分化,但是近几年的调查中发现长江刀鲚群体遗传多样性水平下降,这可能是受到过度捕捞和水域生态环境的变化的威胁。刀鲚转录组微卫星的相关研究目前还是一片空白,对刀鲚的转录组测序进行微卫星研究,有利于资源的鉴定、保护和利用。近年来在植物转录组SSR分布方面的研究较多,如茶树、辣椒、小麦、大麦等的转录组位点分析,不仅只在转录组微卫星的数量分布方面进行实验,并且分析其主导基序的频率发生,深入联系微卫星与生物个体性状和遗传信息的关系,人类和鼠[18-20]也有一定的研究,但是在鱼类方面的研究较少,长江刀鲚精巢转录组微卫星的研究将以此作为基础,设计实验进行研究分析。本研究通过Illumina转录组测序(RNA-Seq)获得的148827条刀鲚精巢转录组序列进行微卫星位点的搜索,并对找出的微卫星重复序列进行分析,比较转录组序列中基因编码区和基因非编码区中微卫星的发生频率和组成差异,了解长江刀鲚精巢转录组序列所含微卫星重复序列的特征和组成情况,比较分析含有微卫星基因和不含有微卫星基因的总体表达水平,并明确前者是否偏低,以期为刀鲚基因表达调控研究、微卫星标记开发、刀鲚基因组遗传进化提供研究基础。1 材料与方法 1.1 材料及数据来源2013年4 月~7 月,在长江各江段段采集刀鲚,取刀鲚精巢部分,提取该组织的的mRNA,进行Illumina转录组测序,共得到19596949个clean reads,其测序碱基数量为3.9G bp,拼接获得的刀鲚Unigene42642个。刀鲚的转录组平均测序深度(Depth,等于reads碱基数/Unigene序列长度)为23.46,测序平均覆盖度(Coverage,等于Unigene中有reads覆盖的碱基数/Unigene序列长度)为0.846。测序原始数据已经上传至美国国家生物技术信息中心(National Center for Biotechnology Information,NCBI)的Short Read Archive (http://www.ncbi.nlm.nih.gov/sra/),登录号为SRA053025。长度大于200 bp组装序列已经上传至NCBI。1.2 基于perl语言的简单重复序列(SSR)分析搜索 利用 perl操作平台下的 MISA软件(MISA-MIcroSAtellite identification tool , MISA) (http://pgrc.ipk-gatersleben.de/misa/)在Unigene中搜索SSR位点,设置单核苷酸、二核苷酸、三核苷酸、四核苷酸、五核苷酸和六核苷酸最少重复次数分别为15、6、5、4、4和3。复合SSR两个位点间最大间隔碱基数(Maximal number of bases interrupting 2 SSRs in a compound microsatellite):100。1.3 基因表达量计算方法 使用RPKM法(Reads Per kb per Million reads),RPKM=(1 000 000*C)/(N*L*1000)。设RPKM为Unigene A的表达量,则C为比对到Unigene A的reads数,N为比对到所有Unigene的总reads数,L为Unigene A的碱基数。RPKM法能消除基因长度和测序量差异对计算基因表达的影响,计算得到的基因表达量可直接用于比较不同样品间的基因表达差异。1.4 编码蛋白框预测 下载Windows下使用的32位版的本地比对软件blast-2.2.23-ia32-win32.exe (ftp://ftp.ncbi.nlm.nih.gov/blast/executables/release/LATEST/blast-x.x.x-ia32-win32.exe),并按照操作说明安装。再通过本地化的Blast比对,将刀鲚的Unigene序列与蛋白数据库nr、Swiss-Prot、KEGG和COG做Blastx比对,比对参数为E-value<10-5,取比对结果最好的蛋白作为Unigene的序列方向。如果不同库之间的比对结果有矛盾,则按nr、Swiss-Prot、KEGG和COG的优先级确定Unigene的序列方向;对于和以上4个库皆比不上的Unigene,用软件ESTScan预测其编码区并确定序列的方向。2 结果与分析 2.1 刀鲚精巢转录组序列中 SSR 重复基元分布利用perl操作平台下的MISA软件(MISA - MIcroSAtellite identification tool,MISA) (http://pgrc.ipk-gatersleben.de/misa/)分析11824条刀鲚Unigene序列的SSRs特征,序列拼接总长度为38,766,416 kb,其中含不同重复基元SSRs的序列有18,104条, 共13,028个SSRs,包含SSR的一致序列出现频率为18.46%,SSR的出现频率仅为0.179SSR/1000bp,平均相隔3.22 kb出现一个SSR序列。SSR序列平均长度约为278.55kb,在刀鲚转录组中SSR序列约占整个转录组序列的百分之一。在13,028SSR中共有404种重复基元(motif)。其中,单碱基重复基元出现频率最多的是(A/T)n,所占比例为89.59%,二碱基重复基元出现频率最多的是(TG/GT)n,所占比例为43.11%,三、四碱基重复基元中出现频率最多的分别是 (GAG/GGA/CAG)n、(TGTT/GTTT)n,它们在各自重复基元类型中的比例分别是22.03%、9.09%。五碱基共发现6种,(CTAGC/CTTTC/GACCA/GGCAG/TCTCT/TGGGG)n在各自重复基元类型中均占16.67%。在所有类型的重复基元中,二核苷酸重复基元出现的频率最高,为40.54%,其次分别为一、三、四和五核苷酸重复基元(表1)。表1 长江刀鲚转录中不同微卫星重复基元(motif)出现的频率Table 1 Occurrence frequency of different microsatellites motifs of Coilia nasus transcriptome重复基元类型 Repeat types数量No.频率Frequency(%)最多的重复基元(数量和百分比)Maximum repeat motif(No. and percentage)单核苷酸Nucleotides426539.54A/T(3821,89.59%)二核苷酸 Binucleotide repeats437340.54TG/GT(1885,43.11%)三核苷酸 Trinucleotide repeats193417.93GAG/GGA/CAG(426,22.03%)四核苷酸Tetranucleotide repeats2091.94TGTT/GTTT(19,9.09)五核苷酸 Pentanucleotide repeats60.05CTAGC/CTTTC/GACCA/GGCAG/TCTCT/TGGGG(1,16.7%)在发现的404种碱基重复模式中,所占比例最高的是单核苷酸(A/T)n(35.42%),其次是二核苷酸(TG/GT)n(17.47%),(AC/CA)n(13.94%),(AG/GA)n(4.67%),(C/G)n(4.12%),(GAG/GGA/CAG)n(3.95%),四、五核苷酸所占比例较少,总计1.99%。2.2 微卫星在刀鲚精巢转录组编码区中的分布特征 刀鲚精巢转录组中,有42.642条刀鲚unigene序列功能注释成功,序列总长度为38,766,416 bp,其中蛋白编码区(CDS)序列长度为28864453bp,占74.46%。在42,642条注释成功的刀鲚Unigene中,共发现11824个SSR位点,其中位于编码区的SSR位点数仅为1917个。在刀鲚精巢转录组的基因编码区SSR的出现频率仅为0.179 SSR/1 kb,而在非编码区为0.272 SSR/1 kb。在基因编码区中出现频率最高的是二碱基重复类型的微卫星(4373, 40.54%),最低的是五碱基重复(6, 0.04%)。2. 3 刀鲚转录组序列中微卫星的长度分布 刀鲚精巢转录组中所发现的13,028个微卫星长度存在极显著变异,从200~3000个碱基不等,平均长度为427个碱基(单碱基重复10次以上的结果)。如图1显示,刀鲚微卫星以重复长度200-300 bp的短重复序列最多,长度大于300 bp的长序列重复占微卫星总数的36.32%。进而,利用SPSS软件进行Person相关性分析,表明刀鲚微卫星的出现频率和微卫星的长度呈极显著负相关,相关系数为–0.636。图1 刀鲚转录组序列中微卫星的长度分布 Figure 1 Length distribution of microsatellites in testis of Coilia ectenes transcriptome2.4 刀鲚精巢转录组中SSR序列对基因表达水平的影响 刀鲚226,535,601条转录组的序列中,含微卫星的表达序列为38,766,416bp, 占序列总数的比例为17.11%。为了研究微卫星对基因表达水平的影响,将18,104条含微卫星的基因的平均RPKM值与86,563条不含微卫星基因的平均表达水平比较。计算结果表明,不含微卫星基因的平均RPKM值为32.68,是含微卫星重复基因的平均RPKM值(25.45)的1.29倍。方差分析的结果也表明,两组数据间存在极显著差异。Weber 将微卫星分为三种类型,即单纯(pure) 微卫星、复合(compound) 微卫星,和间隔(interrupted) 微卫星。本研究发现含有复合SSR(compound repeats)和间隔SSR(Interrupted SSR)Unigene序列的平均RPKM值分别为16.87、14.26,显著低于仅含有单纯型SSR(Pure SSR)的Uningene序列的平均RPKM值(>25.73)。相关分析表明, SSR序列长度与基因表达水平RPKM呈显著负相关,相关系数为-0.057。3 讨论 3.1 长江刀鲚精巢转录组中 SSR 微卫星分布特征本研究对11824条长江刀鲚的Unigene序列进行微卫星分布特征分析,在11824条序列中共发现13,028个微卫星,包含SSR的序列出现频率为16.66%,SSR的出现频率为0.179 SSR/1 kb,平均相隔3.22 kb出现一个SSR序列。在茶树花转录组微卫星研究中,王丽鸳[9]等人的研究结果与杨华[8]等人的研究结果有所不同,研究结果较高,这或许与SSR搜索标准、序列数量等不一致有关,由于长江刀鲚精巢转录组微卫星的分布特征研究报道还较少,所以暂时无法进行比较,将在后期进行更深入的研究。此外,在人类基因组[21]中约每6kb就有一个微卫星,禽类[22-23]基因组中约89kb出现1个微卫星,与长江刀鲚精巢转录组的研究结果有很大差异,这可能与物种差异有关。本研究发现,刀鲚精巢以200-300 bp的微卫星重复序列最多。根据这一结果,我们判断刀鲚表达基因所含的微卫星可能受到强烈趋同选择的压力,而使其富集在较短的序列范围内。在泥蚶[24]中,微卫星重复以二碱基为主,水稻、小麦、大麦等作物[25]中微卫星重复以三碱基重复为主,而刀鲚是以单碱基重复为主。3. 2 三、五碱基重复在刀鲚蛋白编码区中的富集 本实验研究发现,刀鲚精巢转录组微卫星序列主要分布在非编码区,编码区微卫星分布频率为非编码区的1/28,转录组编码区序列所含微卫星数量远低于基因非编码区,说明基因上游调控区域富含微卫星;基因编码区序列中的微卫星以三碱基重复为主,而非编码区以二碱基重复为主。许多研究都表明基因编码区中发现最多的微卫星类型是三碱基重复微卫星,这可能是三联体密码子选择作用的结果,因为其他几种类型的重复单元(五碱基重复除外)重复次数的改变会导致阅读框的改变,导致移码突变,使基因表达产物产生完全不同的蛋白或变短。由于三碱基和五碱基重复单元重复次数的变化不改变基因读码框,对基因表达产物的影响相对较小,所以编码区序列对三碱基及五碱基微卫星重复有更好的容受性,在选择作用下,会导致三碱基及五碱基微卫星的富集。本研究结果显示,在刀鲚基因编码区中,三碱基和五碱基微卫星显著富集,分别占微卫星总数的17.93%和0.04%,三、五碱基重复占全部碱基重复的18.97%,这与杨树和茶树中的研究结果一致。这一现象也说明三、五碱基重复微卫星富集是基因编码区微卫星在基因组中得以保存的重要机制。3.3 刀鲚精巢转录组序列中 SSR 长度分布及其对基因表达水平的影响 由重复单元的重复次数不同造成的多态性常常表现为复等位性,在不同的基因型间存在广泛的多态性。大多数研究者认为这种多态性的起因是由于复制过程中的滑动。这说明微卫星长度的变化反映微卫星位点获得(或失去)重复单元的活跃程度。基因序列中的微卫星增加了基因的不稳定性,同时也为基因变异提供了动力。微卫星序列越长,其DNA序列的越不稳定,特别是在基因区,微卫星序列越长或重复次数越多,该基因就越不稳定。越来越多的研究表明,微卫星并不仅仅是通常认为的中性遗传标记。在杨树[26]表达序列的微卫星分布研究中发现,微卫星可以在基因转录及转录后水平影响基因的表达。而Streelman[27]等在罗非鱼中研究表明,微卫星长度与基因表达强度相关,在无环境胁迫的条件下微卫星长度越长,基因表达水平越低,在有环境胁迫的条件下则反之。本课题研究发现,刀鲚精巢转录组中,含微卫星序列基因的整体表达水平显著低于不含有微卫星序列基因的整体表达水平,其中含复杂微卫星序列的基因整体表达水平最低,且基因表达水平与微卫星的长度呈负相关。含微卫星的基因表达水平偏低会规避部分选择压力,有利于相应基因在基因组中的保存。结论 在刀鲚精巢转录组中,微卫星序列主要分布在非编码区。基因编码区序列中的微卫星以三碱基重复为主,而非编码区以二碱基重复为主。刀鲚微卫星以重复长度200-300 bp的短微卫星重复序列最多,占微卫星总数的36.32%,大于300 bp的长微卫星占微卫星总数的25.22%。刀鲚SSR出现频率与SSR长度呈显著负相关,SSR频率随着重复次数增加呈明显下降趋势,而且碱基重复次数越少,SSR数量的下降越快。刀鲚精巢转录组中,含微卫星基因的平均表达水平显著低于不含微卫星基因的平均表达水平,其中含复杂微卫星基因的平均基因表达水平最低。致谢参考文献[1] He P(何平). Abundance, polymorphism and applications of microsatellite in eukaryote. Hereditas (遗传), 1998,20(4): 42–47.[2] 郝大程,马培,穆军,等.中药植物虎杖根的高通量转录组测序及转录组特性分析[J].中国科学.2012,42(5):398-412.[3] 徐莉,赵桂仿.微卫星DNA标记技术及其在遗传多样性研究中的应用[J].西北植物学报.2002,22(3):714-722.[4] 张玲.微卫星DNA标记研究进展及应用[J].安徽农业科学.2007,35(4)972-975.[5] 孙效文,张晓锋,赵莹莹,等.水产生物微卫星标记技术研究进展及其应用[J].中国水产科学.2008,15(4):689-703.[6] Tracey E S,Kirstin L B,Jing Yao,Stefano S,Pamda-Sheela J.The praline-rich homeodomain protein recruits members of the groucho/transducin-like enhancer of split protein family to co-repress transcription in hematopoietic cell[J].Biological Chemistry,2004,279:34 938-34 947.[7] 赵琛.基于高通暈RNA测序的大鼠转录组注释研究[D].上海:华东师范大学,2012:6-85.[8] 杨华,陈琪,韦朝领,等.茶树转录组SSR位点的信息分析[J].安徽农业大学学报.2011,38(6):882-886.[9] 王丽鸳,韦康,张成才,等.茶树花转录组微卫星分布特征[J].作物学报.2013,9(29):1-7.[10] 刘峰,王运生,田雪亮,等.辣椒转录组SSR挖掘及其多态性分析[J].园艺学报.2012,39(1):168-174.[11] 王晓峰,何卫龙,蔡卫佳,等.马尾松转录组测序和分析[J].分子植物种.2013,11(3):385-392.[12] 刘引兰,吴志强,胡茂林,等.我国刀鲚研究进展[J].水产科学.2008,27(4)205-207.[13] 闻海波,张呈祥,徐纲春,等.长江刀鲚营养成分分析与品质评价[J].广东海洋大学学报, 2008,28(6):20-24.[14] 张敏莹,徐东坡,刘凯,等.长江下游刀鲚生物学及最大持续产量研究[J].长江流域资源与环境, 2005,14(6):694-698.[15] 全迎春,孙效文,梁利群,等.应用微卫星多态分析四个鲤鱼群体的遗传多样性[J].动物学研究.2005,26(6):595-602.[16] 马春艳,刘敏,马凌波,等.长江口刀鲚遗传多样性的随机扩增多态DNA(RAPD)分析[J].海洋水产研究.2004,25(5):19-24.[17] 李东红.不同年间长江刀鲚形态差异及遗传多样性研究[D].江苏:扬州大学,2011:1-55.[18] 赵国光,焦飞,罗海涛,等.基于转录组测序在人类全基因内鉴定与癌症相关的polyadenylation和non- polyadenylation RNA[J].中国科学,2013,43(5):376-386.[19] 龚未,潘林林,林强,等.基于新一代测序方法的小鼠睾丸出生后发育的转录组研究[J].中国科学,2013,43(2):137-150.[20] Kuo-Yang Huang, Jyh-Wei Shin, Po-Jung Huang, Fu-Man Kua, Wei-Chen Lina, Rose Lina,Wei-Min Hsua, Petrus Tang. Functional profiling of the Tritrichomonas foetus transcriptome and proteome[J]. Molecular & Biochemical Parasitology.2012,187(2013):60-71.[21] 况少青,傅刚,陈竺,等.微卫星标记分析在人类基因组多样性研究中的应用[J].国外医学遗传学分册.1997,20(1):5-9.[22] 王昕,耿社民,朱育红,等.微卫星标记在家禽育种中的应用[J].黄牛杂志.2002,28(1):39-43.[23] 李亮,朱庆.微卫星标记及其在家禽遗传育种中的应用[J].中国农禽.2000,22(8):32-33.[24] 董迎辉.泥蚶高通量转录组分析及生长相关基因的克隆与表达研究[D].山东:中国海洋大学.20125-160.[25] Li X, Shangguan L, Song C, Wang C, Gao Z, Yu H, Fang J. Analysis of expressed sequence tags from Prunus mume flower and fruit and development of simple sequence repeat markers. BMC Genet, 2010, 11: 66.[26] 刘菁菁,戴晓港,王洁,等.杨树微卫星序列对基因表达频率的影响及表达序列中微卫星特征的分析[J].南京林业大学学报.2011,35(1):11-14.[27] Streelman J, Kocher Microsatellite variation associated with prolactin expression and growth of salt challenged Tilapia. Physiol Genom, 2002,9:1-4.
目录
摘要 1
关键字 1
Abstract. 1
Key words 1
1 材料与方法 2
1.1 材料及数据来源 2
1.2 基于perl语言的简单重复序列(SSR)分析搜索 3
1.3 基因表达量计算方法 3
1.4 编码蛋白框预测 3
2 结果与分析 3
2.1 刀鲚精巢转录组序列中 SSR 重复基元分布 3
2.2 微卫星在刀鲚精巢转录组编码区中的分布特征 4
2..3 刀鲚转录组序列中微卫星的长度分布 4
2.4 刀鲚精巢转录组中SSR序列对基因表达水平的影响 4
3 讨论 5
3.1 长江刀鲚精巢转录组中 SSR 微卫星分布特征 5
3.2 三、五碱基重复在刀鲚蛋白编码区中的富集 5
3.3 刀鲚精巢转录组序列中 SSR 长度分布及其对基因表达水平的影响 5
4 结论 6
致谢 6
参考文献 6
表1长江刀鲚转录中不同微卫星重复基元(motif)出现的频率 3
图1刀鲚转录组序列中微卫星的长度分布 4
长江刀鲚精巢转录组微卫星分布特征
水产养殖 陈素华
引言
which occurred in protein-coding regions of these sequences. The density of SSRs was much higher in non-coding regions than in coding regions (0.179 SSRs per 1000 base pairs in coding regions vs. 2.872 in non-coding regions). In the six repeat motifs, tri-nucleotide repeats were the most abundant in coding regions (4373,33.5%), penta-nucleotide (6,0.04%) repeats were the lowest frequency. The expression level of genes containing microsatellites was significantly lower than that not containing microsatellites. The overall expression levels of genes containing compound microsatellites were lowest.微卫星(microsatellite)又称SSR (simple sequence repeats,简单重复序列),由少数几个核苷酸组成的串联重复序列,一般以1~6个碱基为核心序列,是广泛存在于真核生物基因组中的高度重复序列,少数原核生物基因组中也有[1]。有很多研究致力于微卫星的丰度和分布,进而研究微卫星在物种间的差异,由此揭示物种的产生机制、进化及功能等。微卫星标记具有高多态性、多等位性、共显性、高可重复性、数量丰富且对基因组有很好覆盖性等特点[2-3],是进行物种亲缘关系研究及遗传多样性分析的有效工具,能客观地反映群体间的遗传变异和分化,而且试验成本低、结果相对稳定、操作简单,是不同物种遗传研究中使用最广泛、发展最迅速的分子标记技术[4-5]。一系列的研究结果表明,微卫星等位基因数目与重复单位数目有明显的正相关,它能更加有效地揭示遗传多样性。在真核生物基因组中,微卫星一般出现于内含子和基因间隔区,也出现在DNA编码区。目前许多研究表明,编码区中微卫星序列的变异,会导致基因表达产物的改变。在人类及动物中[6-7],基因中的微卫星序列长度的改变将会引起相应基因的功能变化,同时编码区微卫星发生频率比其他基因组区域要低,在植物[8-11]中也有相关报道。如人类和动物中有许多编码区微卫星序列的变异引起表型变化或导致遗传疾病发生,在杨树和水稻等不同物种基因组中编码区微卫星的变异发生频率均低于编码区。长江刀鲚是长江中下游重要的经济鱼类之一,属鲱形目、鳀科、鲚属,为洄游性鱼类,分布在大西洋以西,在我国产于黄渤海和东海一带,凡通海的江河如辽河、黄河、海河、长江、钱塘江均能见到。每年3-5月份鱼群会群集从进海口逆流而上,进入江河生殖洄游,长江刀鲚味鲜美,营养价值高。刘引兰[12]等人的报道中较为详细地综述了刀鲚的体态特征、生活习性、食性及遗传多样性方面的特点,为刀鲚资源的保护与利用提供大量资料。由于近年来捕捞量的增加以及水域生态环境的变化,长江刀鲚产量逐年下降[12-14],生物资源的保护尤为重要,遗传多样性研究有助于揭示生物多样性各个层次潜在的遗传进程[15],是生物多样性保护和持续利用研究的前提,微卫星标记为遗传多样性研究方法的其中之一。到目前为止,刀鲚的遗传多样性研究方面以取得一定的成果,马春艳[16]和李东红[17]等人分别运用RAPD、ISSR标记对长江刀鲚进行遗传多样性分析,其结果一致表明刀鲚群体的遗传多样性比较丰富,物种的遗传多样性越丰富,其适应能力、生存能力和进化潜力就越大,这说明刀鲚的适应性和进化潜力比较大,不同区域的刀鲚还存在一定的种群分化,但是近几年的调查中发现长江刀鲚群体遗传多样性水平下降,这可能是受到过度捕捞和水域生态环境的变化的威胁。刀鲚转录组微卫星的相关研究目前还是一片空白,对刀鲚的转录组测序进行微卫星研究,有利于资源的鉴定、保护和利用。近年来在植物转录组SSR分布方面的研究较多,如茶树、辣椒、小麦、大麦等的转录组位点分析,不仅只在转录组微卫星的数量分布方面进行实验,并且分析其主导基序的频率发生,深入联系微卫星与生物个体性状和遗传信息的关系,人类和鼠[18-20]也有一定的研究,但是在鱼类方面的研究较少,长江刀鲚精巢转录组微卫星的研究将以此作为基础,设计实验进行研究分析。本研究通过Illumina转录组测序(RNA-Seq)获得的148827条刀鲚精巢转录组序列进行微卫星位点的搜索,并对找出的微卫星重复序列进行分析,比较转录组序列中基因编码区和基因非编码区中微卫星的发生频率和组成差异,了解长江刀鲚精巢转录组序列所含微卫星重复序列的特征和组成情况,比较分析含有微卫星基因和不含有微卫星基因的总体表达水平,并明确前者是否偏低,以期为刀鲚基因表达调控研究、微卫星标记开发、刀鲚基因组遗传进化提供研究基础。1 材料与方法 1.1 材料及数据来源2013年4 月~7 月,在长江各江段段采集刀鲚,取刀鲚精巢部分,提取该组织的的mRNA,进行Illumina转录组测序,共得到19596949个clean reads,其测序碱基数量为3.9G bp,拼接获得的刀鲚Unigene42642个。刀鲚的转录组平均测序深度(Depth,等于reads碱基数/Unigene序列长度)为23.46,测序平均覆盖度(Coverage,等于Unigene中有reads覆盖的碱基数/Unigene序列长度)为0.846。测序原始数据已经上传至美国国家生物技术信息中心(National Center for Biotechnology Information,NCBI)的Short Read Archive (http://www.ncbi.nlm.nih.gov/sra/),登录号为SRA053025。长度大于200 bp组装序列已经上传至NCBI。1.2 基于perl语言的简单重复序列(SSR)分析搜索 利用 perl操作平台下的 MISA软件(MISA-MIcroSAtellite identification tool , MISA) (http://pgrc.ipk-gatersleben.de/misa/)在Unigene中搜索SSR位点,设置单核苷酸、二核苷酸、三核苷酸、四核苷酸、五核苷酸和六核苷酸最少重复次数分别为15、6、5、4、4和3。复合SSR两个位点间最大间隔碱基数(Maximal number of bases interrupting 2 SSRs in a compound microsatellite):100。1.3 基因表达量计算方法 使用RPKM法(Reads Per kb per Million reads),RPKM=(1 000 000*C)/(N*L*1000)。设RPKM为Unigene A的表达量,则C为比对到Unigene A的reads数,N为比对到所有Unigene的总reads数,L为Unigene A的碱基数。RPKM法能消除基因长度和测序量差异对计算基因表达的影响,计算得到的基因表达量可直接用于比较不同样品间的基因表达差异。1.4 编码蛋白框预测 下载Windows下使用的32位版的本地比对软件blast-2.2.23-ia32-win32.exe (ftp://ftp.ncbi.nlm.nih.gov/blast/executables/release/LATEST/blast-x.x.x-ia32-win32.exe),并按照操作说明安装。再通过本地化的Blast比对,将刀鲚的Unigene序列与蛋白数据库nr、Swiss-Prot、KEGG和COG做Blastx比对,比对参数为E-value<10-5,取比对结果最好的蛋白作为Unigene的序列方向。如果不同库之间的比对结果有矛盾,则按nr、Swiss-Prot、KEGG和COG的优先级确定Unigene的序列方向;对于和以上4个库皆比不上的Unigene,用软件ESTScan预测其编码区并确定序列的方向。2 结果与分析 2.1 刀鲚精巢转录组序列中 SSR 重复基元分布利用perl操作平台下的MISA软件(MISA - MIcroSAtellite identification tool,MISA) (http://pgrc.ipk-gatersleben.de/misa/)分析11824条刀鲚Unigene序列的SSRs特征,序列拼接总长度为38,766,416 kb,其中含不同重复基元SSRs的序列有18,104条, 共13,028个SSRs,包含SSR的一致序列出现频率为18.46%,SSR的出现频率仅为0.179SSR/1000bp,平均相隔3.22 kb出现一个SSR序列。SSR序列平均长度约为278.55kb,在刀鲚转录组中SSR序列约占整个转录组序列的百分之一。在13,028SSR中共有404种重复基元(motif)。其中,单碱基重复基元出现频率最多的是(A/T)n,所占比例为89.59%,二碱基重复基元出现频率最多的是(TG/GT)n,所占比例为43.11%,三、四碱基重复基元中出现频率最多的分别是 (GAG/GGA/CAG)n、(TGTT/GTTT)n,它们在各自重复基元类型中的比例分别是22.03%、9.09%。五碱基共发现6种,(CTAGC/CTTTC/GACCA/GGCAG/TCTCT/TGGGG)n在各自重复基元类型中均占16.67%。在所有类型的重复基元中,二核苷酸重复基元出现的频率最高,为40.54%,其次分别为一、三、四和五核苷酸重复基元(表1)。表1 长江刀鲚转录中不同微卫星重复基元(motif)出现的频率Table 1 Occurrence frequency of different microsatellites motifs of Coilia nasus transcriptome重复基元类型 Repeat types数量No.频率Frequency(%)最多的重复基元(数量和百分比)Maximum repeat motif(No. and percentage)单核苷酸Nucleotides426539.54A/T(3821,89.59%)二核苷酸 Binucleotide repeats437340.54TG/GT(1885,43.11%)三核苷酸 Trinucleotide repeats193417.93GAG/GGA/CAG(426,22.03%)四核苷酸Tetranucleotide repeats2091.94TGTT/GTTT(19,9.09)五核苷酸 Pentanucleotide repeats60.05CTAGC/CTTTC/GACCA/GGCAG/TCTCT/TGGGG(1,16.7%)在发现的404种碱基重复模式中,所占比例最高的是单核苷酸(A/T)n(35.42%),其次是二核苷酸(TG/GT)n(17.47%),(AC/CA)n(13.94%),(AG/GA)n(4.67%),(C/G)n(4.12%),(GAG/GGA/CAG)n(3.95%),四、五核苷酸所占比例较少,总计1.99%。2.2 微卫星在刀鲚精巢转录组编码区中的分布特征 刀鲚精巢转录组中,有42.642条刀鲚unigene序列功能注释成功,序列总长度为38,766,416 bp,其中蛋白编码区(CDS)序列长度为28864453bp,占74.46%。在42,642条注释成功的刀鲚Unigene中,共发现11824个SSR位点,其中位于编码区的SSR位点数仅为1917个。在刀鲚精巢转录组的基因编码区SSR的出现频率仅为0.179 SSR/1 kb,而在非编码区为0.272 SSR/1 kb。在基因编码区中出现频率最高的是二碱基重复类型的微卫星(4373, 40.54%),最低的是五碱基重复(6, 0.04%)。2. 3 刀鲚转录组序列中微卫星的长度分布 刀鲚精巢转录组中所发现的13,028个微卫星长度存在极显著变异,从200~3000个碱基不等,平均长度为427个碱基(单碱基重复10次以上的结果)。如图1显示,刀鲚微卫星以重复长度200-300 bp的短重复序列最多,长度大于300 bp的长序列重复占微卫星总数的36.32%。进而,利用SPSS软件进行Person相关性分析,表明刀鲚微卫星的出现频率和微卫星的长度呈极显著负相关,相关系数为–0.636。图1 刀鲚转录组序列中微卫星的长度分布 Figure 1 Length distribution of microsatellites in testis of Coilia ectenes transcriptome2.4 刀鲚精巢转录组中SSR序列对基因表达水平的影响 刀鲚226,535,601条转录组的序列中,含微卫星的表达序列为38,766,416bp, 占序列总数的比例为17.11%。为了研究微卫星对基因表达水平的影响,将18,104条含微卫星的基因的平均RPKM值与86,563条不含微卫星基因的平均表达水平比较。计算结果表明,不含微卫星基因的平均RPKM值为32.68,是含微卫星重复基因的平均RPKM值(25.45)的1.29倍。方差分析的结果也表明,两组数据间存在极显著差异。Weber 将微卫星分为三种类型,即单纯(pure) 微卫星、复合(compound) 微卫星,和间隔(interrupted) 微卫星。本研究发现含有复合SSR(compound repeats)和间隔SSR(Interrupted SSR)Unigene序列的平均RPKM值分别为16.87、14.26,显著低于仅含有单纯型SSR(Pure SSR)的Uningene序列的平均RPKM值(>25.73)。相关分析表明, SSR序列长度与基因表达水平RPKM呈显著负相关,相关系数为-0.057。3 讨论 3.1 长江刀鲚精巢转录组中 SSR 微卫星分布特征本研究对11824条长江刀鲚的Unigene序列进行微卫星分布特征分析,在11824条序列中共发现13,028个微卫星,包含SSR的序列出现频率为16.66%,SSR的出现频率为0.179 SSR/1 kb,平均相隔3.22 kb出现一个SSR序列。在茶树花转录组微卫星研究中,王丽鸳[9]等人的研究结果与杨华[8]等人的研究结果有所不同,研究结果较高,这或许与SSR搜索标准、序列数量等不一致有关,由于长江刀鲚精巢转录组微卫星的分布特征研究报道还较少,所以暂时无法进行比较,将在后期进行更深入的研究。此外,在人类基因组[21]中约每6kb就有一个微卫星,禽类[22-23]基因组中约89kb出现1个微卫星,与长江刀鲚精巢转录组的研究结果有很大差异,这可能与物种差异有关。本研究发现,刀鲚精巢以200-300 bp的微卫星重复序列最多。根据这一结果,我们判断刀鲚表达基因所含的微卫星可能受到强烈趋同选择的压力,而使其富集在较短的序列范围内。在泥蚶[24]中,微卫星重复以二碱基为主,水稻、小麦、大麦等作物[25]中微卫星重复以三碱基重复为主,而刀鲚是以单碱基重复为主。3. 2 三、五碱基重复在刀鲚蛋白编码区中的富集 本实验研究发现,刀鲚精巢转录组微卫星序列主要分布在非编码区,编码区微卫星分布频率为非编码区的1/28,转录组编码区序列所含微卫星数量远低于基因非编码区,说明基因上游调控区域富含微卫星;基因编码区序列中的微卫星以三碱基重复为主,而非编码区以二碱基重复为主。许多研究都表明基因编码区中发现最多的微卫星类型是三碱基重复微卫星,这可能是三联体密码子选择作用的结果,因为其他几种类型的重复单元(五碱基重复除外)重复次数的改变会导致阅读框的改变,导致移码突变,使基因表达产物产生完全不同的蛋白或变短。由于三碱基和五碱基重复单元重复次数的变化不改变基因读码框,对基因表达产物的影响相对较小,所以编码区序列对三碱基及五碱基微卫星重复有更好的容受性,在选择作用下,会导致三碱基及五碱基微卫星的富集。本研究结果显示,在刀鲚基因编码区中,三碱基和五碱基微卫星显著富集,分别占微卫星总数的17.93%和0.04%,三、五碱基重复占全部碱基重复的18.97%,这与杨树和茶树中的研究结果一致。这一现象也说明三、五碱基重复微卫星富集是基因编码区微卫星在基因组中得以保存的重要机制。3.3 刀鲚精巢转录组序列中 SSR 长度分布及其对基因表达水平的影响 由重复单元的重复次数不同造成的多态性常常表现为复等位性,在不同的基因型间存在广泛的多态性。大多数研究者认为这种多态性的起因是由于复制过程中的滑动。这说明微卫星长度的变化反映微卫星位点获得(或失去)重复单元的活跃程度。基因序列中的微卫星增加了基因的不稳定性,同时也为基因变异提供了动力。微卫星序列越长,其DNA序列的越不稳定,特别是在基因区,微卫星序列越长或重复次数越多,该基因就越不稳定。越来越多的研究表明,微卫星并不仅仅是通常认为的中性遗传标记。在杨树[26]表达序列的微卫星分布研究中发现,微卫星可以在基因转录及转录后水平影响基因的表达。而Streelman[27]等在罗非鱼中研究表明,微卫星长度与基因表达强度相关,在无环境胁迫的条件下微卫星长度越长,基因表达水平越低,在有环境胁迫的条件下则反之。本课题研究发现,刀鲚精巢转录组中,含微卫星序列基因的整体表达水平显著低于不含有微卫星序列基因的整体表达水平,其中含复杂微卫星序列的基因整体表达水平最低,且基因表达水平与微卫星的长度呈负相关。含微卫星的基因表达水平偏低会规避部分选择压力,有利于相应基因在基因组中的保存。结论 在刀鲚精巢转录组中,微卫星序列主要分布在非编码区。基因编码区序列中的微卫星以三碱基重复为主,而非编码区以二碱基重复为主。刀鲚微卫星以重复长度200-300 bp的短微卫星重复序列最多,占微卫星总数的36.32%,大于300 bp的长微卫星占微卫星总数的25.22%。刀鲚SSR出现频率与SSR长度呈显著负相关,SSR频率随着重复次数增加呈明显下降趋势,而且碱基重复次数越少,SSR数量的下降越快。刀鲚精巢转录组中,含微卫星基因的平均表达水平显著低于不含微卫星基因的平均表达水平,其中含复杂微卫星基因的平均基因表达水平最低。致谢参考文献[1] He P(何平). Abundance, polymorphism and applications of microsatellite in eukaryote. Hereditas (遗传), 1998,20(4): 42–47.[2] 郝大程,马培,穆军,等.中药植物虎杖根的高通量转录组测序及转录组特性分析[J].中国科学.2012,42(5):398-412.[3] 徐莉,赵桂仿.微卫星DNA标记技术及其在遗传多样性研究中的应用[J].西北植物学报.2002,22(3):714-722.[4] 张玲.微卫星DNA标记研究进展及应用[J].安徽农业科学.2007,35(4)972-975.[5] 孙效文,张晓锋,赵莹莹,等.水产生物微卫星标记技术研究进展及其应用[J].中国水产科学.2008,15(4):689-703.[6] Tracey E S,Kirstin L B,Jing Yao,Stefano S,Pamda-Sheela J.The praline-rich homeodomain protein recruits members of the groucho/transducin-like enhancer of split protein family to co-repress transcription in hematopoietic cell[J].Biological Chemistry,2004,279:34 938-34 947.[7] 赵琛.基于高通暈RNA测序的大鼠转录组注释研究[D].上海:华东师范大学,2012:6-85.[8] 杨华,陈琪,韦朝领,等.茶树转录组SSR位点的信息分析[J].安徽农业大学学报.2011,38(6):882-886.[9] 王丽鸳,韦康,张成才,等.茶树花转录组微卫星分布特征[J].作物学报.2013,9(29):1-7.[10] 刘峰,王运生,田雪亮,等.辣椒转录组SSR挖掘及其多态性分析[J].园艺学报.2012,39(1):168-174.[11] 王晓峰,何卫龙,蔡卫佳,等.马尾松转录组测序和分析[J].分子植物种.2013,11(3):385-392.[12] 刘引兰,吴志强,胡茂林,等.我国刀鲚研究进展[J].水产科学.2008,27(4)205-207.[13] 闻海波,张呈祥,徐纲春,等.长江刀鲚营养成分分析与品质评价[J].广东海洋大学学报, 2008,28(6):20-24.[14] 张敏莹,徐东坡,刘凯,等.长江下游刀鲚生物学及最大持续产量研究[J].长江流域资源与环境, 2005,14(6):694-698.[15] 全迎春,孙效文,梁利群,等.应用微卫星多态分析四个鲤鱼群体的遗传多样性[J].动物学研究.2005,26(6):595-602.[16] 马春艳,刘敏,马凌波,等.长江口刀鲚遗传多样性的随机扩增多态DNA(RAPD)分析[J].海洋水产研究.2004,25(5):19-24.[17] 李东红.不同年间长江刀鲚形态差异及遗传多样性研究[D].江苏:扬州大学,2011:1-55.[18] 赵国光,焦飞,罗海涛,等.基于转录组测序在人类全基因内鉴定与癌症相关的polyadenylation和non- polyadenylation RNA[J].中国科学,2013,43(5):376-386.[19] 龚未,潘林林,林强,等.基于新一代测序方法的小鼠睾丸出生后发育的转录组研究[J].中国科学,2013,43(2):137-150.[20] Kuo-Yang Huang, Jyh-Wei Shin, Po-Jung Huang, Fu-Man Kua, Wei-Chen Lina, Rose Lina,Wei-Min Hsua, Petrus Tang. Functional profiling of the Tritrichomonas foetus transcriptome and proteome[J]. Molecular & Biochemical Parasitology.2012,187(2013):60-71.[21] 况少青,傅刚,陈竺,等.微卫星标记分析在人类基因组多样性研究中的应用[J].国外医学遗传学分册.1997,20(1):5-9.[22] 王昕,耿社民,朱育红,等.微卫星标记在家禽育种中的应用[J].黄牛杂志.2002,28(1):39-43.[23] 李亮,朱庆.微卫星标记及其在家禽遗传育种中的应用[J].中国农禽.2000,22(8):32-33.[24] 董迎辉.泥蚶高通量转录组分析及生长相关基因的克隆与表达研究[D].山东:中国海洋大学.20125-160.[25] Li X, Shangguan L, Song C, Wang C, Gao Z, Yu H, Fang J. Analysis of expressed sequence tags from Prunus mume flower and fruit and development of simple sequence repeat markers. BMC Genet, 2010, 11: 66.[26] 刘菁菁,戴晓港,王洁,等.杨树微卫星序列对基因表达频率的影响及表达序列中微卫星特征的分析[J].南京林业大学学报.2011,35(1):11-14.[27] Streelman J, Kocher Microsatellite variation associated with prolactin expression and growth of salt challenged Tilapia. Physiol Genom, 2002,9:1-4.
目录
摘要 1
关键字 1
Abstract. 1
Key words 1
1 材料与方法 2
1.1 材料及数据来源 2
1.2 基于perl语言的简单重复序列(SSR)分析搜索 3
1.3 基因表达量计算方法 3
1.4 编码蛋白框预测 3
2 结果与分析 3
2.1 刀鲚精巢转录组序列中 SSR 重复基元分布 3
2.2 微卫星在刀鲚精巢转录组编码区中的分布特征 4
2..3 刀鲚转录组序列中微卫星的长度分布 4
2.4 刀鲚精巢转录组中SSR序列对基因表达水平的影响 4
3 讨论 5
3.1 长江刀鲚精巢转录组中 SSR 微卫星分布特征 5
3.2 三、五碱基重复在刀鲚蛋白编码区中的富集 5
3.3 刀鲚精巢转录组序列中 SSR 长度分布及其对基因表达水平的影响 5
4 结论 6
致谢 6
参考文献 6
表1长江刀鲚转录中不同微卫星重复基元(motif)出现的频率 3
图1刀鲚转录组序列中微卫星的长度分布 4
长江刀鲚精巢转录组微卫星分布特征
水产养殖 陈素华
引言
版权保护: 本文由 hbsrm.com编辑,转载请保留链接: www.hbsrm.com/nongxue/scyz/48.html