黄三七Soulieavaginata(Maxim.)Franch.为毛茛科升麻族黄三七属多年生草本植物,别名长果升麻、太白黄连或土黄连,单属单种,主要分布于我国陕西、甘肃、四川、云南和西藏等地。黄三七根茎或全草供药用,性苦、凉,具清热除烦、解毒消肿之功效,主治热病烦躁、心悸怔忡、骨蒸潮热、咽炎、口腔炎、结膜炎、疮痈肿毒、湿热泄泻、痢疾[1],在陕西太白七药中具有重要地位。已报道黄三七中分离得到三萜皂苷、生物碱、有机酸等多种成分[2]。现代药理研究表明,环阿屯烷型(又称环菠萝蜜烷或环阿尔廷烷型)三萜皂苷为黄三七主要活性成分[3],也是升麻族铁破锣属和升麻属等属的特征性成分,具有解热、镇痛、抗炎、抗风湿、抗肿瘤、抑制核苷转运和抗骨质疏松等多种药效[4-5],可为临床药物研发提供丰富的前体化合物。因此,黄三七的基础研究及资源开发具有重要意义和极好的发展前景。
转录组测序作为功能基因组研究的一个重要组成部分,能够在整体水平上获得特定条件下细胞中所有基因转录本全局信息,有助于揭示生物体生长发育、次生代谢及生理适应分子机制及转录调控规律[6]。近年来,基于高通量测序技术的转录组分析策略在药用植物功能基因组领域内应用十分广泛,已经获得西洋参[7]、人参[8]、柴胡[9]、甘草[10]和膜荚黄芪[11]等众多药用植物转录组数据,为阐明中草药种质资源遗传基础奠定重要基础。本研究利用二代高通量测序平台IlluminaHiSeqTMPE进行黄三七根茎转录组测序分析,以期揭示黄三七根茎转录组的整体表达特征,为该药用植物功能基因鉴定、次生代谢途径解析及其调控机制研究提供基础数据。
1材料与方法
1.1材料
植物材料于年7月采自陕西省宝鸡市太白县秦岭鳌山咀头镇鳌山北玻,经度°23′27.7″,纬度34°00′11.5″,海拔m,经陕西中医药大学药学院张岗教授鉴定为毛茛科植物黄三七Soulieavaginata(Maxim.)Franch.。取单株植株根茎液氮速冻后置于?80℃冰箱备用。
1.2RNA提取与文库构建
采用EASYspin植物RNA快速提取试剂盒(Aidlab,中国)制备黄三七根茎总RNA,琼脂糖凝胶电泳和NanoDropTM分光光度计(ThermoFisher,美国)检测完整性。用带有Oligo(dT)的磁珠富集mRNA,加入碎片化缓冲液(fragmentationbuffer)将mRNA打断成短片段,用六碱基随机引物(randomhexamers)合成cDNA第1链;然后加入缓冲液、dNTPs、RNaseH和DNApolymeraseI合成cDNA第2链;再经过QiaQuickPCR试剂盒(QIAGEN,德国)纯化并加EB缓冲液洗脱之后做末端修复、加poly(A)并连接测序接头,然后用琼脂糖凝胶电泳进行片段大小选择,最后进行PCR扩增构建测序文库。
1.3转录组测序与组装
利用IlluminaHiSeqTMPE对黄三七根茎转录组文库进行高通量测序。测序原始图像数据经碱基识别(basecalling)转化为序列数据原始序列(rawreads),经数据评估、滤过除杂和冗余处理等质控得到高质量序列(cleanreads),再利用组装软件Trinity[12]做转录组denovo组装分析。Trinity首先将具有一定长度重叠(overlap)的reads连成更长的片段,这些通过readsoverlap得到的不含N的组装片段作为组装出来的unigene。
1.4转录组功能注释
利用BLAST将unigenes序列与蛋白数据库NR、Swiss-port、蛋白相邻类的聚簇(KOG)和KEGG(京都基因与基因组百科全书)进行比对(E值<1×10?5),得到与相应unigenes具有最高序列相似性的蛋白,进而得到unigenes注释信息。根据NR注释信息,使用Blast2GO软件得到unigenes的基因本体(geneontology,GO)注释,用WEGO软件对所有unigenes做GO功能分类统计,从宏观上认识该物种的基因功能分布特征。
1.5蛋白编码框(CDS)和转录因子预测
按NR、Swiss-Prot、KOG和KEGG的优先级顺序将unigenes与以上蛋白库做BLASTx比对(E值<1×10?5)并确定该unigenes编码区的核酸序列(序列方向5’→3’)和氨基酸序列。利用ESTScan[13]预测与以上数据库比对不上的unigenes的编码区及序列方向。将所预测的unigenes编码蛋白序列与植物转录因子数据库(plantTFDB)进行hmmscan比对搜索转录因子家族及其成员。
1.6简单重复序列(simplesequencerepeats,SSRs)特征检测
使用MISA检测黄三七转录组unigenes,搜索SSRs并进行统计分析。
2结果与分析
2.1黄三七转录组组装与质量分析
采用IlluminaHiSeqTMPE高通量测序平台对黄三七根茎进行转录组测序,共得到条rawreads,过滤产生了条cleanreads,包含个核苷酸信息,Q20(碱基≥20%)和Q30(碱基量≥30%)分别为98.82%、94.18%,GC量为43.88%,说明测序质控良好,cleanreads质量合格。Trinity组装获得个unigene,平均长度nt,最长达到nt,最短序列为bp,N50为nt。unigenes长度分布(图1-A)显示,条unigenes长度超过nt,条序列大于nt。reads在unigene上的覆盖情况统计(图1-B)显示,所含reads数量在11~的unigenes数量最多,为条;其次为reads数量在1~10的unigenes,为条;reads数量在~、1~、1~的unigenes分别为、、条;其余reads分布区域对应的unigenes数量均相对较少。
2.2黄三七转录组unigenes的功能注释
使用BLAST将所有unigenes与NR、Swiss-port、KOG、KEGG等数据库进行一致性比对分析,对各数据库注释的unigenes数目进行统计,进而获得黄三七根茎转录组unigenes的功能注释信息。结果表明,条unigenes(54.86%)在NR数据库比对成功得到注释,在Swiss-port、KOG、KEGG等数据库获得注释的unigenes数目依次为12(20.37%)、(17.58%)、(21.99%)。条unigenes同时在所有数据库中注释,至少有一种数据库注释成功的unigenes共条(54.94%),条unigenes未获得注释。
以NR数据库为例进行分析,unigenes注释同源基因的物种分布如图2所示,在相似序列匹配度较高的物种中,莲NelumbonuciferaGaertn.所占比例最高,条(32.72%);其次为葡萄VitisviniferaL.条(8.06%),土瓶草CephalotusfollicularisLabill.条(4.39%),可可TheobromacacaoL.条(5.0%),其余匹配物种比例在1.42%~2.82%,比例小于1.42%的匹配物种的unigenes为,占39.14%。
根据NR注释信息得到GO分类(图3),条unigenes被注释到生物过程、细胞组分和分子功能3个GO类别的45个小组。细胞组分中细胞(cell)和细胞部分(cellpart)相关基因丰度最高,达和条;其次是细胞器(organelle),有条;病毒粒子(virion)、病毒粒子组成(virionpart)等基因较少,在条以下。生物过程主要聚集在细胞过程(cellularprocess)和代谢过程(metabolicprocess),涉及的基因分别有和条;应激适应(responsetostimulus)、着色(pigmentation)、生物调控(biologicalregulation)基因数量分别为、、条。分子功能中具有催化活性(catalyticactivity)和结合功能的(binding)基因数量较高,分别为和条,其他类别基因数目普遍较少。
为了进一步分析黄三七转录组unigenes的功能,进行KOG功能分类分析,共得到25个不同的KOG功能类群,种类比较全面,包括大多数的生命活动;一般功能预测的基因数量最多,有条;翻译后修饰,蛋白反转、伴侣和信号转导机制类次之,分别为和条;加工和修饰unigenes数目条;其他种类基因丰度不尽相同(图4)。
黄三七根茎转录组unigenes参与KEGG代谢通路分为5大分支:细胞过程(cellularprocesses)条、环境信息处理(environmentalinformationprocessing)条、遗传信息处理(geneticinformationprocessing)条、代谢(metabolism)条和有机系统(organismalsystems)条。条unigenes获得个KEGG标准代谢通路,按照基因注释量大小依次排序,选取前12个代谢通路信息见表1,这些通路包含的unigenes数量大于条。
KEGG代谢通路分析还发现条unigenes参与黄三七萜类、类、生物碱、黄酮类、花青素等生物合成相关的17个次生代谢标准通路(表2)。其中,苯丙素的生物合成代谢通路(ko)基因数量最多,为个;萜类化合物骨架生物合成(ko)基因数量次之,为78条;与类胡萝卜素生物合成(ko)有关的基因有34条;分别有38、33个unigenes与莨菪烷类、哌啶、吡啶生物碱(ko)及异喹啉类生物碱生物合成相关(ko);24条unigenes参与二萜类生物合成(ko);倍半萜和三萜类化合物的生物合成(ko00)基因有10条;咖啡因的代谢,花青素、芥子油苷以及黄酮和黄酮醇的生物合成通路基因数较少,均在5条以下。
2.3CDS和转录因子分析
对黄三七转录组所有unigenes的CDS进行分析,通过BLAST比对共获得CDS序列个,利用ESTscan数据库分析获得CDS序列个。转录因子预测发现有55个家族成员,其中bHLH、ERF、C2H2、bZIP、NAC、FAR1、MYB及WRKY类占主体,说明黄三七根茎生理代谢涉及众多转录调控过程(图5)。
2.4SSRs特征分析
利用MISA软件对转录组unigenes进行SSRs分析(表3),个unigenes中共计个SSRs。其中,三碱基重复SSRs数量最丰富,有个(45.7%),在这之中AAG/CTT类型的比例最高。双碱基重复SSRs数量次之,有个,占SSRs总量的36.2%,其中AG/CT重复类型数量最多。四碱基和六碱基重复分别为、个,各占8.2%、7.0%;五碱基重复重复相对较少,仅占2.9%。此外,还发现SSRs重复单元数量也存在一定变化,其中重复5、6次的比例最高,重复4、7次的次之。
3讨论
近年来,二代高通量测序技术在本草基因组及合成生物学等研究方面应用广泛,并取得重大进展[6]。本研究首次采用IlluminaHiSeqTMPE测序平台,进行秦岭特色中草药资源黄三七的转录组测序分析。黄三七根茎高通量测序数据约6.3G,测序质量良好、质控严格,利用Trinitydenovo组装,93.9%的高质量reads参与组装,共得到条unigenes,序列长度与reads分布区域对应合理。转录组unigenes序列信息量庞大,数据基本涵盖全转录组信息,能够反映秦岭特殊环境条件下黄三七的基因表达特征,为深入研究黄三七生长发育、次生代谢、转录调控等生物学过程功能基因的批量发掘提供数据资料。
基于高通量测序的转录组数据通常采用生物信息学分析策略进行基因注释和功能分类[6-7]。本研究利用BLAST、Trinity[12]、ESTscan[13]等多种生物信息软件,对黄三七转录组unigenes序列进行注释和功能分类。基于BLAST分析,将所有unigenes与NR、Swiss-port、KOG、KEGG等4大数据库比对,注释成功的unigenes共条,占全部序列的54.94%,其余条unigenes并未获得注释,这与已报道的西洋参[7]、人参[8]、柴胡[9]、甘草[10]、珠子参[14]和罗勒花[15]等物种转录组测序注释比例类似,说明黄三七转录组中存在大量序列特征及功能尚未知的unigenes。
GO分类揭示黄三七根茎的转录组特性与生物过程、细胞组分和分子功能相关;KOG功能分析从基因组水平寻找直系同源体,预测未知ORF的生物学功能,可大大提高基因功能注释的准确性[15],本研究共得到25个不同的KOG类群,说明黄三七转录组KOG种类比较全面。进一步对黄三七功能基因序列进行KEGG代谢路径注释,发现个KEGG标准代谢通路,这些基因可能参与黄三七水分吸收、矿质营养、光合作用和呼吸作用等生命代谢活动;此外,还发现大量unigenes参与萜类、类、生物碱、黄酮类、花青素等生物合成相关的17个次生代谢标准通路;其中,与倍半萜和三萜类化合物的生物合成相关基因有10条。西洋参[7]、人参[8]、珠子参[14]等珍稀名贵药用植物所含三萜皂苷主要以达玛烷型四环三萜和齐墩果烷型五环三萜为主,这与黄三七中三萜皂苷的类型不同,这些基因的发现为揭示黄三七环阿屯烷型三萜皂苷生物合成途径解析提供线索。
基因表达的转录调控在植物生长发育及环境适应方面发挥重要作用。最新版植物转录因子数据库PlantTFDB4.0[16]包含58个家族,其中AP2/ERF、bHLH、MYB和WRKY等家族在植物细胞甲羟戊酸、苯丙烷类代谢途径调控中起关键作用[17]。如丹参中一个新的R2R4-MYB转录因子SmMYB36与某类bHLH转录因子互作共同调控丹参初生代谢和次生代谢[18]。本研究获得的黄三七unigenes转录因子家族覆盖PlantTFDB4.0数据库中55个家族,说明黄三七生命活动代谢涉及复杂的转录调控机制;黄三七中与次生代谢调控密切相关的转录因子家族unigenes数量较多,有助于深入研究黄三七萜类、酚类及生物碱等各类活性物质生物合成的转录调控机制研究。
SSRs包括EST-SSR和基因组SSRs2种类型。除了具有基因组SSRs基本优点外,EST-SSR兼有降低引物开发成本、提高测序数据利用率的特点,因此在作物中广泛用于遗传多样性、分子标记等研究[19-20]。本研究基于经典的MISA分析,发掘了黄三七根茎转录组个unigenes的个SSRs位点,SSRs从双核苷酸类型到六核苷酸类型均具备,表明黄三七基因组内具有较高丰度的SSRs。重复类型以三核苷酸为主,双核苷酸所占比例次之。这与以三核苷酸重复类型为主的主要作物水稻、大麦或棉花等的研究结果一致[19-20]。黄三七双核苷酸重复SSRs中AG/CT类型最多,三核苷酸重复中AAG/CTT类型最多,这与罗勒花[15]、番红花[21]、人参[22]等植物中以CT、AG双核苷酸重复SSRs为主要类型的情况相同,但主要三碱基重复SSRs类型不一致。可见大多数植物SSR重复主要以双核苷酸和三核苷酸为主,但不同物种的重复序列存在差别。
目前,利用二代高通量测序技术对黄三七根茎转录组的研究还处于起步阶段,对转录组数据初步分析获得了萜类化合物生物合成途径的全部骨架基因,与环阿屯醇烷型三萜皂苷氧化衍生化修饰相关的细胞色素氧化酶unigenes有条,其中62个含有完整的ORF,对这些基因的表达调控研究将为解析环阿屯醇烷型三萜皂苷的生物合成打下基础。转录组数据同时获得了丰富的SSRs信息,为研究该物种单属单种的遗传特征提供依据。后续将对黄三七转录组数据做进一步的系统分析,通过解析黄三七三萜皂苷生物合成通路、调控、遗传结构等,以便更好地阐释其生长发育及生理适应等科学问题,也为黄三七药用资源的开发和利用提供理论基础。
参考文献(略)
来源:李依民,彭亮,杨冰月,张明英,任瀛,程虎印,吴海峰,张岗.基于高通量测序技术的黄三七根茎转录组数据分析[J].中草药,8,49(21):3-.
预览时标签不可点收录于话题#个上一篇下一篇