系统介绍2个最新的ncRNA基因功能失调和疾病表型关联数据库

系统介绍2个最新的ncRNA基因功能失调和疾病表型关联数据库

系统介绍2个最新的ncRNA基因功能失调和疾病表型关联数据库

诚邀您加入精准医学健康俱乐部!!(点击可查看详情)

精准医学健康前沿原创,欢迎转载,注明出处!

非编码RNAs(noncoding RNAs, ncRNAs)在许多重要的生物学过程中发挥关键作用,已成为一类新的人类疾病诊断、治疗和预后的生物标志物。系统地整合分析ncRNAs基因表达失调或变异与人类疾病关联数据是非常有必要的,但也是非常有挑战性的。

系统介绍2个最新的ncRNA基因功能失调和疾病表型关联数据库

图1. 当前PubMed每年新增2万余篇ncRNA相关的论文

一方面,当前的疾病表型相关的数据库资源不仅缺乏标准化地整合注释ncRNAs基因与疾病表型关联数据,也缺乏有效的得分模型来计算它们之间的关联度,以快速鉴定ncRNAs表达失调导致的疾病表型;

另一方面,虽然当前大量的研究支持ncRNAs基因变异与人类疾病表型关联,但这些关联数据仍然隐藏在大量已发表文献中,很难系统地获得并应用。

近期,为了应对这些挑战,来自中山大学的科研团队先后开发了两个名叫ncRPhenoncRNAVar的高质量的ncRNA与疾病表型关联的数据库,均涵盖miRNA, lncRNA, circRNA, piRNA, snRNA和snoRNA等多种ncRNA类型,相关研究成果分别于2020年3月和12月,分别在线发表在国际权威期刊《RNA Biology》和《Journal of Molecular Biology 》上,其中ncRPheno数据库被选为期刊封面进行出版。

系统介绍2个最新的ncRNA基因功能失调和疾病表型关联数据库

系统介绍2个最新的ncRNA基因功能失调和疾病表型关联数据库

其中,ncRPheno是一个全面标准化地整合注释各种ncRNA表达失调与疾病表型关联信息的数据库(访问网址:http://lilab2.sysu.edu.cn/ncrpheno 或http://www.liwzlab.cn/ncrpheno/);


ncRNAVar是一个从文献和研究项目中,系统地收集和整理实验证据支持的各种ncRNA基因变异与疾病表型关联信息的数据(访问网址:http://lilab2.sysu.edu.cn/ncrnavar/ 或http://www.liwzlab.cn/ncrnavar/)。

接下来,我们从数据和应用层面来分别系统的介绍一下这2个最新的数据库:

(一)ncRPheno数据库


ncRPheno数据库是一个广泛标准化整合注释的ncRNA与疾病表型关联的数据库,它不仅从24个数据资源中全面标准化地整合注释ncRNAs与疾病表型关联数据,还利用EFO(Experimental Factor Ontology)中的疾病表型父子关系,基于已知关联,获得432 070条新的ncRNAs与疾病表型关联,使得有实验证据支持的ncRNA与疾病表型关联的条数增长了近10倍

ncRPheno当前涵盖11种物种的14 494个ncRNA和3 210种病表型之间的482 751条关联。进一步,基于实验支持证据信息,研究人员建立一个优化的得分模型来量化ncRNAs与疾病表型关联度。


最后,ncRPheno除了可以搜索和浏览ncRNA和疾病表型外,ncRPheno还提供一些个性化系统地分析和解释这些关联数据的网络应用,包括关联性排序和分析、疾病树和疾病网络图谱、关联性网络分析和词云图等。作为一个新的数据库,ncRPheno在数据覆盖率和实用性方面,均显著优于现有类似数据库,它将有助于人类疾病诊断和治疗预后研究。接下来详细介绍利用ncRPheno进行的一些典型应用案例。

系统介绍2个最新的ncRNA基因功能失调和疾病表型关联数据库

图2. 利用ncRPheno在线构建词云图,以展示与疾病表型相关的ncRNAs基因表达失调图谱



系统介绍2个最新的ncRNA基因功能失调和疾病表型关联数据库

图3. 利用ncRPheno进行在线构建ncRNA功能失调关联的疾病树(a)和疾病表型网络图谱(b)


1.1 利用ncRPheno快速识别和鉴定疾病表型关联的ncRNAs,初步实现疾病表型驱动的ncRNA转录组自动化解读

一个典型的病例对照转录组分析可以发现数千个显著差异表达的RNAs,其中许多是ncRNAs,但是从数以千计的ncRNAs中鉴定出与病例表型关联的ncRNAs是非常具有挑战性的。例如,研究人员分析来自TCGA乳腺癌样品的miRNA测序定量数据,发现在768例乳腺癌病例和97个对照之间,存在553个显著差异表达的miRNA基因如何从这种大规模的miRNA差异表达数据集中,迅速鉴定出有生物实验证据支持的乳腺癌关联的miRNAs,并确定其关联性优先级排序,这是一个巨大的挑战

系统介绍2个最新的ncRNA基因功能失调和疾病表型关联数据库

图4. 快速识别和鉴定疾病表型关联的ncRNAs,初步实现疾病表型驱动的ncRNA转录组自动化解读


为应对上述挑战,研究人员在ncRPheno中开发一个称为“ncRNA prioritization”的网络应用,该网络应用允许用户同时输入成百上千个ncRNAs和对应的疾病表型,然而与ncRPheno数据库中的关联性数据进行匹配,初步实现对这组ncRNAs进行快速的优先级排序。例如,研究人员将上述553个乳腺癌差异表达的miRNA和“Breast carcinoma”作为输入,该应用程序在几分钟内就可以完成优先级排序分析,并鉴定出与乳腺癌关联的miRNAs


同时分析结果显示,其中201个是有生物实验证据支持的乳腺癌相关的miRNA,而且显示与乳腺癌最相关的前五个miRNA是has-mir-21、has-mir-155、has-mir-200c、has-mir-200b和has-mir-210 (图4)。研究人员介绍,用户还可以对分析的结果数据进行进一步的操作,例如可以链接到新的网页以获取关于每个关联性的更详细信息。此外,用户还可以在“ncRNA prioritization”网络应用中每次只输入一个ncRNA和一个疾病表型,通过数据检索来确定它们之间是否存在关联。


1.2 利用ncRPheno对不同ncRNAs与疾病表型进行关联性网络图谱分析

为探索不同疾病表型和ncRNA之间的关联性网络图谱,研究人员在ncRPheno数据库平台中开发了一个名叫“Network visualization”网络应用。该网络应用允许用户每次输入一组疾病表型或一组ncRNAs,并生成网络以显示关联性数据。例如,用户可以在输入框中输入疾病“ovarian serous carcinoma,ovarian adenocarcinoma,ovarian serous tumor”,点击“Run”按钮,即可生成不同卵巢癌亚型的ncRNAs关联性网络图谱,以探索不同卵巢癌亚型的ncRNAs失调谱之间的异同。


系统介绍2个最新的ncRNA基因功能失调和疾病表型关联数据库

图5. 构建不同ncRNAs与疾病表型关联性网络图谱:(a) 不同卵巢癌亚型之间的关联性网络。(b) 不同ncRNAs (hsa-mir-3007a和hsa-mir-1268a)之间的关联性网络。线上的数值是指对应ncRNAs与疾病表型之间的关联性得分。


关联性网络图谱表明,卵巢浆液性肿瘤(ovarian serous tumor)和卵巢腺癌(ovarian adenocarcinoma)有7个共同关联的ncRNAs,而卵巢腺癌(ovarian adenocarcinoma)和卵巢浆液性癌(ovarian serous carcinoma) 存在2个共同关联的ncRNAs(图5a)。有趣的是,卵巢浆液性肿瘤(ovarian serous tumor)和卵巢浆液性癌(ovarian serous carcinoma)不存在共同关联的ncRNAs(图5a)


同样,用户还可输入一组ncRNAs如 “has-mir-3007a,has-mir-1268a”,运行后生成的关联性网络图谱清楚地显示,has-mir-3007a和has-mir-1268a均与肿瘤关联(图5b)。有趣的是,has-mir-3007a与膀胱癌特别关联,而has-mir-1268a与乳腺癌特别关联(图5b)

1.3 利用ncRPheno中的关联数据系统分析22种常见癌症类型中ncRNAs失调的情况

ncRPheno数据库中的关联数据是宝贵的数据研究资源,例如可用于研究疾病的分子分型和诊断等。在ncRPheno数据库中,61.1%的ncRNAs与癌症相关。由于ncRNAs的功能失调在不同癌症类型的发生发展和治疗预后中起到关键的作用。因此,我们研究22种常见癌症类型中ncRNAs失调差异和共性的概况,以发现不同癌症中潜在的常见ncRNAs功能失调。研究人员通过进一步挖掘发现,许多ncRNA功能失调与癌症有关,而不同癌症类型中存在功能失调的ncRNAs数量范围为23个至4830个之间。不同癌症类型两两之间存在的共同功能失调ncRNAs的数量范围为1个至267个(图 6)


系统介绍2个最新的ncRNA基因功能失调和疾病表型关联数据库

图6. 每对癌症类型共享的ncRNA的数量。每个框的颜色通过将数字转换为log10值来指示每对癌症类型共享的ncRNA的数量。

进一步,研究人员还发现821个ncRNAs至少在一种或多种癌症类型中存在功能失调。根据这821个 ncRNAs在不同类型癌症类型中是否失调,研究人员进一步使用R语言中的热图(Heatmap)包,通过基于欧式距离的层次聚类,可以将22种常见癌症类型初步分为4组(图7a)

图7a中,星形细胞瘤和髓母细胞瘤是神经系统肿瘤,因为它们共享许多相同的ncRNAs失调,因此被归为第1组。同理,乳腺癌和肺癌由于其ncRNAs失调谱的高度相似而被分为第2组,而肝细胞癌,白血病和前列腺癌被归为第4组。胃癌和结肠癌属于同一组(第3组)不足为奇,但是,黑色素瘤和结肠癌却也具有非常相似的ncRNAs失调谱,而被归到第3组。这些ncRNAs失调谱为癌症分子分型提供新线索,对这些ncRNAs的进一步研究,有望指导癌症精准诊断和治疗预后评估。

进一步分析发现有14个ncRNAs至少在63.6%(14/22)的常见癌症类型中存在失调,其中包括has-mir-21、HOTAIR、has-mir-126和H19。此外,有100个ncRNAs (包括87个miRNAs和13个lncRNAs) 至少在45.5%(10/22)的常见癌症类型中存在失调。

系统介绍2个最新的ncRNA基因功能失调和疾病表型关联数据库

图7. 22种常见癌症类型的ncRNAs失调谱和生物学功能富集。(a) 基于821个ncRNAs是否存在失调,分级聚类热图(hierarchical clustering heatmap)将22种癌症类型分类为四组。(b) 癌症中常见的77个ncRNAs失调被富集到30个常见的癌症生物学功能上。

为发现ncRNAs参与癌症发生发展的常见机制,研究人员进一步使用基因本体论(Gene Ontology, GO)对这77个ncRNAs进行生物学过程和功能注释。与以前的研究一致,研究结果表明,这些ncRNAs主要参与血管生成、炎症反应、细胞迁移、细胞增殖、细胞凋亡、基因沉默和翻译调节等生物学过程和功能 (图7 b)。确实,在癌症的发生发展过程中,经常报道ncRNAs参与上述生物学过程的调控。因此,这些ncRNAs有望成为指导药物设计,癌症诊断和癌症治疗预后评估的潜在生物标记


1.4 ncRPheno的其他网络应用

为让用户能够使用多种编程语言(Python、Java等)对ncRPheno中的关联数据进行程序化的调用,研究人员在ncRPheno中开发关联数据程序化访问的Web API服务, 该Web API基于ncRPheno中关联性编号,来建立特定URL 请求,以实现特定关联性信息的程序交互,交互的数据以通用的JSON格式提供。

此外, ncRPheno数据库中的所有关联数据,用户可以通过下载网页免费下载和使用。同时,ncRPheno也鼓励用户通过我们开发的提交网页,提交新的关联数据,以便将来进行进一步的数据整合和更新。一旦提交的新关联数据通过专业人士审查和审查委员会审核批准,该新的关联数据将在更新的版本中出现。如果发现提交的数据中有任何问题,研究人员将与提交的用户取得联系并进行沟通。最后,ncRPheno在帮助网页上还提供详细的数据库应用文档和教程。

(二)ncRNAVar数据库


ncRNAs变异与人类疾病之间的关系变得越来越密切,ncRNAs变异已成为一类新的潜在生物标记物,有望用于人类疾病诊断和治疗预后评估。鉴于ncRNAs变异的生物学功能和临床意义的重要性,研究人员已经开发多个用于注释ncRNAs变异的数据库和预测软件工具。


然而,这些数据库和软件工具资源只侧重于系统地注释和预测ncRNAs变异的生物功能及其影响,而没有详细说明ncRNAs变异与人类疾病表型之间的关联性。大量生物学实验验证的ncRNAs变异与疾病表型关联的数据仍然隐藏在已发表的文献中,很难系统地获得并得到充分的使用。

为解决上述问题,来自中山大学的科研团队开发了一个独特新颖的数据库-ncRNAVar (http://lilab2.sysu.edu.cn/ncrnavar/)。该数据库不仅从2 650篇候选文献中人工收集整理获得ncRNAs变异与疾病表型关联性数据,还通过系统整合获得更多的关联性数据。ncRNAVar数据库当前含有711种疾病表型和2 597个ncRNAs上的3 112个变异之间的4 565条关联性数据


为保留来自不同文献中相互冲突的关联性证据,ncRNAVar同时提供显著和不显著的关联性数据。使用标准本体术语对ncRNAs及其变异和疾病表型等关键信息进行注释。此外,研究人员还进一步基于实验支持证据强弱,构建一个得分模型,以计算量化ncRNAs变异与疾病表型之间的关联度。


系统介绍2个最新的ncRNA基因功能失调和疾病表型关联数据库

图1. ncRNAVar中关联性数据的收集和注释示意图以及实现的网络应用

更重要的是,ncRNAVar不仅允许用户搜索和浏览以及下载关联性数据和提交新的关联以供将来更新数据,还提供多种实用的网络应用如关联性排序和分析、关联性网络分析以及词云图等,以帮助用户快速有效地识别ncRNAs变异与疾病表型之间的关联性。此外,ncRNAVar中的关联性数据,还可作为研究人员后续开发识别和解释疾病表型相关的ncRNAs变异软件工具的重要数据资源。接下来详细介绍利用ncRNVar进行的一些典型应用案例。

系统介绍2个最新的ncRNA基因功能失调和疾病表型关联数据库

图2. ncRNAVar数据库中的ncRNA基因变异与疾病表型等关联性数据进行了详细和标准化的注释

2.1 利用ncRPheno快速识别和鉴定疾病表型关联的ncRNA基因变异,初步实现疾病表型驱动的ncRNA基因组变异自动化解读

一个典型的人全基因组测序分析可以发现数百万个基因组变异,其中许多位于基因组非编码区域,例如ncRNAs基因。为帮助用户从大规模的ncRNAs变异中识别与疾病表型关联的变异,研究人员在ncRNAVar中开发一个名叫“Variant Mapping” 网络应用,该网络应用允许用户一次性输入成百上千个ncRNAs变异和疾病表型,然后点击“Run”按钮运行,在很短的时间内,即可对疾病表型关联的ncRNAs变异进行高效的识别和优先级排序(图3)

系统介绍2个最新的ncRNA基因功能失调和疾病表型关联数据库

图3. 对乳腺癌关联ncRNA基因变异进行优先级排序和识别鉴定,初步实现疾病表型驱动的ncRNA基因组变异自动化解读

被识别到的ncRNAs变异被展示在网页表格中,并基于关联性得分进行优先级排序。此外,用户可以根据感兴趣的ncRNAs变异和疾病表型,对网页表格中展示的关联性数据进行筛选过滤。最后,针对每条关联性数据,用户通过点击“Detail”可链接到新的网页中,以获取相应关联性数据的更详细信息 (图2)

2.2 利用ncRNAVar对ncRNAs基因变异与疾病表型关联性数据优先排序

在NCBI PubMed数据库中搜索“Hepatocellular carcinoma and (ncRNA OR miRNA OR lncRNA)”关键词,能发现有超过6 400篇ncRNAs变异相关的文献,但是确定哪些ncRNAs变异与肝细胞癌的发生发展和治疗预后相关,是相当具有挑战性的。


为此,研究人员进一步在ncRNAVar数据库开发一个名称为“Association Prioritization”网络应用,用于ncRNAs变异与疾病表型关联性快速排序。例如,用户可以在ncRNAVar数据库的“Association Prioritization”网络应用中简单的输入关键词“Hepatocellular carcinoma”,点击搜索,即可迅速的获得结果,显示有90个ncRNAs变异与肝细胞癌的发生发展或治疗预后关联,其中排名前十的ncRNAs变异是rs11614913、rs73239138、SNHG7 Amplification、rs112489955、rs920778等 (图4a)


类似地,用户也可以输入感兴趣的ncRNAs变异条目,以快速搜索与该ncRNAs变异关联的疾病表型并对其进行关联性优先级排序。搜索的关联性关键数据被展示在网页表格中,网页表格允许用户根据疾病表型、ncRNAs及其变异等信息进行筛选过滤,以展示用户感兴趣的关联性数据(图4a)


系统介绍2个最新的ncRNA基因功能失调和疾病表型关联数据库

图4. ncRNAs与疾病表型关联性优先级排序网络应用界面。(a) 肝细胞癌关联的ncRNAs变异优先级排序。(b) 词云图展示与肝细胞癌关联的ncRNAs变异。(c) 词云图展示与hsa-mir-499a rs3746444关联的疾病表型。疾病表型或ncRNAs变异的字体越大且越靠近词云图中心位置,表明这些ncRNAs与疾病表型之间的关联性得分越高,关联度越大。

此外,用户可以点击“WordCloud Visualization”按钮,将关联性数据以词云图的形式进行展示(图4b和4c)。词云图中显示的疾病表型或ncRNAs变异的字体越大且越靠近词云图中心位置,表明这些ncRNAs变异与疾病表型之间的关联性得分越高,关联度越大。最后,网页表格中的关联性编号和词云图中的ncRNAs变异和疾病表型名称可以进一步点击操作,链接到新的网页,以获取相应关联性的详细数据信息,包括疾病表型和ncRNAs及其变异的注释信息和文献中的支持证据信息等。

2.3 利用ncRNAVar对ncRNAs基因变异与疾病表型关联性网络图谱分析

为探索不同疾病表型和不同ncRNAs及其变异之间的关联性网络图谱,研究人员还在ncRNAVar中,开发一个称为“Network Visualization”的网络应用,该网络允许用户同时输入一组不同的疾病表型,ncRNAs或变异,并生成关联性网络图谱。


例如,用户可以在输入框中输入“triple-negative breast cancer,hereditary breast cancer,Her2 positive breast cancer”,通过点击“Run”按钮运行,迅速生成一个关联性网络图谱,以探索不同乳腺癌亚型的ncRNA变异谱的异同(图5 a)。有趣的是,该关联性网络图谱非常直观的显示,hsa-mir-146a rs2910164和has-mir-608 rs4919510与her2阳性乳腺癌和遗传性乳腺癌显著相关,但这两个变异与三阴性乳腺癌却没有显著关联性。


系统介绍2个最新的ncRNA基因功能失调和疾病表型关联数据库

图5. 利用ncRNAVar对ncRNAs基因变异与疾病表型关联性网络图谱分析。(a) 不同疾病表型之间关联性网络图谱。(b) 不同ncRNAs之间的关联性网络图谱。(c) 不同ncRNAs变异之间的关联性网络图谱。

类似地,用户也可以输入一组不同的ncRNAs(如hsa-mir-185,hsa-mir-206,hsa-mir-608)或一组不同的变异(如rs1326306,rs10974820,rs462480),分别展示不同ncRNAs (图5 b)或不同变异之间的关联性网络图谱(图5 c),以发现不同ncRNAs变异之间关联疾病表型谱的异同。


2.4 ncRNAVar中的其他网络应用 

为让用户能够使用多种编程语言(Python、Java等)对ncRNAVar中的关联数据进行程序化的调用,研究人员在ncRNAVar中开发关联数据程序化访问的Web API服务, 该Web API基于ncRNAVar中关联性编号,来建立特定URL 请求,以实现特定关联性信息的程序交互,交互的数据以通用的JSON格式提供。此外,ncRNAVar数据库中的所有关联数据,用户可以通过下载网页免费下载和使用。

同时,研究人员也鼓励用户通过我们开发的提交页面,以表单的方式提交新的关联数据,以便将来进行进一步的数据整合和更新。一旦提交的新关联数据通过研究人员审查和审查委员会审核批准,该新的关联数据将在更新的版本中出现。如果发现提交的数据中有任何问题,研究人员将与提交的用户取得联系并进行沟通。最后,研究人员在帮助网页上还提供详细的数据库应用文档和使用教程。

总之,ncRPheno和ncRNAVar作为最新的数据库,它们提供非常友好,新颖和实用的网络可视化应用,包括关联性排序和分析、疾病树和疾病网络图谱、关联性网络分析和词云图等,以帮助科研和临床研究人员在线系统地分析解释这些关联数据,助力人类疾病诊断、治疗和预后研究。


希望这篇系统的整理和介绍,可以帮助科研和临床研究人员更好的利用好这两个ncRNA数据库,以做出更好的科研成果。


参考文献:

【1】Wenliang Zhang#, Binghui Zeng# et al. ncRNAVar: a manually curated database for identification and validation of noncoding RNA variants associated with human diseases,Journal of Molecular Biology, 2020

【2】Wenliang Zhang, Guocai Yao et al. ncRPheno: a comprehensive database platform for identification and validation of disease related noncoding RNAs, RNA Biology, 2020

欢迎扫码关注我们刚刚推出的“基因健康博士微信视频号,换一种更直观和高效的方式,与我们一起携手传递基因与医学健康正能量~

系统介绍2个最新的ncRNA基因功能失调和疾病表型关联数据库


精准医学健康前沿简介

《精准医学健康前沿》平台由来自于国内外顶级高校院所的生物医学和临床医学的博士运营。该平台致力于报道医学健康领域最前沿最重要最有趣的研究进展。投稿和申请文章转载请添加管理员微信: Precision_medcine

系统介绍2个最新的ncRNA基因功能失调和疾病表型关联数据库

系统介绍2个最新的ncRNA基因功能失调和疾病表型关联数据库

生物医学科研方法

定了!下周(29日)开始报名,4月份考!

2020-12-25 16:25:03

生物医学科研方法

安家补贴100万 生活补贴40万/年,港澳籍50万/年 基金项目1:1配套|珠海橫琴新区2020年博士后招聘公告

2020-12-25 17:06:35