分享|SCI发文 常用的数据库汇总(基因组研究)

ICGC(International Cancer Genome Consortium)数据库通过数据库可搜索到自己感兴趣的基因在患者样本中的突变情况,还会提供基因的基本信息和一些注释,包括该基因参与的通路以及相应的GO注释等。最重要的是该数据库可以查看在某种癌症中基因突变的排名情况,从而据此做一些相关研究。

网址

https://dcc.icgc.org/



COSMIC(Catalogue Of Somatic Mutations In Cancer)提供了与癌症相关体细胞突变的信息,记录的体细胞突变比较详细,可以追溯到文献出处,还能将样本信息、涉及的癌症类型等进行统计。COSMIC不仅可以知道一个基因突变的较详细的信息,还可以统计某一肿瘤组织的所有突变信息。

网址

https://cancer.sanger.ac.uk/cosmic/


DAVID(The Database for Annotation, Visualization and Integrated Discovery)主要进行基因功能和通路注释等功能分析,包括功能注释、基因功能分类、基因ID转换等。


将感兴趣的基因关联到生物学注释上,利用统计学的方法,在数据库中的关联注释中获取最显著富集的生物学注释,从而筛选该基因的生物学功能。该数据库提供了一种快速的方法,将大量的基因列表缩减为功能相关的基因组信息,以帮助筛选高通量技术获得的生物信息。

网址

https://david.ncifcrf.gov/


GeneCards整合了几大类数据库对于基因的分析数据,包括基因组、转录组、蛋白质组、遗传、临床和功能信息,在里面可以找到所感兴趣基因的全面功能信息,包括基因突变信息、表达、功能以及蛋白互作等,还包括各种数据库的相互转换。

网址

https://www.genecards.org/


微阵列芯片技术的发展促使了基因芯片的广泛应用,这之中产生了海量的数据资源,为基因的研究提供了有利的条件,为了便于储存及处理这些数据,美国国立卫生研究院旗下的美国国立生物技术信息中心(NCBI)创建了基因表达数据库 (Gene Expression Omnibus, GEO)。GEO也是当今最大、最全面的公共基因表达数据库之一。

网址

https://www.ncbi.nlm.nih.gov/geo/

TCGA(The Cancer Genome Atlas)是由美国国立卫生研究院国家癌症研究所(NCI)和国家人类基因组研究所共同合作的一个项目,旨在通过基因手段全面表征预后不良,解析癌症发生的分子互作、肿瘤的亚型和治疗的靶点等。TCGA数据库如今已经完成了对11000例病人的33种肿瘤的7个不同层面的数据进行分析,同时可以搜索基因的信息、突变频率、突变位点分布等,是一个功能较强大的数据库,可谓是癌症研究的必备工具。

网址

https://cancergenome.nih.gov/

除了这些,还有别的数据库可以挖掘吗?当然有!可以做数据挖掘的数据库还有很多,我们这里要介绍的是GDSC数据库。

癌症项目中的药物敏感性基因组学项目(GDSC)是Wellcome Sanger研究院(英国)的癌症基因组项目和马萨诸塞州综合医院癌症中心(美国)分子治疗中心之间的Wellcome资助的合作项目的一部分。 这项合作将两个地点的专业知识结合起来,以确定癌症生物标志物的目标,这些生物标志物可用于鉴定最可能对癌症治疗作出反应的基因定义的患者亚群。

GDSC具有大于1000种抗癌治疗药物的基因特征人类癌症细胞系,是癌症细胞药物敏感性和药物反应分子标志物信息的最大的公共资源。药物敏感性数据和遗传相关性可通过网站免费获得,作为学术和医疗界的资源。

下面以GDSC数据库分析某个药物对癌症的影响为例简单讲解一下!

进入DCSC数据库:

www.cancerRxgene.org

一、首先,点击Compound,进入所有药物的界面。“Compound” 将化合物敏感性数据与基因组数据集相关联,可以帮助我们识别与药物敏感性和抗性相关的分子特征。

Name:名字

Synonyms:别名

Targets:作用的靶标

Targets pathway:靶标的pathway

PubCHEM ID:PubCHEM数据库ID

sample size:样品的大小

二、我们以第一个药物为例。点击其名字,就可以看到该药物的细胞系IC50值。

Number of cell lines screened:细胞系的数目

Maxlmum IC50(uM):最大的IC50

Geometric mean(uM):中位值

Minimum IC50(uM):最小的IC50

Min screening concentration(uM):最小的用药浓度

Max screening concentration(uM):最大的用药浓度

将每个细胞系对应的IC50值,按照药物敏感度排列,得到上表。表底部的三个按钮允许以.csv,.tab或.xlsx文件格式下载表格。

三、点击Volcano Plot得到火山图。火山图可以用于使用MANOVA计算药物敏感性数据与遗传事件的相关性。

横坐标:效应值

纵坐标:P值

圆圈大小:代表样品的数目,圆圈越大,说明样品的数目越大

圆圈的颜色:绿色代表突变会提高药物的敏感性,红色代表突变会提高药物的耐药性

下表里对有统计学意义(FDR小于0.2,也就是FDR小于20%)部分进行颜色标记。表底部的三个按钮允许以.csv,.tab或.xlsx文件格式下载表格。

四、点击Scatter plots得到散点图。

散点图默认显示FDR最显著的,BRAF突变和野生型的对比。也可以点击Select Feature选择其他细胞系。

右边默认显示所有癌症类型的IC50,也可以选择特定的癌症(比如BRCA)查看其对应的IC50。

MWW p value这个参数代表了重要程度。

选择研究的药物→得到该药物的细胞系IC50值→得到火山图→得到散点图→选择癌症类型,这样,我们就可以分析某个药物对癌症的影响了。

赶紧去试一试吧~

免责声明:部分文字及图片来源于网络,仅供学习、交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理。本声明未涉及的问题参见国家有关法律法规,当本声明与国家法律法规冲突时,以国家法律法规为准。

——————  医生话题  ——————

在评论区留言吧,让我们听见你的声音!

延伸阅读:

学术干货:4位学术牛人教你如何读文献、用文献

审稿大牛给出的论文写作建议,超级实用!

运气还是实力?被三分的杂志秒拒到发表于7分的杂志

如何做出高颜值的Sci论文配图?

生物医学科研方法

文献解读丨m6A热点+肿瘤生信挖掘玩出新花样,让我看到了发paper的曙光!!!

2020-12-30 23:55:11

生物医学科研方法

文献解读|ISME:在不同生物分类学分辨率评估群落与环境的关系以揭示群落构建背后的进化驱动力

2020-12-31 0:34:56