GEO是什么?
GEO全称Gene Expression Omnibus data base,由美国国立生物技术信息中心NCBI创建并维护的基因表达数据库(通过NCBI首页,All Databases下拉框中选择GEO DataSets)。收录了世界各国研究机构提交的高通量基因表达数据。2000年开始建立的时候,主要是表达芯片数据(如其名),但是之后随着数据库的流行,逐渐扩展业务到许多其它的高通量数据,比如:甲基化(genome methylation),染色质结构(chromatin structure),基因组-蛋白交互作用(genome-protein interaction)等。
GEO记录的组织方式
GEO数据库具体存放四类数据:
GEOPlatform (GPL) 芯片平台
GEO Sample (GSM) 样本ID号
GEO Series (GSE) study的ID号
GEO Dataset (GDS) 数据集的ID号
现在的GEO不仅仅包括原始数据,处理过的数据,以及描述性资料等。它还慢慢增加了可视化和数据分析等功能,面向的用户也不再仅限于生信研究人员。一般高通量测序文章发表时会将原始数据上传至GEO数据库并在文章中提供GSE 号,如果想对某些文章的数据进行在分析,可以在GEO数据库搜索文章中的GSE号。
Gene Expression Omnibus
GEO检索页面介绍
https://www.ncbi.nlm.nih.gov/geo/
GEO资料库介面主要包括检索框、检索结果列表、检索结果限定选项、检索记录信息,导入数据库(Entry type)主要类型为:datasets、series、samples和platforms,可根据自己实验目来具体选择。
接下来看看怎么进行GEO的数据检索与下载吧
直接搜索
1.输入数据集或样本ID
GEO数据库支持关键字检索和布尔逻辑,和使用pubmed非常相似,一般我们都是在GEO DataSets数据库中检索,以搜索cancer为例:
2.搜索结果页面
左侧选项卡可以允许根据类型、物种、数据类型(表达/甲基化数据)筛选,右侧则列出了主要的物种。
然后点击需要研究的文章进入,点击对应的样本分类号.,找到编码:GSE161948.可以看到,可以选择的scope类型有 Self、Platform、Samples、Series、Family;可供选择的format有SOFT、MINiML和RAW等数据。
3.数据基本信息页
PS :一篇文章可以有一个或者多个GSE数据集,一个GSE里面可以有一个或者多个GSM样本。多个研究的GSM样本可以根据研究目的整合为一个GDS,而每个数据集都有着自己对应的芯片平台,就是GPL。
如果是芯片数据,那么就需要看GPL平台里面关于每个探针对应的注释信息,
如果是高通量测序数据,一般要同步进入该GSE对应的SRA里面去下载sra数据,然后转为fastq格式数据再进行处理。
特定类型搜索
可以在GEO数据库首页点击Repository Browser,进行特定类型的检索。
进入页面我们可以看见,序列,平台,样本和物种的选项卡,我们可以通过其进行筛选、检索。
最后,点击对应对应的数据即可查看详细内容。
关于GEO的介绍内容,就到这里啦,相信大家已经收获了不少干货吧!这个数据库能提供的功能,其实还很多,这里没有一一写到,GEO是很方便的一个数据库,大家一定要好好利用起来呦。