如何利用GEOquery并结合Biobase下载GEO数据库多种数据
如何利用GEOquery并结合Biobase下载GEO数据库多种数据
小编给大家分享一下如何利用GEOquery并结合Biobase下载GEO数据库多种数据,相信大部分人都还不怎么了解,因此分享这篇文章给大家参考一下,希望大家阅读完这篇文章后大有收获,下面让我们一起去了解一下吧!
GEO数据库是NCBI开发的基因表达数据库,主要接收通过高通量测序、基因芯片等方法获得的基因表达数据——这就方便大家利用他人数据发文章了。
而进行GEO数据挖掘的第一步就是进行数据下载,但是进入网站点点来下载,查询搜索工作就不少,下载下来的数据还不一定能看懂。有没有什么方法可以解决这个问题呢?当然有——R包GEOquery!下面就针对芯片数据,教大家用GEOquery包完成下载工作。
GEO数据
在下载之前要先了解GEO数据库具体存放的四类数据:GSE、GDS、GSM、和GPL。
一个GSE Accession对应的是整个研究项目的系列的数据,可能涉及不同平台;
一个GDS Accession对应的一个同一平台的数据集;
一个GSM Accession对应单一样品的数据信息,它只能是单一平台的数据,往往,GSE 和GDS中会包含多个GSM数据;
一个GPL Accession,则对应一个platform信息。
R包安装与加载
GEOquery
##tryhttp://ifhttps://URLsarenotsupportedsource("https://bioconductor.org/biocLite.R")biocLite("GEOquery")
Biobase
##tryhttp://ifhttps://URLsarenotsupportedsource("https://bioconductor.org/biocLite.R")biocLite("Biobase")
正确加载
library('Biobase')library('GEOquery')setwd("F:/GEO")############有需要可以设置路径
利用GSE Accession
通过阅读文献查找感兴趣的GSE Accession,下载对应的表达数据和平台信息等,可以利用GEOquery中的getGEO()函数下载series_matrix.txt。例如GSE70213:
>gse=getGEO("GSE70213",GSEMatrix=TRUE,destdir=".",getGPL=T,AnnotGPL=T)###destdir设置当前目录,getGPL和AnnotGPL都设置TRUE,可以下载和获得平台的注释文件
gse为列表数据,对应的GSM是单平台,则length为1,之后分别利用Biobase包中的exprs()、pData()和fData()获得表达数据、样品处理分组等信息、芯片平台的设计注释信息,还可以利用annotation()函数了解对应GPL Accession,譬如exprs()函数:
>exprSet=exprs(gse[[1]])>head(exprSet,2)GSM1720833GSM1720834GSM1720835GSM1720836GSM1720837GSM1720838GSM1720839GSM1720840GSM1720841GSM1720842103380012041.408002200.861002323.76003216.263002362.775002195.318002013.359002146.258001785.94602067.041001033800263.7805965.0843858.308275.8614566.9560543.8152649.1136151.2927948.960442.14286GSM1720843GSM1720844GSM1720845GSM1720846GSM1720847GSM1720848GSM1720849GSM1720850GSM1720851GSM1720852103380011769.11501720.774001847.429002214.698002279.515002530.456002303.264002358.834001701.400001970.924001033800242.547243.4837364.3462859.7518857.4885260.2642354.8117953.7088557.8687757.02808GSM1720853GSM1720854GSM1720855GSM1720856103380011822.786002014.260001737.842002001.734001033800259.2612155.2730654.3672249.43959
注释信息的获取可以进行探针和基因的对应,方便后续分析。通过exprs()、pData()和fData()获得的数据都可以利用write.table等进行文件保存。
利用GDS Accession
GDS数据同样可以利用getGEO()函数下载soft文件。例如GDS5881:
>gds=getGEO("GDS5881",GSEMatrix=TRUE,destdir=".",getGPL=T,AnnotGPL=T)###destdir设置当前目录
gds可以利用GEOquery包中的Table()获取表达数据,并利用Meta()获得描述信息,其中Meta(gds)$platform可以获得GPL Accession。
>exprSet=Table(gds)>head(exprSet,1)ID_REFIDENTIFIERGSM1720845GSM1720846GSM1720847GSM1720848GSM1720849GSM1720850GSM1720851GSM1720852GSM1720853110344614Gm288948.497147.25239.333149.904836.831341.950137.556938.192446.0668GSM1720854GSM1720855GSM1720856134.68938.576232.2618>Meta(gset)$platform[1]"GPL6246"
针对getGEO返回的gds——GDS数据,可以利用GEOquery包中GDS2Set()和GDS2MA()转变为为ExpressionSets 和limma MALists。
>gds2eSet=GDS2eSet(gds)>MA=GDS2MA(gds)
再针对返回的gds2eSet,利用exprs()、pData()和fData()同样可以获得表达数据、样品处理分组信息、芯片平台的设计注释信息。返回的MA中涉及大量的描述信息,其中MA$tragets也是样品处理信息。
利用GSM Accession
利用GSM Accession下载的是单样本的表达数据,例如GSM1720833:
>gsm=getGEO("GSM1720833",GSEMatrix=TRUE,destdir=".",getGPL=T,AnnotGPL=T)针对gsm,同样是利用GEOquery包中的Table()获取表达数据,并利用Meta()获得描述信息,而获取对应的GSEAccession和GPLAccsesion利用Meta(gsm)$series_id和Meta(gsm)$platform_id。
利用GPL Accession
针对芯片平台,利用GPL Accession下载得到的数据是芯片的设计和注释信息,可以获得探针组和基因的对应关系,利用Table()函数可以显示annotation,例如GPL6246:
>gpl=getGEO("GPL6246",GSEMatrix=TRUE,destdir=".",getGPL=T,AnnotGPL=T)>ann=Table(gpl)>head(ann,2)IDGenetitleGenesymbolGeneIDUniGenetitleUniGenesymbolUniGeneID110344614predictedgene2889Gm2889100040658210344616NucleotideTitle1MusmusculusblastocystblastocystcDNA,RIKENfull-lengthenrichedlibrary,clone:I1C0009C06product:hypotheticalDeoxyUTPpyrophosphatase/Aspartylprotease,retroviral-typefamilyprofile/Retroviruscapsid,C-terminal/Peptidaseaspartic/Peptidaseaspartic,activesitecontainingprotein,fullinsertsequence///MusmusculusblastocystblastocystcDNA,RIKENfull-lengthenrichedlibrary,clone:I1C0042P10product:hypotheticalprotein,fullinsertsequence2GIGenBankAccessionPlatform_CLONEIDPlatform_ORFPlatform_SPOTIDChromosomelocation174211482///74217103AK145513///AK145782chr1:3054233-3054733182chr1:3102016-3102125ChromosomeannotationGO:FunctionGO:ProcessGO:ComponentGO:FunctionIDGO:ProcessIDGO:ComponentID1Chromosome182
以上是“如何利用GEOquery并结合Biobase下载GEO数据库多种数据”这篇文章的所有内容,感谢各位的阅读!相信大家都有了一定的了解,希望分享的内容对大家有所帮助,如果还想学习更多知识,欢迎关注恰卡编程网行业资讯频道!