如何利用GEOquery并结合Biobase下载GEO数据库多种数据

魁首哥

作者

如何利用GEOquery并结合Biobase下载GEO数据库多种数据

小编给大家分享一下如何利用GEOquery并结合Biobase下载GEO数据库多种数据，相信大部分人都还不怎么了解，因此分享这篇文章给大家参考一下，希望大家阅读完这篇文章后大有收获，下面让我们一起去了解一下吧！

GEO数据库是NCBI开发的基因表达数据库，主要接收通过高通量测序、基因芯片等方法获得的基因表达数据——这就方便大家利用他人数据发文章了。

而进行GEO数据挖掘的第一步就是进行数据下载，但是进入网站点点来下载，查询搜索工作就不少，下载下来的数据还不一定能看懂。有没有什么方法可以解决这个问题呢？当然有——R包GEOquery！下面就针对芯片数据，教大家用GEOquery包完成下载工作。

GEO数据

在下载之前要先了解GEO数据库具体存放的四类数据：GSE、GDS、GSM、和GPL。

一个GSE Accession对应的是整个研究项目的系列的数据，可能涉及不同平台；

一个GDS Accession对应的一个同一平台的数据集；

一个GSM Accession对应单一样品的数据信息，它只能是单一平台的数据，往往，GSE 和GDS中会包含多个GSM数据；

一个GPL Accession，则对应一个platform信息。

R包安装与加载

GEOquery

##tryhttp://ifhttps://URLsarenotsupportedsource("https://bioconductor.org/biocLite.R")biocLite("GEOquery")

Biobase

##tryhttp://ifhttps://URLsarenotsupportedsource("https://bioconductor.org/biocLite.R")biocLite("Biobase")

正确加载

library('Biobase')library('GEOquery')setwd("F:/GEO")############有需要可以设置路径

利用GSE Accession

通过阅读文献查找感兴趣的GSE Accession，下载对应的表达数据和平台信息等，可以利用GEOquery中的getGEO()函数下载series_matrix.txt。例如GSE70213：

>gse=getGEO("GSE70213",GSEMatrix=TRUE,destdir=".",getGPL=T,AnnotGPL=T)###destdir设置当前目录，getGPL和AnnotGPL都设置TRUE，可以下载和获得平台的注释文件

gse为列表数据，对应的GSM是单平台，则length为1，之后分别利用Biobase包中的exprs()、pData()和fData()获得表达数据、样品处理分组等信息、芯片平台的设计注释信息，还可以利用annotation()函数了解对应GPL Accession，譬如exprs()函数：

>exprSet=exprs(gse[[1]])>head(exprSet,2)GSM1720833GSM1720834GSM1720835GSM1720836GSM1720837GSM1720838GSM1720839GSM1720840GSM1720841GSM1720842103380012041.408002200.861002323.76003216.263002362.775002195.318002013.359002146.258001785.94602067.041001033800263.7805965.0843858.308275.8614566.9560543.8152649.1136151.2927948.960442.14286GSM1720843GSM1720844GSM1720845GSM1720846GSM1720847GSM1720848GSM1720849GSM1720850GSM1720851GSM1720852103380011769.11501720.774001847.429002214.698002279.515002530.456002303.264002358.834001701.400001970.924001033800242.547243.4837364.3462859.7518857.4885260.2642354.8117953.7088557.8687757.02808GSM1720853GSM1720854GSM1720855GSM1720856103380011822.786002014.260001737.842002001.734001033800259.2612155.2730654.3672249.43959

注释信息的获取可以进行探针和基因的对应，方便后续分析。通过exprs()、pData()和fData()获得的数据都可以利用write.table等进行文件保存。

利用GDS Accession

GDS数据同样可以利用getGEO()函数下载soft文件。例如GDS5881：

>gds=getGEO("GDS5881",GSEMatrix=TRUE,destdir=".",getGPL=T,AnnotGPL=T)###destdir设置当前目录

gds可以利用GEOquery包中的Table()获取表达数据，并利用Meta()获得描述信息，其中Meta(gds)$platform可以获得GPL Accession。

>exprSet=Table(gds)>head(exprSet,1)ID_REFIDENTIFIERGSM1720845GSM1720846GSM1720847GSM1720848GSM1720849GSM1720850GSM1720851GSM1720852GSM1720853110344614Gm288948.497147.25239.333149.904836.831341.950137.556938.192446.0668GSM1720854GSM1720855GSM1720856134.68938.576232.2618>Meta(gset)$platform[1]"GPL6246"

针对getGEO返回的gds——GDS数据，可以利用GEOquery包中GDS2Set()和GDS2MA()转变为为ExpressionSets 和limma MALists。

>gds2eSet=GDS2eSet(gds)>MA=GDS2MA(gds)

再针对返回的gds2eSet,利用exprs()、pData()和fData()同样可以获得表达数据、样品处理分组信息、芯片平台的设计注释信息。返回的MA中涉及大量的描述信息，其中MA$tragets也是样品处理信息。

利用GSM Accession

利用GSM Accession下载的是单样本的表达数据，例如GSM1720833：

>gsm=getGEO("GSM1720833",GSEMatrix=TRUE,destdir=".",getGPL=T,AnnotGPL=T)针对gsm，同样是利用GEOquery包中的Table()获取表达数据，并利用Meta()获得描述信息，而获取对应的GSEAccession和GPLAccsesion利用Meta(gsm)$series_id和Meta(gsm)$platform_id。

利用GPL Accession

针对芯片平台，利用GPL Accession下载得到的数据是芯片的设计和注释信息，可以获得探针组和基因的对应关系，利用Table()函数可以显示annotation，例如GPL6246：

>gpl=getGEO("GPL6246",GSEMatrix=TRUE,destdir=".",getGPL=T,AnnotGPL=T)>ann=Table(gpl)>head(ann,2)IDGenetitleGenesymbolGeneIDUniGenetitleUniGenesymbolUniGeneID110344614predictedgene2889Gm2889100040658210344616NucleotideTitle1MusmusculusblastocystblastocystcDNA,RIKENfull-lengthenrichedlibrary,clone:I1C0009C06product:hypotheticalDeoxyUTPpyrophosphatase/Aspartylprotease,retroviral-typefamilyprofile/Retroviruscapsid,C-terminal/Peptidaseaspartic/Peptidaseaspartic,activesitecontainingprotein,fullinsertsequence///MusmusculusblastocystblastocystcDNA,RIKENfull-lengthenrichedlibrary,clone:I1C0042P10product:hypotheticalprotein,fullinsertsequence2GIGenBankAccessionPlatform_CLONEIDPlatform_ORFPlatform_SPOTIDChromosomelocation174211482///74217103AK145513///AK145782chr1:3054233-3054733182chr1:3102016-3102125ChromosomeannotationGO:FunctionGO:ProcessGO:ComponentGO:FunctionIDGO:ProcessIDGO:ComponentID1Chromosome182

以上是“如何利用GEOquery并结合Biobase下载GEO数据库多种数据”这篇文章的所有内容，感谢各位的阅读！相信大家都有了一定的了解，希望分享的内容对大家有所帮助，如果还想学习更多知识，欢迎关注恰卡编程网行业资讯频道！

阅读全文

发布于 2022-03-18 22:48:46

GEOquery