首页开发技术正文

TCGA数据下载的示例分析

魁首哥

作者

TCGA数据下载的示例分析

这篇文章主要介绍了TCGA数据下载的示例分析，具有一定借鉴价值，感兴趣的朋友可以参考下，希望大家阅读完这篇文章之后大有收获，下面让小编带着大家一起了解一下。

TCGAbiolinks 下载 TCGA 数据

下载TCGA数据的方式有很多，大致可以分成3类：

1. 采用GDC 工具去下载：这个其实挺麻烦的，下载后的数据还要合并，不同的数据合并方式还不一样，需要些不少的代码。

2. 从Broad 研究所的Firehose 去下载整理好的数据，但是这个数据都比较陈旧。

3. 采用R包去下载：目前一些R包，能对GDC的工具和API进行了很好的封装，简化了操作过程，而且当GDC进行了升级时，R包也会及时更新，所以这种方式下载数据是一个比较理想的方式。

#加载需要的包library(SummarizedExperiment)library(TCGAbiolinks)############################################################GDC:https://portal.gdc.cancer.gov/############################################################设置环境参数work_dir<-"/Users/zhangqiuxue/Lab/TCGA/TCGAbiolinks"#设置程序参数project<-"TCGA-STAD"data_category<-"TranscriptomeProfiling"data_type<-"GeneExpressionQuantification"workflow_type<-"HTSeq-Counts"legacy<-FALSE#设置工作目录setwd(work_dir)#下载基因表达量，count数格式的结果DataDirectory<-paste0(work_dir,"/GDC/",gsub("-","_",projects))FileNameData<-paste0(DataDirectory,"_","Gene_HTSeq_Counts",".rda")#查询可以下载的数据query<-GDCquery(project=project,data.category=data_category,data.type=data_type,workflow.type=workflow_type,legacy=legacy)#该癌症总样品数量samplesDown<-getResults(query,cols=c("cases"))cat("Totalsampletodown:",length(samplesDown))#TP样品数量dataSmTP<-TCGAquery_SampleTypes(barcode=samplesDown,typesample="TP")cat("TotalTPsamplestodown:",length(dataSmTP))#NT样本数量dataSmNT<-TCGAquery_SampleTypes(barcode=samplesDown,typesample="NT")cat("TotalNTsamplestodown:",length(dataSmNT))#下载数据,数据比较大，耐心等待GDCdownload(query=query,directory=DataDirectory)#保存结果，方便后面使用data<-GDCprepare(query=query,save=TRUE,directory=DataDirectory,save.filename=FileNameData)#表达量提取，保存到文件data_expr<-assay(data)dim(data_expr)gene_expr_file<-paste0(DataDirectory,"_","Gene_HTSeq_Counts",".txt")write.table(data_expr,file=gene_expr_file,sep="\t",row.names=T,quote=F)

除了下载数据，TCGAbiolinks 还集成了差异分析，生存分析等功能

感谢你能够认真阅读完这篇文章，希望小编分享的“TCGA数据下载的示例分析”这篇文章对大家有帮助，同时也希望大家多多支持恰卡编程网，关注恰卡编程网行业资讯频道，更多相关知识等着你来学习!

阅读全文

发布于 2022-03-18 22:48:48

TCGA

分享空间
分享微博
手机扫一扫

海报

上一篇：如何利用ggplot2绘制密度图下一篇：python如何在两个变量之间交换值

TCGA数据下载的示例分析

推荐阅读