怎么从GTF中提取lncRNA的编号和名称

怎么从GTF中提取lncRNA的编号和名称

这篇文章将为大家详细讲解有关怎么从GTF中提取lncRNA的编号和名称,小编觉得挺实用的,因此分享给大家做个参考,希望大家阅读完这篇文章后可以有所收获。

从GTF文件中提取lncRNA对应的ID和名称

怎么从GTF中提取lncRNA的编号和名称

从TCGA数据中提取lncRNA的表达量时,需要知道lncRNA的编号和对应的名称。这些信息可以从GTF文件中提取。
提取的话,可以采用如下的代码实现。

#!/usr/bin/perl-wusestrict;my$biotype_file=shift@ARGV;my$gtf=shift@ARGV;my$biotype=shift@ARGV;my%biotype_list;openmy$fh2,$biotype_fileordie;while(<$fh2>){chomp;my@array=split/\t/,$_;if($array[2]eq$biotype){$biotype_list{$array[0]}=1;}}close$fh2;openmy$out,">${biotype}_info.txt"ordie;print$out"Gene_id\tGene_id_info\tgene_name\tbiotype\n";openmy$fh3,$gtfordie;while(<$fh3>){chomp;nextif/^#/;my@array=split/\t/,$_;nextunless($array[2]eq"gene");$array[8]=~/gene_id\s+"(\S+?)";.*gene_type\s+"(\S+?)";.*gene_name\s+"(\S+?)";/;my$geneid=$1;my$genebiotype=$2;my$genename=$3;my$gene_id_norm=(split("\\.",$geneid))[0];if($biotype_list{$genebiotype}){print$out"$gene_id_norm\t$geneid\t$genename\t$genebiotype\n";}}close$fh3;

关于“怎么从GTF中提取lncRNA的编号和名称”这篇文章就分享到这里了,希望以上内容可以对大家有一定的帮助,使各位可以学到更多知识,如果觉得文章不错,请把它分享出去让更多的人看到。

发布于 2022-03-18 22:48:39
收藏
分享
海报
0 条评论
37
上一篇:python如何检查给定的字符串是否是回文 下一篇:python中List Comprehension的示例分析
目录

    0 条评论

    本站已关闭游客评论,请登录或者注册后再评论吧~

    忘记密码?

    图形验证码