merged.gtf如何合并同一转录本的exon位置
merged.gtf如何合并同一转录本的exon位置
这篇文章主要为大家展示了“merged.gtf如何合并同一转录本的exon位置”,内容简而易懂,条理清晰,希望能够帮助大家解决疑惑,下面让小编带领大家一起研究并学习一下“merged.gtf如何合并同一转录本的exon位置”这篇文章吧。
在merged.gtf文件中有所有外显子的信息,下面的脚本可根据此文件提取转录本的所有外显子位置信息。
merged.gtf文件实例:
Chr00Cufflinksexon3799038333.+.gene_id"XLOC_000001";transcript_id"TCONS_00000001";exon_number"1";gene_name"MD00G1000200";oId"CUFF.2.1";nearest_ref"mRNA:MD00G1000200";class_code"j";tss_id"TSS1";Chr00Cufflinksexon3860738710.+.gene_id"XLOC_000001";transcript_id"TCONS_00000001";exon_number"2";gene_name"MD00G1000200";oId"CUFF.2.1";nearest_ref"mRNA:MD00G1000200";class_code"j";tss_id"TSS1";Chr00Cufflinksexon3881438898.+.gene_id"XLOC_000001";transcript_id"TCONS_00000001";exon_number"3";gene_name"MD00G1000200";oId"CUFF.2.1";nearest_ref"mRNA:MD00G1000200";class_code"j";tss_id"TSS1";Chr00Cufflinksexon4261142713.+.gene_id"XLOC_000001";transcript_id"TCONS_00000001";exon_number"4";gene_name"MD00G1000200";oId"CUFF.2.1";nearest_ref"mRNA:MD00G1000200";class_code"j";tss_id"TSS1";Chr00Cufflinksexon4290643203.+.gene_id"XLOC_000001";transcript_id"TCONS_00000001";exon_number"5";gene_name"MD00G1000200";oId"CUFF.2.1";nearest_ref"mRNA:MD00G1000200";class_code"j";tss_id"TSS1";
输出文件示例:
Chr00+XLOC_000001MD00G1000200TCONS_00000001exon37990-3833338607-3871038814-3889842611-4271342906-43203Chr00+XLOC_000001MD00G1000200TCONS_00000002exon38005-3833338607-3871038814-3889842611-4272642906-43167Chr00+XLOC_000002MD00G1000400TCONS_00000003exon50386-50877Chr00+XLOC_000003MD00G1000500TCONS_00000004exon76659-7699177468-7754477649-7771577889-7797078355-78424Chr00+XLOC_000004MD00G1000600TCONS_00000005exon101951-102138102228-102398102957-103004103099-103138103227-103327Chr00+XLOC_000004MD00G1000600TCONS_00000006exon102003-102138102228-102398102957-103004103099-103138103227-103327Chr00+XLOC_000005MD00G1000700TCONS_00000007exon105542-105626105926-106541108356-108832Chr00+XLOC_000005MD00G1000700TCONS_00000009exon105542-105626105926-106541108902-109696Chr00+XLOC_000005MD00G1000700TCONS_00000008exon105542-105626105926-106541108949-109696Chr00+XLOC_000006MD00G1001100TCONS_00000010exon276592-277221280928-280975
其中第一列为染色体;第二列为正负链;第三列是gene_id;第四列为gene_name;第五列为转录本ID;之后是外显子的起始位置信息
代码如下:
#!/usr/bin/perl-wusestrict;usewarnings;useGetopt::Long;useConfig::General;useCwdqw(abs_pathgetcwd);useFindBinqw($Bin$Script);my$version="1.2";##prepareparameters#########################################################################-------------------------------------------------------------------------------------------##GetOptionsmy%opts;GetOptions(\%opts,"gtf=s","od=s","h");my$od=$opts{od};$od=abs_path($od);mkdir$odunless(-d$od);open(IN,"$opts{gtf}")||die"openfile$opts{gtf}failed.";open(OUT,">$opts{od}/merged.tpm")||die"openfile$opts{od}/merged.tpmfailed.";while(<IN>){nextif(/^#/);chomp;my($chr,$a,$exon,$start,$end,$c,$link,$d,$lin)=split("\t",$_);$lin=~/transcript_id\"([^\"]*)\"/;my$trans=$1;$lin=~/gene_name\"([^\"]*)\"/;my$gene_name=$1;$lin=~/gene_id\"([^\"]*)\"/;my$gene_id=$1;$lin=~/transcript_id\"([^\"]*)\"/;my$trans_id=$1;printOUTjoin("\t",$chr,$exon,$start,$end,$link,$gene_id,$trans_id)."\n";}close(IN);close(OUT);open(IN,"$opts{od}/merged.tpm")||die"openfile$opts{od}/merged.tpmfailed.";open(OUT,">$opts{od}/merged.gtf")||die"openfile$opts{od}/merged.gtffailed.";my$cmd="";my$key="";while(<IN>){nextif(/^#/);chomp;my($chr,$exon,$start,$end,$link,$gene_id,$gene_name,$trans_id)=split("\t",$_);if($keyeq$trans_id){$cmd.="\t".$start."-".$end;}else{$key=$trans_id;if($cmdne""){printOUT$cmd."\n";}$cmd=join("\t",$chr,$link,$gene_id,$trans_id,$exon,$start."-".$end);}}close(IN);close(OUT);
以上是“merged.gtf如何合并同一转录本的exon位置”这篇文章的所有内容,感谢各位的阅读!相信大家都有了一定的了解,希望分享的内容对大家有所帮助,如果还想学习更多知识,欢迎关注恰卡编程网行业资讯频道!
推荐阅读
-
polyfills怎么按需加载
polyfills怎么按需加载本篇内容主要讲解“polyfills...
-
C#数据类型怎么实现背包、队列和栈
-
C#怎么实现冒泡排序和插入排序算法
C#怎么实现冒泡排序和插入排序算法这篇文章主要讲解了“C#怎么实现...
-
C#如何实现希尔排序
-
C#如何实现归并排序
-
C#怎么使用符号表实现查找算法
-
C#类的静态成员怎么用
C#类的静态成员怎么用这篇“C#类的静态成员怎么用”文章的知识点大...
-
C#的静态函数怎么用
C#的静态函数怎么用这篇文章主要讲解了“C#的静态函数怎么用”,文...
-
C#中的析构函数怎么用
C#中的析构函数怎么用这篇文章主要讲解了“C#中的析构函数怎么用”...
-
怎么用CZGL.ProcessMetrics监控.NET应用