merged.gtf如何合并同一转录本的exon位置

merged.gtf如何合并同一转录本的exon位置

这篇文章主要为大家展示了“merged.gtf如何合并同一转录本的exon位置”,内容简而易懂,条理清晰,希望能够帮助大家解决疑惑,下面让小编带领大家一起研究并学习一下“merged.gtf如何合并同一转录本的exon位置”这篇文章吧。

在merged.gtf文件中有所有外显子的信息,下面的脚本可根据此文件提取转录本的所有外显子位置信息。

merged.gtf如何合并同一转录本的exon位置

merged.gtf文件实例:

Chr00Cufflinksexon3799038333.+.gene_id"XLOC_000001";transcript_id"TCONS_00000001";exon_number"1";gene_name"MD00G1000200";oId"CUFF.2.1";nearest_ref"mRNA:MD00G1000200";class_code"j";tss_id"TSS1";Chr00Cufflinksexon3860738710.+.gene_id"XLOC_000001";transcript_id"TCONS_00000001";exon_number"2";gene_name"MD00G1000200";oId"CUFF.2.1";nearest_ref"mRNA:MD00G1000200";class_code"j";tss_id"TSS1";Chr00Cufflinksexon3881438898.+.gene_id"XLOC_000001";transcript_id"TCONS_00000001";exon_number"3";gene_name"MD00G1000200";oId"CUFF.2.1";nearest_ref"mRNA:MD00G1000200";class_code"j";tss_id"TSS1";Chr00Cufflinksexon4261142713.+.gene_id"XLOC_000001";transcript_id"TCONS_00000001";exon_number"4";gene_name"MD00G1000200";oId"CUFF.2.1";nearest_ref"mRNA:MD00G1000200";class_code"j";tss_id"TSS1";Chr00Cufflinksexon4290643203.+.gene_id"XLOC_000001";transcript_id"TCONS_00000001";exon_number"5";gene_name"MD00G1000200";oId"CUFF.2.1";nearest_ref"mRNA:MD00G1000200";class_code"j";tss_id"TSS1";

输出文件示例:

Chr00+XLOC_000001MD00G1000200TCONS_00000001exon37990-3833338607-3871038814-3889842611-4271342906-43203Chr00+XLOC_000001MD00G1000200TCONS_00000002exon38005-3833338607-3871038814-3889842611-4272642906-43167Chr00+XLOC_000002MD00G1000400TCONS_00000003exon50386-50877Chr00+XLOC_000003MD00G1000500TCONS_00000004exon76659-7699177468-7754477649-7771577889-7797078355-78424Chr00+XLOC_000004MD00G1000600TCONS_00000005exon101951-102138102228-102398102957-103004103099-103138103227-103327Chr00+XLOC_000004MD00G1000600TCONS_00000006exon102003-102138102228-102398102957-103004103099-103138103227-103327Chr00+XLOC_000005MD00G1000700TCONS_00000007exon105542-105626105926-106541108356-108832Chr00+XLOC_000005MD00G1000700TCONS_00000009exon105542-105626105926-106541108902-109696Chr00+XLOC_000005MD00G1000700TCONS_00000008exon105542-105626105926-106541108949-109696Chr00+XLOC_000006MD00G1001100TCONS_00000010exon276592-277221280928-280975

其中第一列为染色体;第二列为正负链;第三列是gene_id;第四列为gene_name;第五列为转录本ID;之后是外显子的起始位置信息

代码如下:

#!/usr/bin/perl-wusestrict;usewarnings;useGetopt::Long;useConfig::General;useCwdqw(abs_pathgetcwd);useFindBinqw($Bin$Script);my$version="1.2";##prepareparameters#########################################################################-------------------------------------------------------------------------------------------##GetOptionsmy%opts;GetOptions(\%opts,"gtf=s","od=s","h");my$od=$opts{od};$od=abs_path($od);mkdir$odunless(-d$od);open(IN,"$opts{gtf}")||die"openfile$opts{gtf}failed.";open(OUT,">$opts{od}/merged.tpm")||die"openfile$opts{od}/merged.tpmfailed.";while(<IN>){nextif(/^#/);chomp;my($chr,$a,$exon,$start,$end,$c,$link,$d,$lin)=split("\t",$_);$lin=~/transcript_id\"([^\"]*)\"/;my$trans=$1;$lin=~/gene_name\"([^\"]*)\"/;my$gene_name=$1;$lin=~/gene_id\"([^\"]*)\"/;my$gene_id=$1;$lin=~/transcript_id\"([^\"]*)\"/;my$trans_id=$1;printOUTjoin("\t",$chr,$exon,$start,$end,$link,$gene_id,$trans_id)."\n";}close(IN);close(OUT);open(IN,"$opts{od}/merged.tpm")||die"openfile$opts{od}/merged.tpmfailed.";open(OUT,">$opts{od}/merged.gtf")||die"openfile$opts{od}/merged.gtffailed.";my$cmd="";my$key="";while(<IN>){nextif(/^#/);chomp;my($chr,$exon,$start,$end,$link,$gene_id,$gene_name,$trans_id)=split("\t",$_);if($keyeq$trans_id){$cmd.="\t".$start."-".$end;}else{$key=$trans_id;if($cmdne""){printOUT$cmd."\n";}$cmd=join("\t",$chr,$link,$gene_id,$trans_id,$exon,$start."-".$end);}}close(IN);close(OUT);

以上是“merged.gtf如何合并同一转录本的exon位置”这篇文章的所有内容,感谢各位的阅读!相信大家都有了一定的了解,希望分享的内容对大家有所帮助,如果还想学习更多知识,欢迎关注恰卡编程网行业资讯频道!

发布于 2022-03-18 22:48:14
收藏
分享
海报
0 条评论
27
上一篇:在ES6中如何使用Sets 下一篇:ES6如何强制要求参数
目录

    0 条评论

    本站已关闭游客评论,请登录或者注册后再评论吧~

    忘记密码?

    图形验证码