KEGG数据库病毒基因组的下载是怎样的

魁首哥

作者

KEGG数据库病毒基因组的下载是怎样的

今天就跟大家聊聊有关KEGG数据库病毒基因组的下载是怎样的，可能很多人都不太了解，为了让大家更加了解，小编给大家总结了以下内容，希望大家根据这篇文章可以有所收获。

KEGG数据库蛋白序列数据的下载方法中存在两个问题：

1. 在KEGG数据库中病毒物种的命名并非像细胞生物一样为小写字母的缩写，因此在批量下载时遇到病毒会报错而无法下载，如下所示：

2. 在根据蛋白序列id下载序列时会出现下载不完整的情况，这样在最终的合并时就会出现错误。

现针对以上两个问题提供解决方案。首先针对第一个问题，在KEGG数据库中病毒物种的名称的确没有标准缩写，但是所有病毒可以用缩写“vg”来表示（也即viral genome的缩写），下载方法如下所示：

wget-chttp://rest.kegg.jp/list/vg

这样我们就获得了所有病毒的蛋白列表，如下所示：

vg:23892186CP,DU23_s2gp1;Arharcrypticvirus-II;CoatProteinvg:24271495LAT,HHV2s01;Humanalphaherpesvirus2;LATvg:1487286RL1,HHV2p77;Humanalphaherpesvirus2;neurovirulenceproteinICP34.5vg:1487288RL2,HHV2p76;Humanalphaherpesvirus2;ubiquitinE3ligaseICP0vg:1487292UL1,HHV2p75;Humanalphaherpesvirus2;envelopeglycoproteinLvg:1487303UL2,HHV2p74;Humanalphaherpesvirus2;uracil-DNAglycosylasevg:24271453UL3,HHV2p73;Humanalphaherpesvirus2;nuclearproteinUL3vg:1487326UL4,HHV2p71;Humanalphaherpesvirus2;nuclearproteinUL4vg:1487338UL5,HHV2p72;Humanalphaherpesvirus2;helicase-primasehelicasesubunitvg:1487346UL6,HHV2p70;Humanalphaherpesvirus2;capsidportalprotein

其中左边第一列即为病毒蛋白序列的id，可以遍历id来获得序列。

针对第二个问题，这是wget命令的一个缺陷，我们可以通过判断每个文件的最后是否为换行符\n来判断文件是否下载完整，如下所示：

tail-n1|wc-l

如果文件下载完整，最后一个字符为换行符，那么结果为1，否则为0，如下所示：

看完上述内容，你们对KEGG数据库病毒基因组的下载是怎样的有进一步的了解吗？如果还想了解更多知识或者相关内容，请关注恰卡编程网行业资讯频道，感谢大家的支持。

阅读全文

发布于 2021-12-23 21:18:34

KEGG

分享空间
分享微博
手机扫一扫

海报

上一篇：Java如何调用以太坊智能合约下一篇：EOS怎么安装配置

KEGG数据库病毒基因组的下载是怎样的

推荐阅读