如何合并不同sample的vcf文件
本篇内容介绍了“如何合并不同sample的vcf文件”的有关知识,在实际案例的操作过程中,不少人都会遇到这样的困境,接下来就让小编带领大家学习一下如何处理这些情况吧!希望大家仔细阅读,能够学有所成!
通过GATK calling出来的SNP如果使用UnifiedGenotype获得的SNP文件是分sample的,但是如果使用vcftools或者ANGSD则需要Vcf文件是multi-sample的,这里就需要我们将不同samples的文件进行合并,可以通过vcftools的perl模块进行,但是这种方式对perl的要求较高,且操作比较复杂,这里我们选择使用Bcftools,操作简便。
分三步:
将vcf进行压缩,批量压缩的方法:
bgzip-c-f-@10merge.vcf>merge.vcf.gz-c,--stdoutwriteonstandardoutput,keeporiginalfilesunchanged-f,--forceoverwritefileswithoutasking-@,--threadsINTnumberofcompressionthreadstouse[1]
2. 对生成的vcf.gz进行index:
bcftoolsindex[options]<in.bcf>|<in.vcf.gz>-t,--tbigenerateTBI-formatindexforVCFfiles
3.合并操作:
bcftoolsmerge[options]<A.vcf.gz><B.vcf.gz>[...]-m,--merge<string>allowmultiallelicrecordsfor<snps|indels|both|all|none|id>,seemanpagefordetails[both]-o,--output<file>writeoutputtoafile[standardoutput]-O,--output-type<b|u|z|v>'b'compressedBCF;'u'uncompressedBCF;'z'compressedVCF;'v'uncompressedVCF[v]-l,--file-list<file>readfilenamesfromthefile
“如何合并不同sample的vcf文件”的内容就介绍到这里了,感谢大家的阅读。如果想了解更多行业相关的知识可以关注恰卡编程网网站,小编将为大家输出更多高质量的实用文章!