伴随着获取COSMIC数据库需要license认证许可,我们常有的变异注释软件Annovar官方对COSMIC数据库可应用支持的版本也停留在了v70。下面小编就带你一起分享基于Annovar软件如何建立最新版本COSMIC(v89)数据库的Index文件。
第一步:
首先获取最新版本的COSMIC数据,这个可以通过使用高校和科研的邮箱注册COSMIC数据库。注册登陆完成后选择你要下载的参考基因组版本。
第二步:
以GRCh37为例,在导航栏选择‘Downloads’按钮:
第三步:
之前的COSMIC注释只包含了编码区域,目前也已经包含了非编码区的位点注释,针对编码区和非编码区需要下载四个文件来构建Annovar的index文件:
CosmicCodingMuts.vcf
CosmicMutantExport.tsv
CosmicNCV.tsv
CosmicNonCodingVariants.vcf
第四步:
从annovar官方网站下载数据预处理脚本prepare_annovar_user.pl:
http://www.openbioinformatics.org/annovar/download/prepare_annovar_user.pl
将第三步下载的四个文件作为输入构建数据库,构建命令如下:
prepare_annovar_user.pl -dbtype cosmic CosmicMutantExport.tsv -vcf CosmicCodingMuts.vcf > hg37_cosmic98.txt
prepare_annovar_user.pl -dbtype cosmic CosmicMutantExport.tsv -vcf CosmicNonCodingVariants.vcf >> hg37_cosmic98.txt
第五步:
第四步输出的两个数据库文件其实已经可以完成变异位点对编码区和非编码的注释,但是为了加快运行速度,需要对数据库文件构建index,因为两个数据库文件已经远远超过之前的体量。构建index的分析脚本,可以通过写邮件的形式和在Annovar软件官网给作者留言获得。你只要留下你的邮箱地址即可。软件开发者很nice,一般会在2个工作日内回复你。