UMI全称:Unique Molecular Identifiers ,想了解UMI的优势、分类及常见的UMI生物信息分析软件的小伙伴,跟随樊大师一起来了解下吧~
使用UMI可以在分析过程中保留更多的数据
使用UMI可以在分析过程中保留更多的数据,如上图所示,左边没有加UMI的数据和右边加上UMI的文库相比,在去除PCR冗余的过程中,左边在数据分析分析过程中只会保留1条数据,而添加过UMI后的数据会保留6条,通过示意图我们可以粗略看到UMI带来的在数据方面的功效。
UMI可以帮助纠正测序过程中PCR产生的错误
UMI可以帮助纠正测序过程中PCR产生的错误,如上图所示,上下文库相比较,在添加完UMI后,数据分析过程中,具有相同UMI的测序reads可以成为一个group,通过同一group的数据矫正可以得到最终的consensus read,从而起到了减少测序过程中产生的错误,可以将测序错误率降到<=0.007%,再结合超高的测序深度(20,000X)检测下限可达到0.1%-0.5%之间。
目前关于UMI大体可以分为两类:random与fix
random文库示例:
random是在测序文库的一端加上随机的固定长度的序列,例如由Swift公司推出的产品就是在测序文库P7端(原文库index位置)插入一段9碱基的随机序列作为UMI,该UMI是单端的,理论上UMI的种类是4的次方种,大约为262,144种。求臻医学的ChosenFocus系列产品,在UMI设计上采用的也是9碱基随机序列。
fix文库示例:
fix一般是在测序两端都加入UMI,例如Illumina推出的TSO500就是由固定种类的120种的固定序列组成,如果在测序文库双端,则理论上会产生120*120种的UMI文库类型组合。求臻医学的ChosenOne 599等产品,UMI设计上也采用了此种策略。
常用的UMI生物信息分析软件
根据文库的类型不同,数据分析上也会有所差别,这里我们推荐一些常用的生物信息分析软件:
fastp(https://github.com/OpenGene/fastp)
fgbio(http://fulcrumgenomics.github.io/fgbio/)
bmftools (https://github.com/ARUP-NGS/BMFtools)
UMI-tools(https://github.com/CGATOxford/UMI-tools)
参考文献:
MacConaill L E, Burns R T, Nag A, et al. Unique, dual-indexed sequencing adapters with UMIs effectively eliminate index cross-talk and significantly improve sensitivity of massively parallel sequencing[J]. BMC genomics, 2018, 19(1): 30.