臻解密 - 关于UMI一波新知识速递

时间：2019-09-25 来源：求臻医学

1. 在测序文库添加UMI是否可以有效减少deduplication?

文献中选取了市场上的5种商业试剂盒进行比较，结果显示,在添加UMI后on-target rate 增加了1.7–41.9%，平均测序深度是原来的1.19–5.13倍，这说明针对不同的商业试剂盒差异还是蛮大的。

2.UMI标签测错的概率有多大？

借助UMI-tools生信工具，通过针对5种商业试剂盒的比较，标签UMI的错误率为0.1–0.4%,证明只有很少的UMI序列具有错误的标签序列。

3.UMI标签的长度影响

显而易见UMI的长度会影响到文库的多样性，针对同一文库作者比较了2-12bp之间的文库复杂度评估发现UMI的长度当达到6bp时，文库多样性趋于稳定，因此最小的UMI的长度设定在6-8bp之间。

传统的UMI矫正策略大多都是针对测序过程中产生的redundant reads，在最新发表在Nucleic acids research杂志的一篇文章中提到了’Singleton Correction’矫正策略：

(a)由于UMI策略的不同，第一步就是每条序列对应的UMI序列添加到fastq序列的序列名中；

(b)其次是进行序列比对；

(c)对于带有不同UMI标签的测序序列来讲，如果UMI标签序列对应的存在PCR duplicate reads 则先纠正为a single strand consensus sequence (SSCS BAM)。这一步是传统的对具有相同UMI的group序列进行内部矫正；

(d)接下来就是针对于singletons序列进行矫正，即对于带有不同UMI且比对到同一位置上的测序序列来讲，进行联合矫正；

(e)最后是将两者的结果合并生产最终结果。此外这一步中还包含针对正反互补链的联合矫正结果duplex consensus sequences（DCSs）。

文中提到与传统的UMI矫正方法，即其（SSCS）与（DCSs）与错误率分别为0.01%和0.0005%,而加入singletons的纠正方法错误率可降至（0.0007%）。作者对该方法分别在(KRAS, NRAS, BRAF, EGFR and PIK3CA) 5基因涉及到13kb的Small Deep以及1.2Mb的LargeMid panel上进行测试，结果显示在测序深度≤16 000×在数据分析敏感性上都有相应的提高。

基于该方法的开源脚本链接:

https://github.com/pughlab/ConsensusCruncher

参考文献：

1.Chung J, Lee K W, Lee C, et al. Performance evaluation of commercial library construction kits for PCR-based targeted sequencing using a unique molecular identifier[J]. BMC genomics, 2019, 20(1): 216.

2.Wang T T, Abelson S, Zou J, et al. High efficiency error suppression for accurate detection of low frequency variants[J]. Nucleic acids research, 2019.

新闻中心

相关推荐

拨云见日，尿路上皮癌MRD监测初见曙光

FDA 授予Alrizomadlin (APG-115)孤儿药资格，用于治疗IIB-IV期黑色素瘤患者

求臻医学荣登2018年中国最具投资价值企业50强