新闻中心

News Center

Briefings in Bioinformatics - 求臻医学肿瘤基因组智能数据分析软件系统,助力多项室间质评满分通过
时间:2020-10-23 来源:求臻医学

二代测序技术(NGS)已经彻底改变了癌症的研究,丰富的肿瘤基因组数据使探索体细胞突变及其在癌症发生发展中的作用成为可能。然而,肿瘤基因组变异检测关键优化技术研究仍然面临诸多挑战。


挑战之一是变异检测流程的关键技术优化:目前多种算法被广泛应用于NGS数据处理的四个阶段(预处理、序列比对、突变识别和突变注释),但是这些算法之间的差异还没有得到充分的分析和挖掘,包括算法原理、多角度参数设置、突变结果的过滤模型等。


挑战之二是NGS数据的多维质量控制:质量控制显示数据在各个阶段的多维度特征,如测序深度、比对率及质量、捕获效率和链偏差等,有助于发现由测序及实验过程中人为导致的偏差,保证变异检测及后续功能机制研究结论的准确性。


基于以上问题,求臻医学科技(北京)有限公司(以下简称“求臻医学”)生信团队研发了人类肿瘤基因组体细胞突变识别智能软件系统和质量管理策略,采用机器学习技术全局智能把控基因组数据挖掘的各个阶段,快速、准确定位体细胞突变位点。相关成果“Comprehensive fundamental somatic variant calling and quality managementstrategies for human cancer genomes”已在线发表在国际生物信息学领域重要科技期刊《Briefings in Bioinformatics》(2020年最新SCI影响因子:8.99)。




本研究详细跟踪调研了肿瘤基因组数据分析四个层次的通用流行算法,构建了单层次机器学习参数调优及全流程智能调优的关键优化技术框架,提出了智能整合的四层次质量控制策略。



基于智能整合优化技术的四阶段肿瘤基因组数据分析软件系统


该软件系统包括基础分析、过滤及质量管理策略,机器学习技术模块贯穿肿瘤基因组数据分析的预处理、比对、突变识别、突变注释四个分析过程,并采用泛癌种大样本对整个流程进行智能优化技术的效果验证。


目前,求臻医学已将该系统应用于肿瘤NGS Panel的检测服务中,极大程度地保证了生信分析流程的智能性、严谨性及检测结果的准确性。基于此,求臻医学已经连续两年顺利通过了国家卫生健康委临床检验中心(NCCL)发布的《全国肿瘤体细胞突变高通量测序检测生物信息学分析室间质量评价》和《全国实体瘤体细胞突变高通量测序检测室间质量评价》,分析结果准确率100%。


未来,求臻医学将基于机器学习技术结合更多泛癌种样本进一步提升软件系统的智能性,并计划将系统用于其所承担的国家课题——《中国肿瘤基因图谱计划》中,相信此智能系统的介入,将进一步助力生信分析流程的标准化与智能化,推动肿瘤精准医疗的发展进程,为更多肿瘤患者带来福音。