基于机器学习的血液系统恶性疾病鉴别诊断与预后分层模型开发

研究目的血液系统恶性疾病(Hematologicmalignancies)被列为亚洲国家最常见的十大癌症之一。血液系统恶性疾病的临床表现具有多样性,现有的鉴别诊断方案需要一系列复杂、耗时和昂贵的检查,并且依赖于临床医生的经验。诊断后对患者进行预后分层及治疗方案评估时,更是难上加难且标准不一。如果只需要进行一次检查就能有效地鉴别诊断血液系统恶性疾病,并且还能对患者的预后情况进行有效的分层,患者无疑会受益无穷。转录组测序(Transcriptome sequencing)近年来在临床中的使用逐渐普遍,其结果中隐藏了海量有待挖掘的信息。再加上以机器学习(Machine learning,ML)或者深度学习(Deep learning,DL)为代表的新数据分析及建模方法的成熟。转录组测序与机器学习(深度学习)的组合可能会产生意想不到的结果,所以我们希望利用机器学习(深度学习)的方法对血液系统恶性疾病患者的转录组测序数据进行分析,以期开发一个可以对患者进行高精度、同质化、基层易推广的鉴别诊断及预后分层的模型。研究方法本研究主要使用血液系统恶性疾病患者的转录组测序及生存随访数据,经过数据资源检索和汇总后,最终选择了 5种血液系统恶性疾病,包括:急性T淋巴细胞白血病(T-cell acute lymphoblastic leukemia,T-ALL)、急性 B 淋巴细胞白血病(B-cell acute lymphoblastic leukemia,B-ALL)、急性髓系白血病(Plants medicinalAcute myeloid leukemia,AML)、弥漫大 B 细胞淋巴瘤(diffuse large B-cell lymphoma,DLBCL)和多发性骨髓瘤(Multiple myeloma,MM)。总获取了来自6个公共数据库的AMG510半抑制浓度合计3124例,以及自行收集样本并完成转录组测序的合计59例血液系统恶性疾病患者数据。从全部数据中挑选训练组用于机器学习算法模型的训练,同时挑选验证与测试组(包括队列内验证、跨队列验证、真实病例测试三重测验)用于测验模型的性能。对于疾病鉴别诊断的部分,我们尝试了 9种可能合适的机器学习算法模型。对于疾病预后分层部分,我们在传统机器学习的基础上还使用了深度学习的方法。之后根据训练和测验完善的模型进行了差异表达分析、富集分析、肿瘤微环境分析、模型简化、网络替换等一系列分析探索。研究结果在血液系统恶性疾病的鉴别诊断部分,本研究利用机器学习的方法对样本特征进行分析。该模型在队列内验证中的平均准确度是99.8%,使用独立患者队列进行跨队列验证时达到95.8%的准确度,当使用59名自建患者队列进行测试时准确度仍然高达94.9%,筛选出随机森林(RandomAdavosertib细胞培养 Forest,RF)是最适合的机器学习算法。对于血液系统恶性疾病的预后分层部分,本研究开发了基于深度学习的模型。模型可以将患者划分到准确的预后亚组内(全部Log-rankP value<0.05),在跨队列验证中全部Log-rankP value<0.05,在自建患者队列中全部Log-rankP value<0.05。我们还证实了深度学习在本研究中有不可替代的作用。研究结论本研究开发了一个基于机器学习(深度学习)的模型,仅使用一种检查结果(转录组测序)就可以高效准确地对血液系统恶性疾病进行鉴别诊断,同时还可以给出该患者的精确预后分层情况,为临床医生提供科学有效的诊疗参考。