m~7G修饰位点识别及疾病关联预测方法研究

N7-甲基鸟嘌呤(m~7G)修饰位点是RNA中最常见的碱基修饰,在基因转录、代谢和蛋白质合成等方面发挥了重要作用,同时也参与了疾病的发生和发展等生命过程。在m~7G修饰位点相关的研究中,准确识别m~7G位点在RNA中的位置能够帮助人们进一步了解其功能,此外,寻找m~7G位点与疾病之间的关联能够为人类疾病诊断和治疗提供重要线索。虽然目前已有大量的m~7G位点数据为生物信息技术的应用奠定了基础,研究人员可以快速、低成本地对m~7G位点进行研究,但现有的m~7G数据来源多样,关联数据稀疏,为进一步研究带来了难题。此外,目前研究的模型存在数据挖掘不充分、模型精度不高等问题。因此,本文基于已知的m~7G位点的相关信息,主要工作如下:(1Baricitinib使用方法)针对数据挖掘不充分的问题,提出了m7GSeq Predictor模型,识别RNA序列中的m~7G修饰位点。本文第三章中基于深度学习的方法构建了m~7G修饰位点识别模型。首先利用核苷酸化学结构性质、核苷酸密度信息对RNA序列提取特征,media richness theory并基于卷积神经网络和双向长短时记忆网络构建预测模型,通过参数寻优等方法提高模型的预测精度,进而开发出m~7G位点的识别模型m7GSeq Predictor。为了更好地评估模型,将常用的分类器与m7GSeq Predictor进行比较,五折交叉验证的结果表明,本文提出的m7GSeq Predictor模型更加优秀,预测精度达到了96.61%。(2)针对关联数据稀疏和模型精度不足的问题,提出了m~7GDP-RW模型,用于预测m~7G与疾病之间的关联。本文在第四章中基于异构网络的方法构建了m~7G-疾病关联预测模型m~7GDP-RW利用了已知m~7G-疾病关联信息对相似度进行提升。首先将m~7G和疾病的特征信息与已知的m~7G-疾病关联相结合,分别计算出m~7G相似度和疾病相似度,然后将已知的m~7G-疾病关联与m~7G相似度、疾病相似度结合,从而构建m~7G-疾病异构网络。最后采用两次重启随机游走算法在异构网络上预测新的m~7G-疾病关联关系。十折交叉验证实验结果表明,与现有方法相比,CL13900半抑制浓度m7GDP-RW具有更高的m7G-疾病关联预测精度。