已经提出了一系列miRNA-疾病关联预测方法,以优先考虑潜在的疾病相关miRNA。必须对这些方法进行独立的基准测试,以评估它们的有效性。
北京大学基础医学院的周源团队和河北工业大学的李建伟团队在《基因组生物学》上联合发表了一篇题为《在线预测MicroRNA-疾病关联的计算方法基准》的文章。
MicroRNA(miRNA)大约是22nt的RNA,主要通过靶向mRNA的3’UTR区域来调节基因表达。这些小的非编码RNA广泛参与重要的生物学过程,如细胞分裂、分化、凋亡、细胞周期调节,
炎症和应激反应。因此,miRNA障碍,包括表达障碍、功能获得或缺失突变和表观遗传沉默,通常在许多疾病的发生和发展中起重要作用,包括但不限于癌症、心血管疾病和神经退行性疾病。到目前为止,
有一些流行的miRNA疾病关联数据库,其中HMDD和miR2Disease是从文献中人工选择已知的miRNA疾病关联。
然而,dbDEMC通过识别观察到的疾病(癌症)中差异表达的miRNA来推断miRNA疾病之间的关系。这些数据库不仅可以被生物医学科学家用来理解miRNA在疾病中的作用,
它还可以用于生物信息学开发者建立新的miRNA-疾病关联预测工具。事实上,鉴于仍有很大一部分潜在的miRNA-疾病关联有待探索,计算方法构成了实验分析的必要补充。举个例子,
最新的miRBase记录了1917个人类miRNA基因,而根据目前的DO命名法,有9000多个疾病术语。相比之下,HMDD v3.1是最新的miRNA-疾病相关数据集。
只有893种疾病和1206个miRNA基因之间的35547个miRNA-疾病关联被覆盖。这些统计数据表明,大约30%和80%的人类miRNA和疾病尚未通过实验研究进行报道。考虑到实验的时间和劳动成本,
一个有效和准确的计算和预测工具是必要的,它确保社区筛选的主要目标得到进一步研究。
基准数据集上36个miRNA疾病相关预测因子的总体表现
在这里,基于来自最新HMDD v3.1数据库的8000多种新型miRNA疾病关联,研究人员系统地比较了36种容易获得的预测方法。他们的整体表现通过严格精确的召回曲线分析来评估。
其中,13种方法表现出可接受的准确性(AUPRC 000.200),而前两种方法的AUPRC有望达到0.300以上,仅考虑因果关系时,大部分也排名靠前,miRNA疾病关联为阳性样本。
通过组合不同的预测变量或使用更新的miRNA相似性矩阵,证明了性能改进的潜力。与最佳单个预测变量和使用先前相似矩阵的预测变量相比,AUPRC可分别提高16%和46%。
这项研究的分析提出了现有方法的一个共同问题,即预测结果严重偏向于具有许多已知miRNA的良好注释的疾病,并且无法通过与一般miRNA相关联来进一步分层阳性样本-区分原因miRNA-疾病。
总之,基准测试结果不仅为生物医学研究人员选择合适的miRNA-疾病相关预测因子提供了参考,也为未来开发更强大的miRNA-疾病相关预测因子提供了方向。
原始链接:
https://www.nature.com/articles/s41422-019-0238-4
标题:河北工业大学生物医学与健康工程研究院(河北工业大学新增应用统计)
链接:https://www.52hkw.com/news/rj/58790.html
版权:文章转载自网络,如有侵权,请联系删除!