近日,一项刊登在国际杂志Bioinformatics上的研究论文中,来自加州大学尔湾分校和博德研究所的研究人员通过深度学习算法进行大规模基因表达预测,并在预测精度上获得了显着提升。
全基因组表达谱分析被广泛应用于描述细胞在不同生理病理条件下的活动状态,例如不同的癌组织细胞在各种给药条件下会产生截然不同的生理反应和表达谱。然而由于其相对昂贵的成本,目前只有少数资金充足的实验室能够进行大规模全基因组表达谱分析。
虽然人体全基因组含有约22000个基因,但是大量数据表明绝大部分基因的表达谱之间存在高度关联。基于此假设,博德研究所的研究人员开发出L1000芯片技术,能以十分低廉的价格(~5$/样本)测量约1000个"标杆"基因的表达谱。在此基础之上,研究人员便可以结合已有的全基因组表达谱数据,计算预测剩余的约21000个"目标"基因的表达谱。目前研究人员采用基于线性回归的计算模型进行预测,而大量实验表明基因表达谱之间存在广泛的非线性关联。因此目前的计算模型在预测精度上还受到一定限制。
来自加州大学尔湾分校的研究人员通过大规模多任务深度学习网络进行"目标"基因表达谱预测,在原有线性回归模型的基础上将预测精度提高了15.33%。进一步分析表明,在约21000个"目标"基因中,深度学习算法在99.97%的基因上获得了更加准确的预测精度。通过查看深度学习网络各层之间的权值,研究人员发现深度学习网络自动捕获了全基因表达谱之间的非线性关联,从而部分解释了深度学习网络相较于线性回归模型的优势。研究人员在文章的最后开放了GitHub源代码,并提供了对NIH LINCS计划约130万个样本表达谱预测结果的下载。
文章共同一作Yi Li表示,在过去几年中深度学习方法在传统AI问题上已经取得了长足进展,但是在计算生物和生物信息学上的应用,从2015年开始才在DNA序列分析上崭露头角。随着各种大规模生物数据集的公布(如NIH LINCS计划)以及各种开源工具的普及(如果谷歌的深度学习开源框架TensorFlow),相信深度学习未来将在更多其他类型的生物数据分析上取得进展。
标签阅读: 基因,测序