我要投搞

标签云

收藏小站

爱尚经典语录、名言、句子、散文、日志、唯美图片

当前位置:小鱼玄机解释报 > 谱分析 >

深度学习在基因表达谱分析上取得重要进展

归档日期:06-06       文本归类:谱分析      文章编辑:爱尚语录

  近日,一项刊登在国际杂志Bioinformatics上的研究论文中,来自加州大学尔湾分校和博德研究所的研究人员通过深度学习算法进行大规模基因表达预测,并在预测精度上获得了显着提升。

  全基因组表达谱分析被广泛应用于描述细胞在不同生理病理条件下的活动状态,例如不同的癌组织细胞在各种给药条件下会产生截然不同的生理反应和表达谱。然而由于其相对昂贵的成本,目前只有少数资金充足的实验室能够进行大规模全基因组表达谱分析。

  虽然人体全基因组含有约22000个基因,但是大量数据表明绝大部分基因的表达谱之间存在高度关联。基于此假设,博德研究所的研究人员开发出L1000芯片技术,能以十分低廉的价格(~5$/样本)测量约1000个标杆基因的表达谱。在此基础之上,研究人员便可以结合已有的全基因组表达谱数据,计算预测剩余的约21000个目标基因的表达谱。目前研究人员采用基于线性回归的计算模型进行预测,而大量实验表明基因表达谱之间存在广泛的非线性关联。因此目前的计算模型在预测精度上还受到一定限制。

  来自加州大学尔湾分校的研究人员通过大规模多任务深度学习网络进行目标基因表达谱预测,在原有线性回归模型的基础上将预测精度提高了15.33%。进一步分析表明,在约21000个目标基因中,深度学习算法在99.97%的基因上获得了更加准确的预测精度。通过查看深度学习网络各层之间的权值,研究人员发现深度学习网络自动捕获了全基因表达谱之间的非线性关联,从而部分解释了深度学习网络相较于线性回归模型的优势。研究人员在文章的最后开放了GitHub源代码,并提供了对NIHLINCS计划约130万个样本表达谱预测结果的下载。

  文章共同一作YiLi表示,在过去几年中深度学习方法在传统AI问题上已经取得了长足进展,但是在计算生物和生物信息学上的应用,从2015年开始才在DNA序列分析上崭露头角。随着各种大规模生物数据集的公布(如NIHLINCS计划)以及各种开源工具的普及(如果谷歌的深度学习开源框架TensorFlow),相信深度学习未来将在更多其他类型的生物数据分析上取得进展。

  主办单位:中国科学院生命科学与生物技术局 中国生物工程学会 中国科学院微生物研究所

本文链接:http://singtamil.com/pufenxi/157.html