在人体的每一个细胞内,都有一个由蛋白质组成的星座,数以百万计。它们都在争先恐后地组装、折叠、包装、运输、切割和回收,以疯狂的速度维持我们的生命和运转。

但是,如果没有对我们细胞内的蛋白质世界进行全面的盘点,科学家们很难在分子层面上了解我们的身体出了什么问题,导致了疾病。

现在,研究人员已经开发出一种新技术,使用人工智能来吸收来自单细胞显微镜图像和生化分析的数据,以创建一个亚细胞成分的 "统一地图"--其中一半,事实证明,我们以前从来没有见过。



"加州大学(UC)圣地亚哥分校的计算机科学家和网络生物学家Trey Ideker说:"科学家们早就意识到我们不知道的东西比我们知道的要多,但现在我们终于有办法深入观察。

功能强大的显微镜使科学家能够窥视单细胞内部,直至细胞器的水平,如线粒体(细胞的动力装置)和核糖体(蛋白质工厂)。我们甚至可以添加荧光染料来轻松地标记和追踪蛋白质。

生物化学技术可以更深入,通过使用,例如,定向抗体,结合蛋白质,把它从细胞中拉出来,看看还有什么东西附着在上面,从而对单个蛋白质进行深入研究。

整合这两种方法对细胞生物学家来说是一个挑战。

"你如何弥补从纳米级到微米级的差距?这长期以来一直是生物科学中的一个大障碍,"Ideker解释说。

"事实证明,你可以用人工智能做到这一点--观察来自多个来源的数据,并要求系统将其组装成一个细胞模型。"

其结果是。Ideker和他的同事们已经将教科书上的球状细胞地图翻转过来,这些地图给了我们一个鸟瞰糖果色细胞器的视角,变成了一个复杂的蛋白质-蛋白质相互作用的网络,由它们之间微小的距离组织起来。

显示细胞器横截面的彩色图表 真核细胞横截面的经典视图。(Mariana Ruiz/LadyofHats/Wikimedia)

融合来自一个名为人类蛋白质图谱的图书馆的图像数据和现有的蛋白质相互作用地图,机器学习算法的任务是计算蛋白质对之间的距离。

我们的目标是识别在不同尺度上共存于细胞中的蛋白质群落,称为集合体,从非常小(小于50纳米)到非常 "大"(超过1微米)。

该算法对70个蛋白质群落进行了分类,该算法使用已知或估计直径的蛋白质参考库进行训练,并通过进一步的实验进行验证。

研究人员表示,大约一半被识别的蛋白质成分似乎对科学来说是未知的,在已发表的文献中从未记录过。

在这个混合体中,有一组蛋白质形成了一个陌生的结构,研究人员研究出它可能负责拼接和切割新制作的用于制造蛋白质的遗传密码的转录本。

绘制的其他蛋白质包括跨膜运输系统,该系统将物资泵入和泵出细胞,帮助组织庞大的染色体的蛋白质家族,以及蛋白质复合物,其工作是制造,嗯,更多的蛋白质。

虽然这是一项艰巨的工作,但这并不是科学家第一次试图绘制人类细胞的内部运作图。

其他创建蛋白质相互作用参考图的努力也产生了类似的令人难以置信的数字,并试图测量人体各组织的蛋白质水平。

研究人员还开发了可视化和跟踪细胞内蛋白质的相互作用和运动的技术。

这项试点研究更进一步,将机器学习应用于细胞显微镜图像,该图像定位了蛋白质相对于大型细胞地标(如细胞核)的位置,以及来自蛋白质相互作用研究的数据,该数据识别了一个蛋白质最近的纳米级邻居。

"加州大学圣地亚哥分校的生物信息学家Yue Qin说:"这些技术的结合是独特和强大的,因为这是第一次将巨大的不同尺度的测量结合在一起。

这样一来,多尺度综合细胞技术或MuSIC "提高了成像的分辨率,同时赋予蛋白质相互作用以空间维度,为将不同类型的数据纳入全蛋白质组的细胞图谱铺平了道路",秦、Ideker及其同事写道。

明确地说,这项研究是非常初步的:研究小组专注于验证他们的方法,并且只看了一种细胞类型中661种蛋白质的可用数据,这种细胞系是科学家们在实验室中培养了五十年的肾脏细胞。

研究人员计划将他们的新技术应用于其他细胞类型,Ideker说。

但与此同时,我们将不得不谦卑地接受我们只是自己细胞内的插足者,能够了解全部蛋白质组的一小部分。

"Ideker说:"最终我们也许能够通过比较健康和患病细胞之间的不同之处,更好地了解许多疾病的分子基础。