单细胞基因测序技术正深刻地改变着科学家们对生命微观层面的理解。它使得研究人员能够深入探索每个细胞的行为,尤其是在细胞面临疾病或药物治疗等挑战时。然而,这项技术在提供精细数据的同时,也带来了巨大的“噪音”,这些噪音常常掩盖重要的生物信号,导致难以得出准确的结论。
单细胞数据中的“噪音”问题
单细胞RNA测序 (scRNA-seq) 允许研究人员在单个细胞层面分析基因活性。与传统方法不同,scRNA-seq并非对数百万细胞的基因活性进行平均,而是能够识别不同细胞的独特行为,即使这些细胞来自相同的组织或器官。
然而,问题在于大量记录到的基因计数都是零。有时,这确实是因为该基因在细胞中没有活性。但更多时候,这是一个技术问题,即基因实际上是活跃的,但测序方法未能检测到,这种现象被称为“dropout”,它会在数据中产生大量的错误零值。
当如此多的基因活性缺失或未被记录时,研究基因如何协同工作或通路如何响应变化而被激活变得非常困难。研究人员已经尝试使用许多统计和计算技巧来解决这个问题。
一些方法使用复杂的模型来估计缺失值,而另一些方法则尝试对相似的细胞进行分组,并推测它们应该表达哪些基因。这些方法在一定程度上有所帮助,但它们通常侧重于修复数值或对细胞进行分组,而不是同时进行两者。
scNET:连接基因和细胞的网络视角
为了超越简单地修补数据,科学家们开始利用蛋白质-蛋白质相互作用 (PPI) 网络。这些网络图展示了蛋白质(基因的产物)在细胞内的相互作用。PPIs不仅仅提供数字,它们提供了真实的背景信息,即基因如何作为细胞分裂或免疫反应等更复杂过程的一部分协同工作。
PPI网络也有其局限性。大多数PPI网络都是利用大型数据集构建的,这些数据集整合了来自不同组织和条件的信息。因此,虽然它们很有用,但它们不能反映特定样本(例如肿瘤或患病患者体内的一组免疫细胞)的真实情况。
将PPI网络与scRNA-seq结合使用就显得尤为重要。将来自单细胞的动态基因活性数据引入到静态PPI网络中,可以获得更有价值的信息,从而了解基因关系如何在不同的生物状态下实时变化。
先前的研究已经表明,整合这两种信息来源可以增强关键基因的识别、生存率的预测以及细胞聚类的改进。但直到最近,还没有一种方法能够将所有这些能力整合在一起,特别是对于小型数据集,甚至可能不知道标记的细胞类型。
一项发表在《自然·方法》(Nature Methods)杂志上的研究,来自以色列一所大学的研究人员开发了一种名为scNET的新方法,有望解决这一难题。scNET整合了单细胞RNA测序和蛋白质-蛋白质相互作用网络,从而更清晰地了解基因和细胞如何在不同条件下相互作用。
scNET:观察细胞和基因的新方式
scNET通过一种简单而强大的方式改变了游戏规则。它不仅仅关注基因,还关注细胞。这种双重视角使得它能够同时学习细胞彼此之间的相似之处以及基因如何协同工作。
scNET的核心是图神经网络 (GNN)。这种类型的人工智能模型擅长处理网络,就像社交网络可以展示人们之间的联系一样,GNN可以揭示基因和细胞之间的联系。在该模型中,一个图代表基因相互作用(基于PPI网络),另一个图代表细胞之间的相似性(基于它们的基因活性谱的相似程度)。
scNET没有固定每个细胞拥有的邻居数量(这是大多数模型的做法),而是引入了一种灵活的边缘注意力机制。这使得它可以学习哪些细胞是真正相关的,而不是强迫每个细胞与一定数量的其他细胞相连。这更能反映生物学的实际运作方式,即某些细胞可能紧密相连,而另一些细胞可能彼此独立。
通过同时从基因网络和细胞网络中学习,scNET可以消除噪音,并学习到准确的基因和细胞嵌入表示,这些紧凑的表示形式包含关键信息。然后,这些嵌入表示可以用于改进下游分析任务,例如细胞聚类、识别基因关系以及识别重要的生物通路。
癌症和免疫细胞研究的突破
为了测试scNET的能力,研究团队专注于被称为T细胞的免疫细胞。这些细胞在对抗肿瘤中发挥着关键作用。但是,了解它们如何响应治疗而发生变化非常困难,尤其是在数据混乱的情况下。
利用scNET,研究人员终于能够看到哪些T细胞在治疗后变得更加活跃。他们注意到细胞毒性行为有所增加,即T细胞攻击并杀死肿瘤细胞。这一见解隐藏在原始的嘈杂数据中,但在scNET改进的分析下变得清晰起来。
特拉维夫大学该项目的主要博士生 Ron Sheinin 解释说:“scNET 将单细胞测序数据与描述可能的基因相互作用的网络(很像社交网络)整合在一起,从而提供了不同基因如何相互影响和相互作用的图谱。”
通过这种更好的视角,可以检测到不同的治疗方法如何影响的不仅仅是肿瘤,还包括肿瘤周围的免疫细胞,这对于改进癌症疗法至关重要。
指导科学家之一 Asaf Madi 教授补充说:“我们专注于 T 细胞群体,T 细胞是因其对抗癌性肿瘤的能力而闻名的免疫细胞。scNET 揭示了治疗对这些 T 细胞的影响,以及它们如何在针对肿瘤的细胞毒性活动中变得更加活跃,由于原始数据中的噪音水平过高,以前不可能发现这一点。”
在生物学和医学领域产生更广泛的影响
scNET 的前景远不止于癌症。通过更容易地了解基因在不同条件下如何表现,它可以帮助治疗多种疾病,从自身免疫性疾病到神经系统疾病。它还为更有针对性的药物开发打开了大门。
共同领导这项研究的 Roded Sharan 教授强调了更大的前景:“这是一个极好的例子,说明人工智能工具如何帮助解读生物和医学数据,使我们能够获得新的重要见解。我们的想法是为生物医学研究人员提供计算工具,帮助他们了解人体细胞的功能,从而找到改善我们健康的新方法。”
在测试中,scNET 在识别基因-基因相互作用和聚类相似细胞方面优于旧方法。它还发现了更多具有生物学意义的通路,并更好地了解了不同的治疗方法如何影响细胞行为。
scNET 的独特之处在于它无需标记数据即可工作,这对于研究人员尚未了解存在哪些细胞类型的新实验来说是一个主要优势。正是这种灵活性使 scNET 成为科学家研究复杂生物系统的强大工具。
随着研究人员不断扩大人工智能在生物学中的应用,像 scNET 这样的工具将成为理解大量新数据的关键。它们提供了一种消除噪音、更清晰地看到模式并使我们更接近更有效和个性化医疗的方式。