西湖大学研究团队开发出一种名为“gsMap”的新方法,绘制出一张从复杂疾病到相关细胞分布的“导航图”,并成功定位了抑郁症、精神分裂症等疾病的相关细胞及其空间分布。20日,相关论文发表于国际权威学术期刊《自然》。
各大媒体对此,进行了争相报道。
不过这个标题嘛……问题有点大。
研究团队:我们开发出了一种新方法来映射细胞空间位置,并建立复杂遗传图谱。例如,通过我们的方法,可以建立与精分、抑郁相关的神经元空间图谱[1]。
《自然》:非常厉害的工具,开发利用前景广阔,登刊!
媒体:科学家在大脑中成功“定位”抑郁症。
《自然》:???
研究团队:!!!
很显然,这一次媒体又完全搞错了重点。
这篇内容比较长,先进行通俗概括:
这篇论文的重点是,研究团队开发了一个非常牛的工具。
这个工具能够把过去大家研究的一些基因数据,进行精准的3D化。
然后研究团队,进行了一个示范:
利用老鼠、猴子的大脑3D数据作为基础,然后把人类抑郁症和精神分裂相关的基因变异数据映射了上去。
于是在这个3D模型上,可以精准地显示与这些疾病有【相关性】的细胞都在哪里。
媒体取的标题不是错误,而是本末倒置、断章取义。
首先呢,研究的重点是工具,以后所有的研究者都可以用这个工具,进行这样的3D映射,进行进一步的精准研究。
其次呢,说成是【定位抑郁症】是完全不对的。那些细胞和抑郁症并不是因果关系,而是存在尚未完全研究清楚的相关性(有可能就像你和我都在一起变老,但我们变老两个人之间没有因果,这样的相关性)。
甚至说成是定位抑郁症细胞都是不行的。因为谷氨酸能神经元就是一种正常功能的神经元,为啥要为抑郁症背锅呢。它出问题,可以产生各种各样的疾病,那是不是也可以说它是智障神经元、精神分裂神经元?
而且还有可能是它们出了问题,所以抑郁,也可能是抑郁了所以它们会出问题。但无论怎么样,作为正常的细胞,都不应该为抑郁症背锅。
另外,也有的一些媒体取的标题是《我国科学家定位了抑郁症的“藏身之处”》,这个标题其实是勉勉强强的,至少不显得那么荒诞。但重要工具只字不提,评价个本末倒置,也是完全没问题的。
「接下来进入专业科普时间」
开发出本次先进方法的杨剑团队是统计遗传学方向的,可不是神经科学方向的。
西湖大学统计遗传学实验室负责人,生命科学学院教授杨剑。
不说看论文,仅仅看这身份,就会知道,他们和具体的抑郁症研究并不会有什么关系。
人是一种多细胞动物,每个细胞类群在表达上存在显著的差异。
细胞层面的基因表达差异和异质性,在2009年以前,并没有工具进行大规模的研究。
例如,对于一坨肿瘤,过去往往是直接整体测序,只能反映出癌症相关基因的整体表达,而不能反映出细胞层面的差异。
但实际,肿瘤的不同细胞是具有显著差异的[2]:
肿瘤内异质性(三种不同颜色的肿瘤细胞) VS 肿瘤间异质性(放大的蓝色部分,单细胞表达差异)
直到2009年,汤富酬团队发展了世界上首个单细胞转录组高通量测序技术——单细胞RNA测序(scRNA-seq),这一切发生了改变。
单细胞RNA测序发展
相比起过去需要大量的细胞,这种方法仅仅使用少量细胞,甚至单个细胞就能进行测序。
通过这种方法,可以建立单个细胞的基因表达图谱,揭露单个细胞水平上的基因表达,从而了解细胞的异质性和功能多样性[3][4]。
它与全RNA测序的区别主要在于,一个反应的是整体上的平均基因表达,一个可以更加精准的反映到细胞亚群、甚至单个细胞上。
检测流程差异:全RNA测序 VS 单细胞RNA测序
检测结果差异:全RNA测序 VS 单细胞RNA测序
单细胞RNA测序可以用来分析、识别、分类,以及发现人体器官/组织中的各种细胞类型和亚型。
从而反映出遗传、疾病、生理等在细胞层面的多方面信息。
近年来单细胞RNA测序还结合组织切片技术,发现出了一种全新的研究——空间转录组学 (ST) 。
这种方法,可以直接锁定定相关细胞的原生空间位置。
也就是说,单细胞RNA测序让我们知道了细胞的功能,组织切片技术锁定了空间位置。
这个过程,非常像搭乐高[5]。
我们无法直接了解这样一个乐高大脑的复杂微观内部结构。
但我们可以通过全RNA测序先了解整体上的基因表达和遗传差距,然后再通过单细胞RNA测序来确定每个细胞群体的表达差异和异质性。随后再使用空间转录组学等技术,获得空间分布信息。
虽然我们尚不能完全还原乐高大脑,但却能够获得一个接近乐高大脑的图谱。
有利于我们对乐高大脑的进一步研究。
这些属于统计遗传学范畴,需要利用计算机对大数据进行处理、建模分析等等。
理论上,如果我们把所有复杂遗传性状(包括疾病),与这个技术相结合,就可以精准定位这些细胞的空间信息,从而建立立体的遗传图谱。
而在过去,另外一种技术,从单一突变上全面分析了人体的复杂遗传性状和疾病。
那就是——全基因组关联研究(GWAS)[6][7]。
全基因组关联研究所涉及的序列突变,通常为单核苷酸多态性(SNP)。即,单个核苷酸的突变引起的DNA序列多态性,其往往决定了绝大多数人的性状/疾病表达差异。
单核苷酸多态性(SNP)数据是非常庞大的。
人类基因组中,每隔100~300个碱基就存在一处SNP位点。通常每3个SNP位点就有2个会发生胞嘧啶(C)和胸腺嘧啶(T)的相互转变。
不同人类个体的遗传差异,90%都归因于SNP引起的基因变异。
所以,全基因组关联研究本质上是一种涉及广泛人群的大数据基因研究,由于每个变异对表型的影响很小,往往需要测试数百万个单独的回归模型,才能确定遗传变异和表型之间的关联。
过去的研究,已有数千项 GWA 研究,涉及2000种左右的疾病/特征,与数千个 SNP 关联。
如果把 SNP 数据库也定位在立体空间上,将有助于对人体在细胞层面复杂性状或疾病的理解。
由于 ST 的空间数据是现成的,理论上把 GWA 数据映射上去就可以实现。
然而, GWA 数据的空间定位,却遇到了巨大的挑战:
由于缺乏与性状相关细胞的空间坐标建模,以缺乏对 ST 数据中噪声的高技术处理,因此对于映射遗传性状相关细胞的空间坐标的能力有限。
这便是它们所开发出的—— gsMap。
也即,gsMap 本质上是一种将复杂性状的遗传信息映射到 ST 数据上的方法。
主要通过三个步骤,实现ST和GWAS整合。
◀ 首先,gsMap 利用图形神经网络(GNN)识别的点(细胞簇)同质性来解决 ST 数据中的稀疏性和技术噪声问题。
◀ 其次,gsMap 将每个点(细胞簇)的基因特异性分数(GSS)分配给每个基因转录区上游 50 kb 和下游 50 kb 窗口内的 SNP,最终使得每个点(细胞簇)都产生一组独特的 SNP GSS 注释。
◀ 最后,gsMap 利用柯西组合检验(CCT),来量化特定空间区域与特征的关联性。
a、b、c分别对应三个步骤
总之,建模、人工智能、数学方法, 是gsMap方法实现的基础。
当然是利用不同组织和特征之间现成的关联。
由于缺乏晚期胚胎阶段的人类 ST 数据,所以研究团队只能用小鼠的。
利用过去研究团队的小鼠数据库,研究团队最终通过 gsMap 成功重现了不同器官和性状之间已知的空间关联。
例如,与智商 (IQ) 、平均红细胞血红蛋白浓度 (MCHC) 、身高相关的细胞簇,都分别在大脑、肝脏、以及软骨中得到了对应空间位置。
a、小鼠胚胎数据;b、大脑、肝脏、软骨中相关细胞的对应;c、组织-性状关联
随后,研究团队利用 gsMap 成功构建了一定的大脑神经元的空间图谱。
实现了认知、情感、行为方面的细胞空间映射。
研究团队使用的依旧是小鼠的 ST 数据,涉及到14个脑区、13种细胞类型的50140个细胞。
a、成年小鼠脑ST数据;b、不同大脑区域与特质的联系;c、各脑区细胞类型的比例
通过比较映射的空间图谱,研究团队发现:
谷氨酸能神经元对「大脑区域-特征关联」的贡献最大。
海马CA区的谷氨酸能神经元与认知特征密切相关,对精神分裂的贡献最大。
与情绪特征相关的谷氨酸能神经元则倾向于分布在中脑内,与情绪障碍(例如抑郁)强烈关联。
不过帕金森和阿尔茨海默病却是例外。例如。帕金森病具有更高比例的多巴胺能神经元。
从左到右:智商、精神分裂、抑郁症
研究团队发进一步把小鼠海马数据映射在立体空间上发现:
更靠近海马CA1区背侧的谷氨酸能神经元与精神分裂具有更强的关联,钙信号和调节基因表达增加。靠近海马CA1区浅侧的谷氨酸能神经元则显示出与抑郁症更强的相关性,轴突生成相关基因的表达增加。
随后研究团队进行了大脑皮层的映射处理。
由于小鼠大脑皮层和人类差异巨大,因此选用了猕猴的前额叶数据。
最终发现:
与认知相关的脑区损伤,可能是精神分裂的一个主要病理变化。
而内侧前额叶皮层(14r区)附近的谷氨酸能神经元则与抑郁症密切相关,在该区域高度表达的基因,富含神经可塑性相关通路,以及精神药物靶点。
a,猕猴前额叶 ST数据;b、谷氨酸能神经元的比值比(ORs)。c、抑郁的gsMap结果;d、14r中谷氨酸能神经元亚型的比例;e、14r和其他区域的谷氨酸能神经元亚型的gsMap结果
以上这些研究和发现证明了:
研究团队开发出来的 gsMap 能够成功映射复杂遗传性状(包括疾病)相关细胞的空间坐标,利用这些坐标,不仅与过去的研究发现相应证,还可以进行更多空间层面的关联性发现,以及更多的分析结果。
而且,gsMap在特征和细胞之间关联的空间感知识别,是准确、稳健、强大的。
本质上,研究团队所用的各种数据,无论还是人类的全基因组关联研究(GWAS)数据,还是老鼠、猕猴大脑的空间转录组学 (ST)数据,都是现成的数据。
但这些过去旧的数据整合在一起,通过立体的空间坐标映射,可以更加精准度的发现复杂性状(疾病)和相关细胞集群的功能关系。
过去的研究,并不是没有确定相关疾病和相关细胞的关系,也并不是不知道这些细胞在哪些区域。而是通过 gsMap 可以更加精准的锁定空间坐标,从而进行更加精细的研究分析。
也即,gsMap 并不能产生新的数据源,但它却能分析出新的结果。
本质上,研究团队开发出的工具,帮助我们对包括疾病在内的人体复杂遗传信息的了解,从线性、二维、简易三维(CT/核磁共振等)的理解,提升到了精准三维空间的理解层面,从而表现出了优秀的临床研究潜力。
例如,可以通过更加精准的靶点研究,来进一步确定生理/疾病机制,建立疾病模型,同时改进诊断和治疗。
单纯就精神分裂症和抑郁症来说,研究团队其实是进行了一个非常典型的示范。示范结果,其实并不是有益于他们自身的研究领域,而是有利于相关精神障碍研究领域的研究者。
无论是对抑郁症治疗的未来影响,还是对其它任何疾病的未来影响,其实都是需要看相关的研究者使用 gsMap 之后,是否会有什么全新的发现。
当然,这个工具对其它研究者的帮助越大,杨剑研究团队开发出来的 gsMap 价值就越大。
gsMap 方法已在 Python 中实现,他们进行了免费分享。
所以,最后可以对媒体的相关报道,用两个成语进行评价:
舍本逐末。
断章取义。
《参考文献》
[1]Song, L., Chen, W., Hou, J. et al. Spatially resolved mapping of cells associated with human complex traits. Nature (2025). https://doi.org/10.1038/s41586-025-08757-x
[2]Burrell, R., McGranahan, N., Bartek, J. et al. The causes and consequences of genetic heterogeneity in cancer evolution. Nature 501, 338–345 (2013). https://doi.org/10.1038/nature12625
[3]Kharchenko, Peter V. "The triumphs and limitations of computational methods for scRNA-seq." Nature methods 18.7 (2021): 723-732.
[4]Chen, Geng, Baitang Ning, and Tieliu Shi. "Single-cell RNA-seq technologies and related computational data analysis." Frontiers in genetics 10 (2019): 317.
[5]https://statomics.github.io/SGA/sequencing_singleCell.html
[6]Witte, John S. "Genome-wide association studies and beyond." Annual review of public health 31.1 (2010): 9-20.
[7]Pearson, Thomas A., and Teri A. Manolio. "How to interpret a genome-wide association study." Jama 299.11 (2008): 1335-1344.