南开新闻网讯(通讯员 于航)单细胞染色质开放性测序(Single-cell chromatin accessibility sequencing, scCAS)是阐明细胞表观异质性和解析基因调控机制的重要手段。然而,单细胞染色质开放性数据存在超高维度(百万级)、极度稀疏(约98%均为零元素)、假阴性严重等特点,给细胞异质性刻画和下游分析带来了严峻挑战。
2月22日,南开大学数学科学学院陈盛泉课题组在《自然·通讯》(Nature Communications)上发表题为“scCASE:准确且可解释的单细胞染色质开放性数据增强方法”(scCASE: accurate and interpretable enhancement for single-cell chromatin accessibility sequencing data) 的文章。该研究提出了一种名为scCASE的单细胞染色质开放性数据增强方法,基于非负矩阵分解,引入了可迭代优化的细胞间相似性矩阵,有效整合相似细胞的表观信号以克服数据噪声。
scCASE模型示意图
scCASE首先对单细胞染色质开放性计数矩阵进行预处理,过滤掉在少于1%的细胞中开放的峰,并使用词频-逆文本频率对计数矩阵进行重新加权。预处理后,scCASE将计数矩阵分解为投影矩阵和细胞嵌入矩阵,考虑到相似的细胞通常具有相似的染色质开放性模式,scCASE额外引入了可迭代优化的细胞间相似性矩阵来实现数据的填补和增强。最后,通过梯度下降的方式最小化损失函数,得到最终的数据增强结果。
通过在多个数据集上的综合实验,文章系统地展示了scCASE相较于其他方法在数据增强、下游分析、鲁棒性等方面的优势。增强后的单细胞染色质开放性数据能够有效地捕获细胞异质性信号,提升细胞聚类、可视化等下游分析的质量。通过广泛的组织特异性表达富集、生物学功能富集和遗传力分析,文章揭示了scCASE能够为细胞亚群提供有价值的生物学见解。最后,文章提供了scCASE的多个扩展方法并展示了其在测序深度矫正、批次效应矫正以及结合参考数据进行弱监督学习的潜力。
南开大学为该项工作的第一完成单位及通讯单位。南开大学陈盛泉副教授为文章通讯作者,南开大学数学科学学院2023级研究生汤凇鸣为第一作者。该研究得到了国家青年人才托举工程、国家自然科学基金委、中央高校基本科研业务费的资助。
文章链接:https://www.nature.com/articles/s41467-024-46045-w
|