当前位置:网站首页>基于graph-linked embedding的多组学单细胞数据整合与调控推理
基于graph-linked embedding的多组学单细胞数据整合与调控推理
2022-06-28 21:57:00 【tzc_fly】

前置内容
单细胞多组学
对于单细胞多组学(Single Cell Multi-Omic),单细胞测序计数发展至今,从当初的scRNA-seq,scDNA-seq,一直到目前的scATAC-seq,单细胞甲基化测序,单细胞蛋白质组测序等测序技术,使得我们对胚胎发育,脑神经科学,以及癌症肿瘤等等的研究中,真正从细胞的层面出发,使我们能够在细胞的功能层面展开研究,使我们能够更好地理解基因如何通过影响细胞亚群表型进而影响个体性状的过程。对于生殖医学,精准医疗有着极为重大的意义。
然而,就目前绝大数测序技术而言,对一批细胞采集好数据后只能得到它一个维度的信息,比如,在使用scRNA-seq时候,我们只能够得到这些细胞的基因表达数据,但却不清楚它的DNA甲基化修饰或蛋白质组数据。但往往,得到一个细胞(或者一个细胞亚群)的多个组学信息是重要的,这意味着我们可以建立不同组学数据之间的联系,更好地刻画细胞的功能以及其内部的调控过程。将这些维度的数据中的几种结合到同一个单一细胞的多组学分析中,将在基础生物学和生物医学领域产生重要影响。
多源异构数据
多源异构数据,即多个不同来源不同特征类型但却描述同一对象的数据,多源异构数据的概念与多模态(multi-modal)比较类似,但是多源异构数据囊括了更多的数据类型,在信息领域,模态可以理解为数据格式的存在,例如文本,音频,图像,视频和其他格式。 当同时出现多种模态的时候即为多模态,比如作为多媒体的视频可以分解为多种单模态数据,例如图像,语音和文本。
单细胞的多组学数据整合其实非常类似一种多源异构数据融合问题,比如,当我们有造血干细胞的scRNA-seq与scATAC-seq两种不同特征的数据时,如何将这两类数据按照它们潜在的细胞亚群类型进行整合,比如我们将这两类数据进行整合聚类,假设同属于一种T细胞亚群,则属于这个亚群的染色质开放信息(scATAC-seq)和基因表达信息(scRNA-seq)就会被划分到一起。
但直接利用这两个数据的特征是不合理的,因为这两类数据特征不一致,因而需要通过一定的表示学习技术,得到所有样本在统一空间(流形)中的向量,再定义每个细胞(样本)间的距离才能进行后续的聚类整合。
单细胞数据整合是一种多源数据融合问题,其中的多源,意味着多个experiments或技术(批次),当这些experiments产生的数据特征相同,即为同构或者同类数据,也就是我们熟知的去批次效应问题,比如对于不同来源(测序平台,实验室)产生的基因表达谱数据,因为”来源不同”导致噪声,因而需要对表达谱数据进行批次校正。
相比于多源同构数据融合(去批次效应),多源异构数据整合是更广泛与困难的任务。一个重要的问题就是怎么将两个数据集不同的特征嵌入到同一个流形空间中,使得能够度量不同类型特征下,相应的细胞和细胞间的距离。
integration的一个重要假设是:即便是不同来源,特征不同类型的dataset,它们潜在的细胞亚群类型大体是一致的,因而这些dataset(至少部分的信息)是可以建立起联系的,因为共享同一个对象的信息。但同时integration又希望尽可能确保每个dataset真正特异的信息也能够保留,比如在dataset A中存在某种细胞类型不属于dataset B,那么在integration,聚类以后,这些只属于dataset A中的细胞类型不应该和dataset B的细胞有任何重叠,否则就是过度矫正(over-correct)。
不管是同构数据还是异构数据的整合,都希望:
- 尽可能拉近不同数据集中来自于同一个细胞亚群的细胞,即它们在我们想要的这个流形空间中尽可能接近;
- 尽可能保留不同数据集中特异的细胞亚群信息;
注意在论文阅读笔记-利用Scanorama高效整合异质单细胞转录组中的异构,最好是指本篇内容所述的多源同构数据。广义上讲,现有的scRNA-seq整合方法也能做多组学数据的整合,因为我们可以假设异构数据集降维到embedding的表示是相同的特征空间,然后我们可以使用同构整合的方法去整合这些embedding数据。
摘要
尽管出现了在单细胞中同时测量多种组学模态的实验方法,但大多数单细胞数据集仅包括一种模态。整合来自多个模态的组学数据的一个主要障碍是,不同的组学数据通常具有不同的特征空间。在这里,我们提出了一个名为GLUE(graph-linked unified embedding)的计算框架,该框架通过显式地建模跨组学的交互来弥合模态之间的差距。系统的基准测试表明,GLUE对于单细胞异构的多组学数据而言,比最先进的工作更准确、更稳健和更具可扩展性。我们将GLUE应用于各种具有挑战性的任务,包括三组学整合、调控推理和数百万个细胞的多组学人类细胞图谱构建,GLUE能够纠正之前数据有误的注释。GLUE采用模块化设计,可灵活扩展和增强以用于新的分析任务。
Main
最近单细胞测序的技术进步使得我们能够通过多组学数据挖掘图谱,例如染色质可及性chromatin accessibility(scATAC-seq),DNA甲基化(snmC-seq,sci-MET)和单细胞转录组single cell transcriptome(scRNA-seq),为揭示不同细胞类型的功能提供了一个机会。虽然最近出现了同时分析多组学数据的方法,但不同的组学通常是独立测量的,并产生了不匹配的数据,这要求我们需要开发高效的多组学整合技术。
在计算上,整合未配对的多组学数据(也称为对角线整合)时面临的一个主要障碍是不同组学具有不同的特征空间(例如,scATAC-seq中的可访问染色质区域与scRNA-seq中的基因)。简明的方法是基于先验知识将多模态数据转换到一个公共特征空间,再应用单一组学的数据集成方法。这种明确的“特征转换”方法很简单,但往往会导致信息丢失。基于耦合矩阵分解的算法避免了显式转换,但几乎不能处理两个以上的组学数据。另一种选择是通过非线性流形对齐来匹配来自不同组学的细胞数据,这完全消除了对先验知识的要求,并可以减少理论上的模态间信息损失;然而,这项技术主要应用于细胞类型数量有限且相对较少的数据集。
不断增长的数据量是另一个严峻的挑战。最近开发的测序技术通常可以得到数百万个细胞规模的数据集,而当前的整合方法仅适用于数据量更小的数据集。为了跟上数据量的增长,整合方法的设计应该考虑到多尺度性。
在此,我们提出了GLUE(graph-linked unified embedding),这是一个模块化的框架,用于整合未配对的单细胞多组学数据并同时实现调控推理。通过明确建模各个组学之间的相互作用,GLUE以生物学直观的方式弥合了不同组学特定特征空间之间的差距。系统基准测试和案例研究表明,GLUE对于单细胞多组学数据整合是准确、可靠和可扩展的。此外,GLUE被设计为一个通用框架,允许以模块化的方式轻松扩展。
Results

- 图1:GLUE的架构。未配对的三个组学数据记为 X 1 ∈ R N 1 × ∣ V 1 ∣ , X 2 ∈ R N 2 × ∣ V 2 ∣ , X 3 ∈ R N 3 × ∣ V 3 ∣ \textbf{X}_{1}\in R^{N_{1}\times |V_{1}|},\textbf{X}_{2}\in R^{N_{2}\times |V_{2}|},\textbf{X}_{3}\in R^{N_{3}\times |V_{3}|} X1∈RN1×∣V1∣,X2∈RN2×∣V2∣,X3∈RN3×∣V3∣,其中, N 1 , N 2 , N 3 N_{1},N_{2},N_{3} N1,N2,N3为细胞数, V 1 , V 2 , V 3 V_{1},V_{2},V_{3} V1,V2,V3是各个组学的特征集合,GLUE使用特定于组学的变分自编码器从每个组学数据学习低维embedding U 1 , U 2 , U 3 \textbf{U}_{1},\textbf{U}_{2},\textbf{U}_{3} U1,U2,U3。原始数据的维度和VAE生成的分布可以在不同组学上保持不同,但embedding的维度 m m m应该是共享的。为了链接特定于组学的数据空间,GLUE以guidance graph G = ( V , E ) G=(V,E) G=(V,E)的形式利用了先验知识,其中节点 V = V 1 ∪ V 2 ∪ V 3 V=V_{1}\cup V_{2}\cup V_{3} V=V1∪V2∪V3是不同组学的特征。图变分自编码器基于先验知识的 guidance graph(the prior knowledge-based guidance graph)学习组学特征的embedding V = ( V 1 T , V 2 T , V 3 T ) T \textbf{V}=(\textbf{V}^{T}_{1},\textbf{V}^{T}_{2},\textbf{V}^{T}_{3})^{T} V=(V1T,V2T,V3T)T,然后在数据解码器中使用这个guidance graph,通过与细胞embedding进行内积重构组学的数据,并有效地链接组学特定的数据空间,以确保一致的embedding方向。最后,使用组学判别器 D D D通过对抗性学习来对齐不同组学的细胞embedding。 ϕ 1 , ϕ 2 , ϕ 3 , ϕ G \phi_{1},\phi_{2},\phi_{3},\phi_{G} ϕ1,ϕ2,ϕ3,ϕG表示数据编码器和图编码器中可学习的参数。 θ 1 , θ 2 , θ 3 , θ G \theta_{1},\theta_{2},\theta_{3},\theta_{G} θ1,θ2,θ3,θG表示数据解码器和图解码器中可学习的参数。 ψ ψ ψ表示组学判别器中的可学习参数。
- 由于是图VAE,所以输出的调控图可以作为调控推理结果。
受先前研究的启发,我们将细胞状态建模为通过变分自编码器学习的低维细胞嵌入。鉴于其在生物学性质和分析技术方面的固有差异,每个组学层都配备了一个单独的自编码器,编码器为特定于组学层特征空间定制的概率模型。
利用先前的生物学知识,我们建议使用基于知识的图(guidance graph),明确建模跨组学层之间的特征调控作用,以链接特定于组学层的特征空间;图中的顶点对应于不同组学层的特征,边表示特征之间的调控作用。例如,当整合scRNA-seq和scATAC-seq数据时,顶点是基因(gene)和可访问的染色质区域(即ATAC peak),可访问区域与其假定的下游基因之间可以连接边。然后,在图编码器的feature embedding的指导下,以迭代优化的形式进行多模态对齐。

- 图2:整合性能的表现。
- a:不同整合方法的生物保守性得分与组学整合得分;
- b:不同方法的综合得分;
- c:不同方法的单细胞级别对齐误差;
- d:依赖先验特征关系的集成方法在不同先验知识损坏率下的FOSCTTM增加趋势;
- e:不同规模的子样本数据集上不同整合方法的FOSCTTM值;

- 图3:小鼠皮层的三组学整合。由原始细胞类型着色的scRNA-seq(a)、snmC-seq(b)和scATAC-seq(c)的embedding UMAP可视化。与“mPv”和“mSst”对齐的细胞用绿色圆圈突出显示。与“mNdnf”和“mVip”对齐的细胞用深蓝色圆圈突出显示。与“mDL-3”对齐的细胞用浅蓝色圆圈高亮显示。
- d:所有整合细胞embedding的UMAP可视化,由组学层着色。
- e:所有三个组学层中每种细胞类型的标记基因重叠的意义。
边栏推荐
- 河狸生存记:90后女博士与AI开发者们
- Sword finger offer:[day 1 stack and queue (simple)] --- > use two stacks to realize the queue
- 如何制作精美的图片
- Competition rules for the "network security" event of the secondary vocational group in the skills competition of Guangxi Vocational Colleges in 2022
- Yiming Anke submitted a statement to the Hong Kong Stock Exchange: the loss doubled in 2021, and the past financing amount was exaggerated
- 初识阿里云(云计算)—发展历程和技术架构、地域和可用区!
- ADB regular use of work notes
- 爱数SMART 2022峰会开启,分享数据战略与建设数据驱动型组织方法论
- [linq]c list type grouping sum
- [dynamic programming] p1018 linear DP: maximum product
猜你喜欢

If you are a C developer, look at these three explicit programming techniques

Zadig 构建究竟何强大?一起来实践

Hardware development notes (VII): basic process of hardware development, making a USB to RS232 module (VI): creating 0603 package and associating principle graphic devices

C#/VB.NET 将PDF转为Excel

Un voyage profond d'IA dans Huawei Cloud

E-commerce is popular, how to improve the store conversion rate?

如何制作精美的图片

Gross vs60 billion. Is food safety the biggest obstacle to Weilong's listing?

Icon fill color and background color change together

C#/VB. Net to convert PDF to excel
随机推荐
初识阿里云(云计算)—发展历程和技术架构、地域和可用区!
6月底了,让我康康有多少准备跳槽的
阿海的忠告
ADB regular use of work notes
Construction and application of urban brain knowledge map
flutter通过 GlobalKey 获取界面任意元素坐标尺寸
Set when quartz scheduled task trigger starts
VR全景制作的前景如何?
10、标准I/O输入输出重定向及管道
项目管理到底管的是什么?
代码复查
Competition rules for the "network security" event of the secondary vocational group in the skills competition of Guangxi Vocational Colleges in 2022
在产业互联网时代,传统意义上的互联网将会演变出来诸多新的形态
直播预告|SQL也能玩转工业级机器学习?MLOps meetup V3带你一探究竟!
Why use the rust language?
How to open a safe and reliable securities account in the financial management class of qiniu school?
Deploy grafana to realize graphical monitoring
PHP login problem
Gross vs60 billion. Is food safety the biggest obstacle to Weilong's listing?
Get to know Alibaba cloud (Cloud Computing) - development history, technical architecture, region and availability zone!