banner

blog

May 31, 2023

Múltiplo

Nature Biotechnology volume 40, páginas 1458–1466 (2022)Cite este artigo

59 mil acessos

55 citações

187 Altmétrico

Detalhes das métricas

Apesar do surgimento de métodos experimentais para medição simultânea de múltiplas modalidades ômicas em células únicas, a maioria dos conjuntos de dados unicelulares inclui apenas uma modalidade. Um grande obstáculo na integração de dados ômicos de múltiplas modalidades é que diferentes camadas ômicas normalmente possuem espaços de características distintos. Aqui, propomos uma estrutura computacional chamada GLUE (incorporação unificada vinculada a gráficos), que preenche a lacuna modelando explicitamente as interações regulatórias entre camadas ômicas. O benchmarking sistemático demonstrou que o GLUE é mais preciso, robusto e escalonável do que as ferramentas de última geração para dados multiômicos heterogêneos de célula única. Aplicamos o GLUE a várias tarefas desafiadoras, incluindo integração tripla ômica, inferência regulatória integrativa e construção de atlas de células humanas multiômicas em milhões de células, onde o GLUE foi capaz de corrigir anotações anteriores. O GLUE apresenta um design modular que pode ser ampliado e aprimorado de forma flexível para novas tarefas de análise. O pacote completo está disponível online em https://github.com/gao-lab/GLUE.

Avanços tecnológicos recentes no sequenciamento unicelular permitiram a sondagem de mapas regulatórios através de múltiplas camadas ômicas, como acessibilidade da cromatina (sequenciamento ATAC unicelular (scATAC-seq) 1,2), metilação do DNA (snmC-seq3, ciência MET4) e o transcriptoma (scRNA-seq5,6), oferecendo uma oportunidade única para desvendar as bases regulatórias subjacentes para as funcionalidades de diversos tipos de células7. Embora ensaios simultâneos tenham surgido recentemente8,9,10,11, diferentes ômicas são geralmente medidas de forma independente e produzem dados não pareados, o que exige integração multi-ômica in silico eficaz e eficiente12,13.

Computacionalmente, um grande obstáculo enfrentado na integração de dados multi-ômicos não pareados (também conhecidos como integração diagonal) são os espaços de características distintas de diferentes modalidades (por exemplo, regiões de cromatina acessíveis em scATAC-seq versus genes em scRNA-seq) . Uma solução rápida é converter dados multimodais em um espaço de recursos comum com base no conhecimento prévio e aplicar métodos de integração de dados ômicos únicos15,16,17,18. Essa 'conversão de recursos' explícita é simples, mas foi relatado que resulta em perda de informações19. Algoritmos baseados em fatoração de matrizes acopladas contornam a conversão explícita, mas dificilmente lidam com mais de duas camadas ômicas20,21. Uma opção alternativa é combinar células de diferentes camadas ômicas por meio de alinhamento múltiplo não linear, o que elimina completamente a exigência de conhecimento prévio e poderia reduzir a perda de informações intermodalidade em teoria 22,23,24,25; no entanto, esta técnica tem sido aplicada principalmente a conjuntos de dados relativamente pequenos com um número limitado de tipos de células.

O volume cada vez maior de dados é outro desafio sério26. As tecnologias desenvolvidas recentemente podem gerar rotineiramente conjuntos de dados na escala de milhões de células27,28,29, enquanto os métodos de integração atuais só foram aplicados a conjuntos de dados com volumes muito menores15,17,20,21,22,23. Para acompanhar o crescimento do rendimento de dados, os métodos de integração computacional devem ser concebidos tendo em mente a escalabilidade.

Por meio deste, apresentamos o GLUE (incorporação unificada vinculada a gráficos), uma estrutura modular para integrar dados multiômicos de célula única não pareados e inferir interações regulatórias simultaneamente. Ao modelar explicitamente as interações regulatórias entre camadas ômicas, o GLUE preenche as lacunas entre vários espaços de recursos específicos de ômicas de uma maneira biologicamente intuitiva. Benchmarks sistemáticos e estudos de caso demonstram que o GLUE é preciso, robusto e escalonável para dados multiômicos heterogêneos de célula única. Além disso, o GLUE foi concebido como uma estrutura generalizável que permite fácil extensão e rápida adoção para cenários específicos de maneira modular. O GLUE está acessível publicamente em https://github.com/gao-lab/GLUE.

0.5, and then normalize by cluster size, which effectively balances the contribution of matching clusters regardless of their sizes. In the second stage, we fine-tune the GLUE model with the estimated balancing weights, during which the additive noise \({\boldsymbol{\epsilon}} \sim {{{\mathcal{N}}}}\left( {{\boldsymbol{\epsilon}} ;\mathbf{0},\tau \cdot {\mathbf{\Sigma}}} \right)\) gradually anneals to 0 (with τ starting at 1 and decreasing linearly per epoch until 0). The number of annealing epochs was set automatically based on the data size and learning rate to match a learning progress equivalent to 4,000 iterations at a learning rate of 0.002./p>0 for scRNA-seq/scATAC-seq; FDR < 0.05 and log fold change of <0 for snmC-seq. The significance of marker overlap was determined by the three-way Fisher’s exact test40./p>
COMPARTILHAR