Un marco escalable de red neuronal dispersa para la anotación de tipos de células raras de un solo

Noticias

HogarHogar / Noticias / Un marco escalable de red neuronal dispersa para la anotación de tipos de células raras de un solo

Mar 14, 2023

Un marco escalable de red neuronal dispersa para la anotación de tipos de células raras de un solo

Volumen de biología de las comunicaciones

Biología de las comunicaciones volumen 6, Número de artículo: 545 (2023) Citar este artículo

1312 Accesos

15 Altmetric

Detalles de métricas

Los métodos automáticos de anotación de tipos de células se utilizan cada vez más en el análisis de secuenciación de ARN de una sola célula (scRNA-seq) debido a sus ventajas rápidas y precisas. Sin embargo, los métodos actuales a menudo no tienen en cuenta el desequilibrio de los conjuntos de datos scRNA-seq e ignoran la información de poblaciones más pequeñas, lo que genera errores de análisis biológico significativos. Aquí, presentamos scBalance, un marco integrado de red neuronal dispersa que incorpora técnicas de abandono y muestreo de peso adaptativo para tareas de anotación automática. Usando 20 conjuntos de datos scRNA-seq con diferentes escalas y grados de desequilibrio, demostramos que scBalance supera a los métodos actuales en tareas de anotación tanto dentro como entre conjuntos de datos. Además, scBalance muestra una escalabilidad impresionante en la identificación de tipos de células raras en conjuntos de datos de millones de niveles, como se muestra en el panorama de células broncoalveolares. scBalance también es significativamente más rápido que las herramientas de uso común y viene en un formato fácil de usar, lo que lo convierte en una herramienta superior para el análisis scRNA-seq en la plataforma basada en Python.

Desde el primer establecimiento de secuenciación de ARN unicelular (scRNA-seq) por Tang et al. en 20091, esta tecnología se ha vuelto rápidamente popular entre los científicos en varios campos de investigación biológica. En comparación con la secuenciación de ARN a granel tradicional que solo mide el nivel de expresión génica promedio de las muestras, scRNA-seq proporciona un método poderoso para perfilar transcriptomas en el nivel específico de la célula. Por lo tanto, podría permitir el análisis de células individuales y brindar una visión más informativa de la heterogeneidad celular. El desarrollo de la tecnología scRNA-seq se ha utilizado ampliamente en varias áreas de investigación biológica, como la investigación del cáncer2,3, el análisis de COVID4,5, la investigación de biología del desarrollo6, etc. En estos estudios, descubrir e identificar poblaciones celulares es uno de los aspectos más críticos. tareas.

Por lo general, la anotación del tipo de célula implica dos pasos: (1) agrupar las células en diferentes subgrupos y (2) etiquetar cada grupo con un tipo específico manualmente en función de los genes marcadores conocidos anteriormente. Se han desarrollado una serie de algoritmos de aprendizaje automático no supervisados, incluidos métodos clásicos basados ​​en aprendizaje automático, como Seurat7 y Scanpy8, y métodos basados ​​en aprendizaje profundo recientemente publicados, como scDHA9 y CLEAR10. Sin embargo, estos métodos pueden llevar mucho tiempo y ser onerosos. Para aquellos que no tienen demasiado conocimiento de los genes marcadores, este enfoque podría costar mucho más tiempo de lo esperado. Los métodos automáticos de anotación de tipo de celda, por el contrario, no sufren el proceso de etiquetado manual. A diferencia de los métodos no supervisados, las herramientas de identificación automática de tipos de células están diseñadas principalmente en base a marcos de aprendizaje supervisados. Aprovechando sus características rápidas y precisas, se están convirtiendo en herramientas predominantes para identificar tipos de células en experimentos de una sola célula. Con el auge sin precedentes del atlas scRNA-seq bien anotado y la rápida promoción del proyecto Human Cell Atlas11,12, las herramientas de autoanotación se enfrentan a una perspectiva más amplia que nunca. Hasta el momento, se desarrollan y publican 32 herramientas de autoanotación13. Por ejemplo, SingleCellNet14 utiliza un clasificador de bosque aleatorio para resolver las tareas de anotación entre plataformas y entre especies. ACTINN15 implementa una red neuronal artificial simple para superar el efecto por lotes.

Si bien se han establecido numerosas herramientas en los últimos años, la mayoría de ellas a menudo no logran identificar a toda la población debido a la existencia de tipos de células raros. Desde la perspectiva de la composición celular, los conjuntos de datos de scRNA-seq siempre están desequilibrados y tienen tipos de células comunes y tipos de células raros. La población rara es una pequeña proporción de celdas en el conjunto de datos de una sola celda. Por ejemplo, la célula dendrítica suele tomar del 1 al 5 % de las células mononucleares de sangre periférica (PBMC), especialmente en grandes conjuntos de datos16,17. Cuando entrenamos una herramienta de anotación automática, el clasificador es constantemente incapaz de aprender su información, por lo que es difícil identificar estos tipos de celdas en el conjunto de datos de consulta. Sin embargo, estas poblaciones raras pueden ser cruciales, especialmente en la investigación de enfermedades18. Recientemente, algunos métodos de detección de conglomerados han notado este punto19,20, pero pocos métodos de clasificación se centraron en el desequilibrio de la población celular. Mientras tanto, también encontramos que los métodos existentes tienen otras dos deficiencias principales. (1) Falta de escalabilidad. Las plataformas experimentales recientes de scRNA-seq permiten investigaciones de millones de células21,22. En particular, uno de los atlas de PBMC de COVID más recientes ha alcanzado 1,5 millones de células17. Por lo tanto, la restricción de la velocidad de cálculo hará que los paquetes de anotación automática sean poco escalables para el conjunto de datos de un millón de niveles. Además, los conjuntos de datos de referencia a gran escala agregan más desafíos para aprender tipos de células raras en el entrenamiento del clasificador, lo que hace que el software actual sea más difícil para identificar grupos menores. El artículo publicado más recientemente elevó la escala de entrenamiento a 600 K celdas23, sin embargo, ninguna herramienta publicada informa con éxito la escalabilidad en el atlas de celdas de un millón de niveles. (2) La compatibilidad de las herramientas existentes no es tan buena como se esperaba. Entre las herramientas basadas en Python existentes, la mayoría de las herramientas como ACTINN15, scPretrain24, scCapNet25 y MarkerCount26 están basadas en secuencias de comandos. Teniendo en cuenta que Seurat y Scanpy son paquetes que se pueden descargar desde un repositorio de software estándar (p. ej., PyPI), la ejecución de un script de Python externo en el servidor agregará una carga adicional al usuario. Además, algunas de las herramientas ya no se mantienen o no se pueden usar. Todos estos desafíos juntos hacen necesaria una nueva herramienta de anotación que tenga una capacidad equilibrada para etiquetar tipos de células mayores y menores de manera escalable.

Aquí, presentamos scBalance, un marco de red neuronal dispersa que puede etiquetar automáticamente tipos de células raras en conjuntos de datos scRNA-seq de todas las escalas. scBalance aprovecha la combinación de muestreo de peso y red neuronal dispersa, por lo que los tipos de células menores (raros) son más informativos sin dañar la eficiencia de anotación de las poblaciones de células comunes (principales). Evaluamos scBalance en conjuntos de datos reales con diversos grados de desequilibrio y escala de la población de células en tareas de anotación dentro y entre conjuntos de datos, y comparamos su rendimiento con herramientas publicadas populares como Scmap-cell27, Scmap-cluster27, SingleCellNet14, SingleR28, scVI29, scPred30 y MARS31. Cada método representa un algoritmo tradicional de aprendizaje automático, como Scmap-cell basado en KNN, SingleCellNet basado en Random Forest y scVI y MARS son métodos basados ​​en aprendizaje profundo. Entre ellos, nuestro método superó constantemente estas herramientas en la identificación de tipos de células raras, manteniendo una alta precisión en la anotación de los principales tipos de células. Además, scBalance también demostró velocidades de cómputo rápidas y estables que superaron a otros enfoques en todos los tamaños de conjuntos de datos. Además, scBalance se entrenó con éxito en un atlas17 de células inmunitarias COVID publicado (1,5 millones de células) y anotó y descubrió nuevos tipos de células en el conjunto de datos scRNA-seq del líquido de lavado broncoalveolar (BALF) publicado32. Satisfactoriamente, nuestro método identificó tipos de células más raros que el análisis original. Nuestra aplicación fácil de usar es compatible con Scanpy y Anndata, y puede descargarse fácilmente desde PyPI y usarse como una API externa de Scanpy (https://github.com/yuqcheng/scBalance).

scBalance proporciona un marco integrador de aprendizaje profundo para realizar anotaciones precisas y rápidas de tipos de células, especialmente en tipos de células raros, de manera escalable (Fig. 1). La estructura de scBalance incluye dos partes, una técnica de muestreo de peso que se adapta a conjuntos de datos scRNA-seq desequilibrados y una red neuronal escasa que anota de manera eficiente los tipos de células.

a El método se construye sobre la base del marco de aprendizaje supervisado, que contiene un módulo de equilibrio de conjuntos de datos y un módulo de red neuronal de abandono. Paso 1 Superior: Con nuestro muestreo ponderado adaptativo, scBalance elegirá automáticamente el peso para cada tipo de celda en el conjunto de datos de referencia y construirá el lote de entrenamiento. Inferior: los usuarios pueden elegir un método de balanceo de conjunto de datos externo, como scSynO, en lugar de usar nuestro método de balanceo interno. En este caso sólo se utilizará el clasificador. Paso 2: Durante el entrenamiento, scBalance aprenderá iterativamente mini lotes de una red neuronal de tres capas hasta que converja la pérdida de entropía cruzada. b Configuración de la deserción en diferentes etapas. En la etapa de entrenamiento, scBalance desactiva aleatoriamente las neuronas de la red. La capa de abandono es binaria con una tasa de 0,5. Todas las unidades caídas serán reconectadas en la etapa de prueba. La predicción será procesada por una red neuronal completamente conectada. c La evaluación de los métodos de balance muestra que nuestro método de muestreo supera a los métodos simples de sobremuestreo y reducción de muestreo, así como al método SMOTE. El valor p proviene de una prueba de significación de scBalance y SMOTE (n = 5 para cada diagrama de caja). d Comparación de tiempos de ejecución entre diferentes técnicas de muestreo.

En primer lugar, a diferencia de todas las herramientas existentes, utilizamos una técnica de muestreo de peso especialmente diseñada para procesar de forma adaptativa el conjunto de datos de scRNA-seq desequilibrado. A diferencia de los métodos existentes que usan técnicas sintéticas33,34, nuestro método incorpora la técnica de equilibrio en lotes de entrenamiento para que no genere nuevos puntos, por lo que puede ahorrar espacio en la memoria y acelerar el entrenamiento. Este diseño es particularmente útil para el conjunto de datos a escala de atlas, donde generar nuevos puntos de conjunto de datos no es práctico. En scBalance, para mantener la mayor cantidad de información posible y evitar un gran costo de tiempo de capacitación, muestreamos aleatoriamente en exceso las poblaciones raras (clases minoritarias), así como submuestreamos los tipos de células comunes (clases mayoritarias) en cada lote de capacitación (Fig. 1a, Paso 1). El proceso de muestreo se realiza con reemplazo, y la proporción de muestreo se adapta a diferentes conjuntos de datos de referencia, definidos como las proporciones de tipo de celda de la etiqueta verdadera proporcionada por el conjunto de referencia. Esto minimiza el sobreajuste en el sobremuestreo, manteniendo así un rendimiento prometedor de la capacidad de generalización de scBalance. Mientras tanto, con respecto a la enorme información de expresión superpuesta en las poblaciones comunes, el submuestreo de la clase principal permite que scBalance utilice un tamaño de entrenamiento relativamente pequeño con abundante información de entrenamiento. Aprovechando este diseño, scBalance produce un rendimiento excepcional en el aprendizaje de características de tipos de células poco comunes y mantiene una gran capacidad para clasificar todos los tipos de células principales, mejorando así su precisión general de anotación. Para dar fe del rendimiento de nuestro método de muestreo interno, lo comparamos con técnicas de equilibrio de uso popular, como el sobremuestreo simple y la reducción de muestreo, así como la Técnica de sobremuestreo de minorías sintéticas (SMOTE). Los resultados muestran que nuestro método de equilibrio interno mejora la precisión de la clasificación en comparación con el sobremuestreo y la reducción de muestreo simples y también supera al método sintético SMOTE (Fig. 1c y Fig. 1 complementaria). En particular, nuestro método proporciona una solución de equilibrio más rápida y que ahorra espacio en comparación con los métodos de equilibrio utilizados normalmente (Fig. 1d y Fig. 2a, b y Datos complementarios 1). Debido a que nuestro método está acoplado con el proceso de entrenamiento, no necesitará generar nuevos puntos de datos, ahorrando así tiempo y espacio en la memoria. Además, scBalance también proporciona una interfaz para los usuarios que deseen explorar tipos de células menores específicos en una granularidad más detallada. Permite conjuntos de datos procesados ​​por métodos de muestreo externos como scSynO34. En este caso, solo se utilizará el clasificador scBalance.

Además, notamos que el conjunto de datos de referencia y el conjunto de datos de predicción pueden generarse mediante diferentes plataformas y protocolos de secuenciación, como la plataforma 10X y la plataforma Smart-seq, por lo que naturalmente introducirán diferentes ruidos, como abandonos de detección de genes y error de secuenciación aleatoria35. Para abordar este problema, scBalance considera el ruido aleatorio como un tipo de evento de sobreajuste e implementa la técnica dropout36 para mitigar este problema. La capa de abandono, debido a su excelente capacidad para reducir el sobreajuste, también mejora la capacidad de aprendizaje del scBalance para los tipos de células menores remuestreadas. Además, scBalance proporciona una opción de reutilización de red para el escenario de entrenamiento a escala de atlas, lo que permite a los usuarios evitar el costo de tiempo significativo de entrenar el modelo nuevamente para el mismo conjunto de datos (Fig. 1a, Paso 3).

En conjunto, scBalance proporciona una estructura de red de tres capas ocultas con una norma de lote y una configuración de abandono en cada capa. La función de activación se establece como una unidad lineal exponencial (ELU)37 y la capa de salida utiliza Softmax. En el modo de entrenamiento (Fig. 1a, Paso 2), las unidades en la capa oculta se desactivan aleatoriamente para ayudar a reducir la influencia de los ruidos en el proceso de entrenamiento. En el modo de predicción, la red se configurará como un estado totalmente conectado para mantener todos los parámetros que se utilizan en el proceso de reenvío. La evaluación del modelo y la retropropagación se basan en la función de pérdida de entropía cruzada y el optimizador de Adam. Para acelerar el proceso de entrenamiento y predicción, scBalance también incluye un modo de unidad de procesamiento de gráficos (GPU) que reduce el tiempo de funcionamiento del clasificador entre un 25 y un 30 %. En general, scBalance está bien diseñado para manejar diferentes tipos de ruidos y conjuntos de datos desequilibrados al mismo tiempo que logra una alta precisión de clasificación para tipos de células principales y raras.

Primero demostramos la rara capacidad de identificación de tipos de células de scBalance en la prueba de referencia. Para evaluar el rendimiento, utilizamos doce conjuntos de datos scRNA-seq con diferentes grados de desequilibrio y diferentes números de celdas, que se dividieron en conjuntos de trenes y conjuntos de prueba. Para garantizar una prueba más completa, la mayoría de los conjuntos de datos se generan a partir de diferentes plataformas de secuenciación (consulte "Métodos" y la Tabla 1). La verdadera información de la etiqueta de estos conjuntos de datos solo está disponible al evaluar los resultados de la predicción. Aquí, comparamos scBalance con siete métodos que se utilizan ampliamente para la identificación del tipo de célula scRNA-seq: SingleCellNet14, SingleR28, scVI29, scmap-cell27, scmap-cluster27, scPred30 y MARS31, en los que scPred y MARS también afirmaron tener la capacidad de tratar desequilibrio conjunto de datos de una sola celda en sus artículos, y scVI y MARS son métodos basados ​​en aprendizaje profundo como scBalance. Para garantizar que nuestra comparación de puntos de referencia sea un experimento justo, utilizamos un proceso de preprocesamiento uniforme para cada herramienta y configuramos todos los parámetros como predeterminados. Todos los experimentos se realizaron sobre la base de la validación cruzada quíntuple para cuantificar la variabilidad de la clasificación. El protocolo detallado se puede encontrar en "Métodos". Utilizamos la puntuación kappa de Cohen para evaluar cuantitativamente el rendimiento de scBalance y los otros siete métodos (Fig. 2a). Según el resultado, scBalance supera a todos los demás métodos en la mayoría de estos doce conjuntos de datos al lograr la puntuación kappa de Cohen más alta. En particular, scBalance se desempeña particularmente bien en conjuntos de datos grandes y complejos como Campbell y Zillions. Y el rendimiento de scBalance es el más estable entre estos siete métodos, lo que le da una ventaja en el entrenamiento de referencia a escala de atlas. Debido a que la puntuación kappa de Cohen proporciona una métrica sensible a la clase minoritaria, un rendimiento superior en esta puntuación proporciona evidencia preliminar de que scBalance tiene más ventajas en la anotación de poblaciones raras.

a Rendimiento general de las anotaciones, medido por la puntuación Kappa de Cohen, en comparación con los métodos existentes en varios conjuntos de datos (el número de celda se indica después del nombre del conjunto de datos). scBalance supera sistemáticamente a otros métodos en la identificación precisa de poblaciones de células menores en los doce conjuntos de datos. (n = 5 para cada gráfico de barras y barra de error. Las barras de error se definen como valor medio ± desviación estándar). b Evaluación comparativa de precisión específica del tipo de célula en el conjunto de datos de Baron Human (n = 5 para cada diagrama de caja). El número que sigue a cada nombre de tipo de celda representa el número de celdas en ese tipo. scBalance logra una mayor precisión en la identificación de tipos de células raras en comparación con otros métodos.

Para demostrar mejor la capacidad de scBalance para anotar con precisión poblaciones de células menores, investigamos más a fondo la precisión de cada tipo de célula para mostrar si el alto rendimiento general se obtiene exactamente mediante la mejora de la identificación de tipos de células menores (Fig. 2b y Figs. 2 a 4 y datos complementarios 2). Clasificamos estos conjuntos de datos en tres clases: (1) grandes conjuntos de datos con una composición de celda simple, como Baron Human, Lake y Zillions; (2) pequeños conjuntos de datos con un fondo de celda simple, como Muraro, Baron Mouse, Deng, etc.; y (3) conjuntos de datos con estructuras celulares complejas, por ejemplo, Zheng 68 K, que se compone principalmente de células T y sus subtipos, de modo que las células comparten una gran similitud. Primero analizamos el rendimiento de scBalance en el conjunto de datos de Baron Human (Fig. 2b y Datos complementarios 3) y descubrimos que todos los métodos funcionan bien en poblaciones grandes, como la célula Beta y la célula Alfa. Sin embargo, en tipos de células menores, como la célula de mastocito y la célula Epsilon, el rendimiento de scBalance aún se mantiene estable y prometedor, mientras que los otros métodos no reconocen la mayoría de estos tipos de células poco comunes. Estos resultados demuestran la capacidad de scBalance para anotar poblaciones de células menores en conjuntos de datos regulares. También se pueden encontrar resultados similares en el resultado del pequeño conjunto de datos (Fig. 3 complementaria). Además, también nos interesó el rendimiento de scBalance en el conjunto de datos con un fondo de celda complejo. Al analizar el resultado en el conjunto de datos Zheng 68 K (Fig. 4 complementaria), descubrimos que scBalance sigue siendo el mejor método para identificar tipos de células raras mientras mantiene una alta precisión en los otros tipos. Este resultado le da a scBalance una ventaja práctica en problemas del mundo real. Además, para comprender mejor la verdadera sensibilidad de detección positiva de scBalance para cada tipo de célula, analizamos la precisión de scBalance en estos tres conjuntos de datos (Tablas complementarias 1–3). Los resultados muestran que scBalance es el método más sólido y sensible para identificar los tipos de células menores en comparación con los otros métodos, especialmente en el contexto de células complejas.

En resumen, scBalance funciona bien en la tarea de anotación de línea de base, ya que tiene la capacidad estable de identificar con éxito no solo los tipos de células principales sino también los tipos de células menores.

En el escenario realista, se espera que los usuarios puedan entrenar una herramienta de anotación utilizando un conjunto de datos que se genera a partir de un protocolo diferente al que se usa para la consulta del perfil scRNA-seq. Sin embargo, cuando se utilizan diferentes plataformas de secuenciación, se puede introducir más ruido, lo que puede afectar la tarea de anotación entre conjuntos de datos más que la tarea de anotación dentro del conjunto de datos38. Para mejorar la capacidad de generalización de scBalance en tareas de protocolos cruzados, utilizamos la técnica de abandono para hacer que nuestro modelo sea más sólido frente a las variaciones técnicas. Primero realizamos un experimento de comparación entre scBalance con abandono y scBalance sin abandono en los conjuntos de datos PBMCBench de diferentes plataformas de secuenciación (Fig. 3a y Fig. 5 complementaria, y Datos complementarios 4) y los conjuntos de datos pancreáticos de diferentes protocolos utilizados en un estudio anterior39 ( Figura complementaria 6 y Datos complementarios 5). Los resultados muestran que scBalance con abandono mejora la capacidad de generalización y conduce a un mejor rendimiento en la tarea de anotación entre conjuntos de datos para todos los conjuntos de datos. Además, demostramos la solidez de scBalance frente a los efectos por lotes en tareas de anotación de conjuntos de datos cruzados. Comparamos el rendimiento de clasificación de scBalance con y sin corrección por lotes utilizando Combat40, una herramienta de corrección por lotes de uso común, para evaluar si el rendimiento de scBalance se puede mejorar aún más mediante la corrección por lotes (Figura 7 complementaria y Datos complementarios 6). Los resultados indican que el rendimiento de scBalance no se ve afectado ni mejorado significativamente por la corrección por lotes, lo que sugiere que nuestro método en sí mismo es resistente a los posibles efectos negativos de los efectos por lotes.

Se utiliza una técnica de abandono en scBalance para mejorar la generalización del modelo y la robustez contra el ruido. b La precisión general de las anotaciones de scBalance se compara con la de otros métodos en conjuntos de datos generados por diferentes protocolos. Cada par de experimentos se denomina "Train Dataset_Test Dataset" y la puntuación kappa de Cohen se utiliza como métrica general. (n = 42 para cada diagrama de caja para mostrar los 42 pares de entrenamiento). c Se demuestra la capacidad de scBalance para identificar con precisión tipos de células raras en tareas de anotación entre conjuntos de datos. (n = 42 para cada diagrama de caja para mostrar los 42 pares de entrenamiento). d La visualización de UMAP muestra que scBalance supera a otros métodos en la identificación de poblaciones de células raras a través de diferentes enfoques. Todos los métodos se entrenaron en el conjunto de datos de PBMC (SMART-Seq2) y se usaron para predecir los tipos de células en el conjunto de datos de PBMC (10xv3).

Para evaluar más a fondo el rendimiento de scBalance bajo el efecto de lotes y su capacidad para identificar tipos de células raros, ampliamos nuestra evaluación comparativa para incluir otros métodos de anotación en la tarea de anotación entre conjuntos de datos. Utilizamos los conjuntos de datos de PBMCbench (consulte "Métodos" y la Tabla 1) para probar y evaluar el rendimiento de cada método en cada par de protocolos, utilizando la puntuación kappa de Cohen como métrica de evaluación. Mientras tanto, estábamos particularmente interesados ​​en la precisión de clasificación de scBalance en poblaciones de células menores, que definimos como tipos de células con menos del 5 % del número total de células. Por lo tanto, también cuantificamos la rara capacidad de anotación de tipo de celda junto con la precisión general. Los resultados, resumidos en la Fig. 3b, muestran que scBalance logró las puntuaciones promedio más altas en todos los experimentos (Fig. 3b y Datos complementarios 7). En comparación con el segundo mejor método, scBalance elevó la puntuación media de 0,85 a 0,95. Además, scBalance también fue el mejor método en la mayoría de los pares de prueba, demostrando su excelencia en la tarea entre conjuntos de datos. En particular, también analizamos la precisión de la clasificación de tipo raro de cada método (Fig. 3c), y los resultados muestran que scBalance supera a los otros métodos en la identificación precisa de poblaciones menores en la mayoría de los pares de prueba en la tarea entre conjuntos de datos. Para mostrar aún más la practicidad y la eficiencia de scBalance, realizamos experimentos de evaluación comparativa adicionales para evaluar su rendimiento en la tarea de anotación entre conjuntos de datos cuando se utilizan otros métodos junto con los métodos de corrección por lotes (Figura 8 complementaria y Datos complementarios 8). Los resultados sugieren que, si bien la mayoría de los métodos demostraron mejoras (las mejoras promedio oscilaron entre 1 y 4 %) después del preprocesamiento de la corrección del efecto por lotes en comparación con la Fig. 3b, scBalance continuó superando a los otros métodos para la tarea de anotación entre conjuntos de datos. Esto indica que scBalance sigue siendo una de las herramientas más eficientes disponibles para esta tarea. Posteriormente, para obtener más información sobre los resultados de la clasificación de la población de células raras, utilizamos Proyección y aproximación de colector uniforme (UMAP) para visualizar el resultado de la agrupación de los tres métodos de mayor rendimiento con la etiqueta de predicción o la etiqueta verdadera (Fig. 3d ). Nuestro análisis reveló que, en comparación con la etiqueta verdadera, SingleCellNet mostró más anotaciones incorrectas en las células megacariocitos y los monocitos CD16+ que scBalance. De manera similar, scVI demostró etiquetas más incorrectas en las células de megacariocitos e incluso falló por completo en la clasificación de monocitos CD16+. Por el contrario, scBalance proporcionó el resultado de anotación más preciso en los seis tipos de células y etiquetó con éxito las dos poblaciones de células raras, los megacariocitos y los monocitos CD16+. En conjunto, los resultados indican que scBalance ofrece un rendimiento más sólido que los métodos existentes para tareas de anotación multiplataforma y conserva su excelente capacidad para identificar poblaciones de células raras bajo la influencia de variaciones técnicas.

El tiempo de ejecución se considera una de las cosas más esenciales para una herramienta de anotación en el entorno real de análisis de una sola celda, así como el mayor obstáculo para la escalabilidad. Para resaltar la superioridad de scBalance en la velocidad de cálculo, presentamos los resultados de la comparación de los seis métodos representativos que tienen diferentes modelos básicos de aprendizaje automático (Fig. 4). Debido al uso de GPU, mostramos por separado scBalance-CPU y scBalance-GPU para que la comparación sea justa con otros métodos sin computación de GPU. Primero comparamos el rendimiento de scBalance en las diferentes unidades de procesamiento. El resultado indica que scBalance-GPU tiene una gran mejora en la velocidad de ejecución, lo que reduce más del 50 % el tiempo de ejecución en comparación con scBalance-CPU (Fig. 4a). Especialmente, scBalance-GPU brinda un rendimiento sólido en los conjuntos de datos con diferentes números de celda. El tiempo de ejecución se mantiene relativamente estable en las muestras de 30k celdas a 60k celdas. Esta robustez le da a scBalance una potencial capacidad de expansión para anotar conjuntos de datos a gran escala de manera rápida. También presentamos el resultado de la comparación de scBalance-CPU con los otros cinco métodos. Aunque todos los métodos se basan en la CPU, scBalance también brinda una velocidad de ejecución prometedora. En particular, en los conjuntos de datos con más de 30 000 celdas, scBalance reduce el tiempo de ejecución al 10 % de los otros cinco métodos. En el conjunto de datos más grande, scBalance brinda más de 20 veces la velocidad de cálculo en comparación con SingleR (Fig. 4b). La ventaja de consumir mucho tiempo también hace que scBalance sea una herramienta excepcional en la anotación de conjuntos de datos a gran escala.

una comparación del tiempo de ejecución de scBalance en conjuntos de datos de diferentes escalas utilizando diferentes procesadores. Nuestro método logra tiempos de ejecución rápidos con alta escalabilidad. b Comparación de los tiempos de ejecución de seis métodos diferentes en conjuntos de datos de diferentes tamaños. Todos los métodos se prueban en la CPU. scBalance supera a los otros métodos en todos los tamaños de conjuntos de datos probados.

A medida que el tamaño del atlas de celda continúa aumentando, la escalabilidad de las herramientas de anotación se vuelve más importante. Por lo tanto, discutimos la fuerza de scBalance para aprender tipos de células raras en los conjuntos de datos de scRNA-seq de un millón de niveles. Primero usamos el resultado de la anotación dentro del conjunto de datos como prueba de concepto para evaluar el rendimiento de la anotación de scBalance en el atlas de celdas a gran escala. Recolectamos dos atlas de células publicados recientemente, incluido el atlas de células cardíacas humanas41 (487,106 células) y el atlas inmune COVID-1917 (1,462,702 células). Como ningún otro método existente ha informado sobre la capacidad de anotación en perfiles de scRNA-seq de un millón de niveles, especialmente porque es incluso difícil cargar el conjunto de datos para métodos basados ​​en R como SingleCellNet y Scmap, comparamos scBalacne con métodos convencionales de aprendizaje automático como random forest (n_estimators=50,random_state=10), árbol de decisiones, SVM (kernel:rbf) y kNN (k = 3) en Python. Como se muestra en la figura 5a y los datos complementarios 9, scBalance supera significativamente a los otros métodos de aprendizaje automático en ambos atlas de dos celdas. Además, en comparación con los otros métodos, scBalance logra una velocidad de carrera hasta 150 veces más rápida al entrenar y etiquetar el atlas de células COVID (Fig. 5b). Incluso con el triple aumento en el número de celdas entre los dos conjuntos de datos, scBalance sigue siendo el único método con una velocidad de ejecución sólida, lo que brinda una ventaja en la escalabilidad.

un rendimiento de anotación en comparación con diferentes métodos en Cardiac Atlas (~50 K células) y COVID Atlas (~1,5 M células). b Comparación del tiempo de ejecución entre scBalance y los algoritmos tradicionales de aprendizaje automático. El eje Y muestra el tiempo de ejecución en segundos. c UMAP muestra el resultado de la anotación de scBalance. El conjunto de datos de referencia es COVID Atlas17 y el conjunto de datos de consulta es BALF data32. d Dotplot muestra la distribución de subtipos de celdas en el conjunto de datos BALF.

Además de la evaluación simple de la escalabilidad, usamos el atlas inmunológico de COVID como el conjunto de datos de referencia para una instancia para ilustrar que el resultado de la anotación de scBalance puede identificar de manera efectiva tipos de células raras cuando se entrena con referencias de escala de un millón. También recopilamos el perfil de scRNA-seq de células de líquido de lavado broncoalveolar (BALF) de un paciente grave con COVID como datos de consulta (Fig. 5c). Si bien hay muchas publicaciones que analizan el panorama de PBMC42,43,44,45 en diferentes muestras de pacientes con COVID, el componente de células BALF de los pacientes con COVID aún carece de investigación. Pero como la muestra que puede reflejar más directamente la información del microambiente en los alvéolos pulmonares, las células BALF son de gran importancia para comprender la asociación de la gravedad de la enfermedad y la dinámica de las características inmunológicas respiratorias. Aunque Liao et al. reveló el panorama de células inmunitarias broncoalveolares en pacientes con COVID en 202032, su trabajo, que se basa en la integración de Seurat, solo identificó grupos celulares en baja resolución. Aquí, usamos scBalance para anotar el conjunto de datos BALF scRNA-seq. Nuestro método identificó con éxito muchos más subtipos de células que la investigación original utilizando el atlas COVID como referencia. En comparación con el método de etiquetado manual utilizado en el análisis original, scBalance mejoró significativamente la resolución de las anotaciones para el conjunto de datos BALF. En combinación con el resultado de la Fig. 5c, dy la Fig. 9 complementaria, scBalance identificó 64 subtipos de células inmunitarias en la muestra BALF. Como era de esperar, los macrófagos muestran el mayor enriquecimiento en la muestra BALF, mientras que las células B solo representan una pequeña parte del panorama inmunitario. En particular, scBalance también identificó subtipos raros en todos los grupos celulares. En el grupo mieloide, nuestro método aclara que también hay localizaciones de monocitos en el BALF en lugar de solo macrófagos. Pero las células de macrófagos siguen siendo el componente principal, especialmente el macrófago proinflamatorio (M1) como el macrófago CCL3L1+, lo que sugiere una fuerte señal de reclutamiento de células inmunitarias en BALF en el paciente grave. Mientras tanto, a diferencia del análisis de Liao et al.32, nuestro método revela que el ambiente proinflamatorio no solo es producido por macrófagos sino también por monocitos CD14 (CCL3+). Además, nuestro método también encontró que una expansión significativa de las células T de memoria proliferativas (incluidas las células T CD4 MKI67-CCL4 (alta) y las células T CD4 MKI67-CCL4 (baja), en comparación con las células T efectoras, se enriquecen en la región pulmonar . Juntos, nuestros métodos identificaron con éxito los subtipos de células y proporcionan un atlas inmunitario más completo en el BALF utilizando el atlas de células COVID como referencia. Vale la pena señalar que la mayoría de los tipos de células revelados por scBalance son raros en el atlas de COVID, lo que presenta además la ventaja de identificar tipos de células raros de nuestro método en el conjunto de datos de scRNA-seq a gran escala.

Los avances recientes en los métodos scRNA-seq han llevado a una creciente necesidad de herramientas de anotación de tipo celular. A medida que se publican más atlas de células bien definidos, las herramientas de anotación automática se vuelven cada vez más populares. Sin embargo, existen limitaciones en el software actual en las áreas de compatibilidad, escalabilidad y etiquetado de tipos de células poco comunes. En este artículo, presentamos scBalance, un paquete Python de código abierto que integra el muestreo de peso adaptativo y una red neuronal dispersa para la anotación automática de tipo de celda supervisada. Hemos demostrado la capacidad de anotación de tipo raro de scBalance y la capacidad de anotación celular general superior a través de experimentos de comparación dentro y entre conjuntos de datos en varios conjuntos de datos scRNA-seq de diferentes escalas, protocolos de generación y grados de desequilibrio. En particular, en comparación con la mayoría de las herramientas de anotación de tipos de celdas ampliamente utilizadas14,30,31, scBalance ha demostrado una excelente capacidad de anotación de tipos de celdas raras, incluso en grandes conjuntos de datos con fondos de celdas complejos, donde otros métodos no logran identificar poblaciones menores. Además, hemos demostrado la sólida velocidad de ejecución de scBalance en conjuntos de datos de varias escalas, lo que le brinda una ventaja potencial para la escalabilidad. Al probar nuestro método en dos atlas de células grandes publicados recientemente, hemos demostrado aún más la escalabilidad de scBalance y la rara capacidad de identificación de poblaciones en conjuntos de datos a escala de un millón. Al utilizar esta capacidad, scBalance ha descrito con éxito un panorama inmunitario de células BALF e identificado tipos más raros que las investigaciones publicadas. Además, scBalance está diseñado para ser compatible con Scanpy y Anndata, proporcionando una aplicación fácil de usar.

Además de presentar nuestro método, también mostramos cómo scBalance puede funcionar con otro software para ofrecer a los usuarios una gama más amplia de aplicaciones. Como se ilustra en la Fig. 1 y en el tutorial de GitHub, proporcionamos parámetros opcionales para que los usuarios utilicen un método de equilibrio de tipo de celda externo, como scSynO34, para enfocarse mejor en un tipo de celda menor específico de interés. Creemos que la incorporación de estas herramientas complementarias en nuestro método puede mejorar significativamente el rendimiento de scBalance en varios tipos de tareas, lo que podría ampliar aún más la población de usuarios potenciales de scBalance.

Finalmente, sugerimos varios esfuerzos futuros para mejorar scBalance, por ejemplo, incluyendo más conocimiento previo, como genes marcadores para hacer anotaciones más precisas para tipos de células similares, como células T ingenuas CD4 +/CD45+ y células T de memoria CD4 +/CD45+. Además, scBalance podría modificarse para anotar datos de secuenciación de accesibilidad de cromatina de una sola célula (scATAC-seq) ajustando la red a una estructura escasamente robusta. En resumen, creemos que scBalance es una adición valiosa a la caja de herramientas de anotación automática, especialmente debido a su rara capacidad de anotación de tipo de celda y escalabilidad.

En esta sección, describiremos todos los conjuntos de datos que utilizamos en los experimentos y análisis anteriores. En los experimentos de anotación de referencia (intra e inter-conjunto de datos), utilizamos 20 conjuntos de datos de pequeña escala (~200 celdas) a gran escala (~70k celdas). Para demostrar aún más la capacidad de generalización de scBalance, todos los conjuntos de datos seleccionados se generan a partir de diferentes complejidades y diferentes protocolos de secuenciación. En los experimentos de escalabilidad, se utilizan dos conjuntos de datos ultragrandes. Todos los conjuntos de datos y sus correspondientes etiquetas de tipo de celda se obtienen del artículo original. Los detalles correspondientes se muestran en la Tabla 1.

Proporcionamos scBalance, una estructura de red neuronal compuesta, para realizar tareas de anotación de tipo celular. scBalance requiere una matriz de expresión de ARN de una sola célula M como entrada, en la que cada columna representa un gen y cada fila representa una célula. Para obtener un resultado de anotación más preciso, recomendamos usar un conjunto de datos filtrado con transformación de registros y normalización como conjunto de entrenamiento. Los pasos de transformación y normalización de registros pueden seguir la canalización de preprocesamiento estándar en el tutorial de Scanpy. El objetivo es evitar que los genes atípicos interfieran en el proceso de entrenamiento. El preprocesamiento se puede realizar siguiendo el tutorial de Scanpy, en el que el parámetro de escala se puede cambiar manualmente en la función de normalización. El conjunto de datos de predicción debe tener los mismos pasos de preprocesamiento que el conjunto de entrenamiento. Antes del entrenamiento, los subconjuntos se extraerán del conjunto de referencia y del conjunto de predicción en función de los genes comunes y se utilizarán como entrada. La canalización de scBalance consta de tres módulos principales (Fig. 1a), una función de muestreo ponderado y un clasificador de red neuronal.

El primer módulo es una función de muestreo ponderado que proporciona una solución simple pero eficiente para el aprendizaje de conjuntos de datos scRNA-seq desequilibrados. A diferencia de los métodos de sobremuestreo y submuestreo comúnmente utilizados, scBalance ofrece una combinación de estos dos métodos, lo que mejora significativamente la velocidad de ejecución sin sobreajustar los tipos menores. En el paso de entrenamiento, debido a que tenemos las etiquetas conocidas en el conjunto de entrenamiento, scBalance otorga un peso a cada tipo de celda de acuerdo con la proporción y elige aleatoriamente muestras del conjunto de datos en función de los pesos para construir el lote de entrenamiento para la red neuronal. El proceso de muestreo se establece con reemplazo para garantizar que el clasificador pueda aprender la mayor cantidad posible de información de tipo menor de manera confiable.

En el segundo módulo, utilizamos una estructura de red neuronal (NN) para realizar la tarea de clasificación. El clasificador NN en scBalance contiene una capa de entrada, tres capas ocultas y una capa softmax. El número de neuronas en la capa de entrada es igual al número de genes en el conjunto de datos scRNA-seq. A continuación, las tres capas ocultas tienen 256, 128 y 64 unidades, respectivamente. También agregamos técnicas de abandono y normalización por lotes en cada capa oculta para superar el sobreajuste y aumentar la velocidad de ejecución. Solo la etapa de entrenamiento de scBalance implica la propagación directa con técnicas de normalización por lotes y abandono. Para evitar el cambio de varianza46, colocamos la capa de abandono después de la capa de normalización por lotes (ecuaciones (1–4)):

donde l representa la l-ésima capa de la red neuronal, j representa la j-ésima neurona en su capa, b representa el sesgo aleatorio agregado en la capa y \(\sigma (\bullet)\) representa la función de activación. \({BN}(\bullet)\) es la función de normalización de lotes para normalizar el valor de cada minilote. r es un vector de variable aleatoria independiente de Bernoulli con probabilidad de abandono p. Este vector se multiplicó por elementos con cada capa oculta para crear una capa de exclusión \({\widetilde{x}}^{l}\). En scBalance, la probabilidad de abandono predeterminada es 0,5. La función de activación (ecuación (5)) en scBalance es una función de unidad lineal exponencial (ELU),

La capa de salida se basa en la función softmax (Ec. (6)):

donde \(z\) es el vector de entrada de la capa softmax, K es el número de tipos de celdas en el conjunto de datos de referencia. En la retropropagación, elegimos la pérdida de entropía cruzada como función de pérdida de scBalance y el método de optimización Adam47 como optimizador. Después del entrenamiento, la capa de abandono se desactivará. scBalance proporciona una red neuronal totalmente conectada de tres capas para la predicción del tipo de célula.

Para demostrar la efectividad de los hiperparámetros en scBalance, comparamos diferentes configuraciones de hiperparámetros. (1) Función de activación. En scBalance, debido a las ventajas de ELU en el procesamiento de conjuntos de datos dispersos, elegimos ELU como activación. (2) Capa de abandono. Luego probamos el rendimiento del uso de la capa de abandono. Debido a que la capa de abandono está diseñada principalmente para el efecto por lotes, diseñamos experimentos siguiendo las tareas multiplataforma. El resultado muestra que el uso de la capa de abandono mejora el rendimiento general. Cada valor de la tabla proviene del promedio de cinco repeticiones.

Para testificar el rendimiento de scBalance, lo comparamos con varios métodos de uso común, incluidos paquetes basados ​​en R como Scmap-cell, Scmap-cluster, SingleCellNet, SingleR y scPred, y el paquete basado en Python scVI y MARS. Todos los códigos de evaluación y datos de entrada siguen las instrucciones y tutoriales proporcionados por cada paquete. Para garantizar que nuestra evaluación sea justa para cada método, configuramos todos los parámetros como predeterminados para cada enfoque, incluido scBalance.

El entorno de ejecución que usamos para el software basado en Python es (1) scVI de Github (https://github.com/YosefLab/scvi-tools), la versión es 0.14.5. Ejecutamos la versión GPU y configuramos los hiperparámetros siguiendo su ejemplo. Incluimos LTMG infiriendo en el preprocesamiento con la correspondiente opción dada del código. Todos los hiperparámetros se configuran siguiendo el tutorial. La tarea se implementa en la estación de trabajo con CPU Intel(R) Xeon(R) E5-2667 v4, sistema operativo CentOS Linux versión 7.7.1908, GPU Nvidia TITAN X y memoria física de 503 GB. (2) MARS de Github (https://github.com/snap-stanford/mars). Todos los hiperparámetros se configuran siguiendo el tutorial. La tarea está implementada en el servidor Linux Ubuntu 20.04.4 con procesador AMD EPYC 7452 de 32 núcleos a 2,35 GHz y 503 G de RAM. Para los paquetes basados ​​en R, implementamos las tareas con el modelo de computadora Intel(R) Core(TM) i5-5287U CPU @ 2.90 GHz RAM 8GB. Los detalles del software son (3) SingleR versión 1.6.1 de CRAN (https://github.com/dviraran/SingleR). Los parámetros se establecen como el valor predeterminado proporcionado por el tutorial. (5) Scmap-Cell y Scmap-Cluster de BioManager (https://github.com/hemberg-lab/scmap), con todos los parámetros siguiendo las instrucciones de la función. Para (5) scPred versión 1.9.2 de BiocManager (https://github.com/powellgenomicslab/scPred), ejecutándose con los parámetros predeterminados. Y (6) SingleCellNet versión 0.1.1 de BiocManager (https://github.com/pcahan1/singleCellNet), ejecutándose con los parámetros predeterminados. Llevamos la categoría con mayor puntaje en la predicción al resultado final. La tarea está implementada en el servidor Linux Ubuntu 20.04.4 con procesador AMD EPYC 7452 de 32 núcleos a 2,35 GHz y 503 G de RAM.

Describimos a continuación el protocolo y las métricas cuantitativas que utilizamos en los experimentos. Para que la evolución sea fiable y poder cuantificar la variabilidad, utilizamos una validación cruzada quíntuple y una repetición quíntuple como protocolo básico en cada uno de nuestros experimentos. Para la validación cruzada quíntuple, la división de prueba de tren en la tarea de clasificación dentro del conjunto de datos se basa en la función StratifiedKFold en el paquete de Python sklearn v1.2.0. La estrategia dividida es de forma estratificada basada en la etiqueta de verdad del terreno del conjunto de datos. Al realizar la prueba, se ocultará la etiqueta verdadera del conjunto de datos de prueba. La relación de división de prueba de tren se establece en 0,8 (n_split=5) para todos los experimentos con el fin de mantener suficientes datos tanto en el conjunto de entrenamiento como en el conjunto de prueba. Para la prueba de repetición de 5 veces, la división de prueba de tren se basa en la función Train_test_split en el paquete de Python sklearn v1.2.0. La semilla aleatoria se aplica para mantener la equidad. Cada método se probará cinco veces. Para evaluar el rendimiento del scBalance, utilizamos la puntuación kappa de Cohen, la puntuación Macro F1 y la precisión en nuestro artículo. La puntuación kappa de Cohen es para la métrica de rendimiento general. A diferencia de la mayoría de los artículos que utilizan Accuracy (Acc) como métrica, nuestro objetivo es testificar la capacidad de identificación de los tipos de células raras, así como la precisión general de la clasificación. Por lo tanto, elegimos el coeficiente kappa de Cohen48 k, que es un enfoque sensible a la clase menor, por lo que puede brindarnos una evaluación integral del desempeño de la clasificación, incluida la identificación de los tipos principales y la identificación de los tipos menores (Ec. (7)),

donde \({p}_{0}\) es la variable proporcional observada y \({p}_{e}\) es la probabilidad hipotética de la variable aleatoria. Para calcular \({p}_{e}\), usamos los datos observados para calcular las probabilidades de que cada observador vea aleatoriamente cada categoría. En esta fórmula, se resaltará el peso de la clasificación errónea de las poblaciones raras.

La puntuación Macro F1, debido a su sensibilidad a la población rara, se utiliza para la comparación del método de muestreo (Ec. (8)).

La precisión se utiliza para evaluar la precisión específica del tipo de celda en la tarea de anotación dentro del conjunto de datos y la precisión poco frecuente del tipo de celda en la tarea de anotación entre conjuntos de datos.

La precisión se utiliza como una métrica de sensibilidad de detección positiva verdadera (ecuación (9)):

Donde TP es verdadero positivo y FP es falso positivo.

Más información sobre el diseño de la investigación está disponible en el Resumen de informes de Nature Portfolio vinculado a este artículo.

No se generaron nuevos datos para este estudio. Todos los datos utilizados en este estudio están disponibles públicamente como se describió anteriormente (ver Tabla 1).

scBalance está disponible como un paquete de Python independiente en https://github.com/yuqcheng/scBalance.

Tang, F. et al. Análisis de transcriptoma completo mRNA-Seq de una sola célula. Nat. Métodos 6, 377–382 (2009).

Artículo CAS PubMed Google Académico

Horning, AM et al. El RNA-seq de una sola célula revela una subpoblación de células de cáncer de próstata con una transcripción relacionada con el ciclo celular mejorada y una respuesta androgénica atenuada. Cáncer Res. 78, 853–864 (2018).

Artículo CAS PubMed Google Académico

Nyquist, MD y col. La pérdida combinada de TP53 y RB1 promueve la resistencia del cáncer de próstata a un espectro de tratamientos y confiere vulnerabilidad al estrés de replicación. Informe celular 31, 107669 (2020).

Artículo CAS PubMed PubMed Central Google Scholar

Guo, C. et al. El análisis unicelular de dos pacientes graves con COVID-19 revela una tormenta de citoquinas asociada a monocitos y que responde a tocilizumab. Nat. común 11, 3924 (2020).

Artículo CAS PubMed PubMed Central Google Scholar

Wilk, AJ et al. Un atlas unicelular de la respuesta inmune periférica en pacientes con COVID-19 grave. Nat. Medicina. 26, 1070–1076 (2020).

Artículo CAS PubMed PubMed Central Google Scholar

Guo, L. et al. Resolución de decisiones de destino celular durante la reprogramación de células somáticas por RNA-Seq de una sola célula. mol. Celda 73, 815–829.e817 (2019).

Artículo CAS PubMed Google Académico

Butler, A., Hoffman, P., Smibert, P., Papalexi, E. y Satija, R. Integración de datos transcriptómicos unicelulares en diferentes condiciones, tecnologías y especies. Nat. Biotecnología. 36, 411–420 (2018).

Artículo CAS PubMed PubMed Central Google Scholar

Wolf, FA, Angerer, P. & Theis, FJ SCANPY: análisis de datos de expresión génica unicelular a gran escala. Genoma Biol. 19, 15 (2018).

Artículo PubMed PubMed Central Google Académico

Tran, D. et al. Análisis de datos unicelulares rápido y preciso mediante un codificador automático jerárquico. Nat. común 12, 1029 (2021).

Artículo CAS PubMed PubMed Central Google Scholar

Han, W. et al. Aprendizaje contrastivo autosupervisado para el análisis integrador de datos de RNA-seq de células individuales. BioRxiv 23, bbac377 (2021).

Google Académico

Lindeboom, RGH, Regev, A. & Teichmann, SA Hacia un atlas de células humanas: tomando notas del pasado. Tendencias Genet. 37, 625–630 (2021).

Artículo CAS PubMed Google Académico

Rozenblatt-Rosen, O., Michael, J., Regev, A. & Teichmann, SA El Atlas de la Célula Humana: de la visión a la realidad. Naturaleza 550, 451–453 (2017).

Artículo CAS PubMed Google Académico

Xie, B., Jiang, Q., Mora, A. y Li, X. Métodos automáticos de identificación de tipos de células para la secuenciación de ARN de una sola célula. computar Estructura. Biotecnología. J. 19, 5874–5887 (2021).

Artículo CAS PubMed PubMed Central Google Scholar

Tan, Y. & Cahan, P. SingleCellNet: una herramienta computacional para clasificar datos de RNA-Seq de una sola célula en plataformas y especies. Sistema celular 9, 207–213.e202 (2019).

Artículo CAS PubMed PubMed Central Google Scholar

Ma, F. & Pellegrini, M. ACTINN: identificación automatizada de tipos de células en secuenciación de ARN de células individuales. Bioinformática 36, ​​533–538 (2019).

Artículo Google Académico

Worbs, T., Hammerschmidt, SI & Förster, R. Migración de células dendríticas en salud y enfermedad. Nat. Rev. Inmunol. 17, 30–48 (2017).

Artículo CAS PubMed Google Académico

Ren, X. et al. Características inmunes de COVID-19 reveladas por un atlas de transcriptoma unicelular a gran escala. Cel 184, 5838 (2021).

Artículo CAS PubMed PubMed Central Google Scholar

Khalilia, M., Chakraborty, S. & Popescu, M. Predicción de riesgos de enfermedades a partir de datos altamente desequilibrados utilizando bosques aleatorios. BMC Med. Informar. Decir Mak. 11, 51 (2011).

Artículo PubMed PubMed Central Google Académico

Wegmann, R. et al. CellSIUS proporciona una detección sensible y específica de poblaciones de células raras a partir de datos complejos de secuencias de ARN de una sola célula. Genoma Biol. 20, 142 (2019).

Artículo PubMed PubMed Central Google Académico

Jiang, L., Chen, H., Pinello, L. y Yuan, G.-C. GiniClust: detección de tipos de células raras a partir de datos de expresión génica de una sola célula con el índice de Gini. Genoma Biol. 17, 144 (2016).

Artículo PubMed PubMed Central Google Académico

Zheng, GXY y col. Perfil transcripcional digital masivamente paralelo de células individuales. Nat. común 8, 14049 (2017).

Artículo CAS PubMed PubMed Central Google Scholar

Han, X. et al. Mapeo del atlas de células de ratón por microwell-seq. Celda 172, 1091–1107.e1017 (2018).

Artículo CAS PubMed Google Académico

Nguyen, V. & Griss, J. scAnnotatR: marco para clasificar con precisión los tipos de células en los datos de secuenciación de ARN de una sola célula. BMC Bioinforma. 23, 44 (2022).

Artículo CAS Google Académico

Zhang, R., Luo, Y., Ma, J., Zhang, M. y Wang, S. scPretrain: Aprendizaje autosupervisado de múltiples tareas para la clasificación de tipos de células. BioRxiv 38, 1607–1614 (2020).

Google Académico

Wang, L. et al. Una arquitectura de aprendizaje profundo interpretable de redes de cápsulas para identificar programas de expresión génica de tipo celular a partir de datos de secuenciación de ARN de una sola célula. Nat. Mach. Intel. 2, 693–703 (2020).

Artículo Google Académico

Kim, H., Lee, J., Kang, K. & Yoon, S. MarkerCount: un identificador de tipo de célula estable basado en recuento para experimentos de RNAseq de una sola célula. Comput Struct Biotechnol J. 20, 3120–3132 (2022).

Artículo Google Académico

Kiselev, VY, Yiu, A. & Hemberg, M. scmap: proyección de datos de RNA-seq de una sola célula en conjuntos de datos. Nat. Métodos 15, 359–362 (2018).

Artículo CAS PubMed Google Académico

Arán, D. et al. El análisis basado en referencias de la secuenciación de células individuales de pulmón revela un macrófago profibrótico de transición. Nat. inmunol. 20, 163–172 (2019).

Artículo CAS PubMed PubMed Central Google Scholar

López, R., Regier, J., Cole, MB, Jordan, MI y Yosef, N. Modelado generativo profundo para la transcriptómica unicelular. Nat. Métodos 15, 1053–1058 (2018).

Artículo CAS PubMed PubMed Central Google Scholar

Alquicira-Hernandez, J., Sathe, A., Ji, HP, Nguyen, Q. y Powell, JE scPred: método supervisado preciso para la clasificación de tipos de células a partir de datos de RNA-seq de una sola célula. Genoma Biol. 20, 264 (2019).

Artículo CAS PubMed PubMed Central Google Scholar

Brbić, M. et al. MARS: descubrimiento de nuevos tipos de células a través de experimentos heterogéneos de una sola célula. Nat. Métodos 17, 1200–1206 (2020).

Artículo PubMed Google Académico

Liao, M. et al. Panorama unicelular de células inmunitarias broncoalveolares en pacientes con COVID-19. Nat. Medicina. 26, 842–844 (2020).

Artículo CAS PubMed Google Académico

Alquicira-Hernandez, J., Sathe, A., Ji, HP, Nguyen, Q. y Powell, JE scPred: método supervisado preciso para la clasificación de tipos de células a partir de datos de RNA-seq de una sola célula. Genoma Biol. 20, 264 (2019).

Artículo CAS PubMed PubMed Central Google Scholar

Bej, S., Galow, A.-M., David, R., Wolfien, M. y Wolkenhauer, O. Anotación automatizada de tipos de células raras a partir de datos de secuenciación de ARN de una sola célula mediante sobremuestreo sintético. BMC Bioinforma. 22, 557 (2021).

Artículo CAS Google Académico

Eling, N., Morgan, MD & Marioni, JC Desafíos en la medición y comprensión del ruido biológico. Nat. Rev. Genet. 20, 536–548 (2019).

Artículo CAS PubMed PubMed Central Google Scholar

Srivastava, N., Hinton, G., Krizhevsky, A., Sutskever, I. y Salakhutdinov, R. Abandono: una forma sencilla de evitar el sobreajuste de las redes neuronales. J. Mach. Aprender. Res. 15, 1929-1958 (2014).

Google Académico

Clevert, D.-Ae, Unterthiner, T. & Hochreiter, S. Aprendizaje rápido y preciso de redes profundas mediante unidades lineales exponenciales (ELU). Preimpresión en https://arxiv.org/abs/1511.07289 (2016).

Hwang, B., Lee, JH y Bang, D. Tecnologías de secuenciación de ARN de una sola célula y canalizaciones bioinformáticas. Exp. mol. Medicina. 50, 1–14 (2018).

Artículo CAS PubMed PubMed Central Google Scholar

Lin, Y. et al. scClassify: estimación del tamaño de la muestra y clasificación multiescala de celdas usando referencia única y múltiple. mol. sist. Biol. 16, e9389 (2020).

Artículo CAS PubMed PubMed Central Google Scholar

Johnson, WE, Li, C. & Rabinovic, A. Ajuste de los efectos por lotes en los datos de expresión de micromatrices mediante métodos empíricos de Bayes. Bioestadística 8, 118–127 (2006).

Artículo PubMed Google Académico

Litvinukova, M. et al. Células del corazón humano adulto. Naturaleza 588, 466 (2020).

Artículo CAS PubMed PubMed Central Google Scholar

Wilk, AJ et al. Un atlas unicelular de la respuesta inmune periférica en pacientes con COVID-19 grave. Nat. Medicina. 26, 1070–1076 (2020).

Artículo CAS PubMed PubMed Central Google Scholar

Schulte-Schrepping, J. et al. La COVID-19 grave se caracteriza por un compartimento de células mieloides desregulado. Celda 182, 1419–1440.e1423 (2020).

Artículo CAS PubMed PubMed Central Google Scholar

Zhao, J. et al. Respuestas de anticuerpos al SARS-CoV-2 en pacientes con nueva enfermedad por coronavirus 2019. Clin. Infectar. Dis. 71, 2027–2034 (2020).

Artículo CAS PubMed Google Académico

Rabaan, AA et al. Papel de las citocinas inflamatorias en pacientes con COVID-19: una revisión de los mecanismos moleculares, las funciones inmunitarias, la inmunopatología y los fármacos inmunomoduladores para contrarrestar la tormenta de citocinas. Vacunas 9, 436 (2021).

Artículo CAS PubMed PubMed Central Google Scholar

Li, X., Chen, S., Hu, X. y Yang, J. Comprensión de la falta de armonía entre la deserción y la normalización de lotes por cambio de varianza. Conferencia IEEE/CVF de 2019 sobre visión artificial y reconocimiento de patrones (CVPR) 2677–2685 (2019).

Kingma, DP & Ba, J. Adam: un método para la optimización estocástica. En Proc. 3ra Conferencia Internacional sobre Representaciones de Aprendizaje (ICLR) (ICLR, 2015).

Vieira, SM, Kaymak, U. & Sousa, coeficiente kappa de JMC Cohen como medida de rendimiento para la selección de funciones. Conferencia internacional sobre sistemas difusos 1–8 (2010).

Deng, QL, Ramskold, D., Reinius, B. y Sandberg, R. El RNA-seq de una sola célula revela una expresión génica monoalélica dinámica y aleatoria en células de mamíferos. Ciencia 343, 193–196 (2014).

Artículo CAS PubMed Google Académico

Darmanis, S. et al. Una encuesta sobre la diversidad del transcriptoma del cerebro humano a nivel de una sola célula. proc. Academia Nacional. ciencia EE. UU. 112, 7285–7290 (2015).

Artículo CAS PubMed PubMed Central Google Scholar

Usoskin, D. et al. Clasificación imparcial de tipos de neuronas sensoriales mediante secuenciación de ARN unicelular a gran escala. Nat. Neurosci. 18, 145–153 (2015).

Artículo CAS PubMed Google Académico

Camp, JG et al. La comunicación multilinaje regula el desarrollo de brotes hepáticos humanos a partir de la pluripotencia. Naturaleza 546, 533–538 (2017).

Artículo CAS PubMed Google Académico

Barón, M. et al. Un mapa transcriptómico unicelular del páncreas humano y de ratón revela la estructura de la población intercelular e intracelular. Sistema celular 3, 346–360.e344 (2016).

Artículo CAS PubMed PubMed Central Google Scholar

Mauro et al. Un atlas transcriptómico unicelular del páncreas humano. Sistema celular 3, 385–394.e383 (2016).

Artículo Google Académico

Lago, BB et al. Subtipos neuronales y diversidad revelados por secuenciación de ARN de un solo núcleo del cerebro humano. Ciencia 352, 1586–1590 (2016).

Artículo CAS PubMed PubMed Central Google Scholar

Campbell, JN y col. Un censo molecular de hipotálamo arqueado y tipos de células de eminencia media. Nat. Neurosci. 20, 484–496 (2017).

Artículo CAS PubMed PubMed Central Google Scholar

Zilionis, R. et al. La transcriptómica unicelular de cánceres de pulmón humanos y de ratón revela poblaciones mieloides conservadas entre individuos y especies. Inmunidad 50, 1317 (2019).

Artículo CAS PubMed PubMed Central Google Scholar

Schaum, N. et al. La transcriptómica unicelular de 20 órganos de ratón crea una Tabula Muris. Naturaleza 562, 367 (2018).

Artículo PubMed Central Google Académico

Zheng, GXY y col. Perfil transcripcional digital masivamente paralelo de células individuales. Nat. común 8, 14049 (2017).

Artículo CAS PubMed PubMed Central Google Scholar

Ding, J. et al. Comparación sistemática de métodos de secuenciación de ARN de una sola célula y de un solo núcleo. Nat. Biotecnología. 38, 737–746 (2020).

Artículo CAS PubMed PubMed Central Google Scholar

Xin, Y. et al. La secuenciación de ARN de células de islotes humanos individuales revela genes de diabetes tipo 2. Metab. celular 24, 608–615 (2016).

Artículo CAS PubMed Google Académico

Segerstolpe, Å. et al. Perfil de transcriptoma unicelular de islotes pancreáticos humanos en salud y diabetes tipo 2. Metab. celular 24, 593–607 (2016).

Artículo CAS PubMed PubMed Central Google Scholar

Descargar referencias

El trabajo fue apoyado por la Universidad China de Hong Kong (CUHK) con los números de premio 4937025, 4937026, 5501517 y 5501329, y el Fondo de Innovación y Tecnología (ITF) con el número de premio GHP/065/21SZ.

Departamento de Informática e Ingeniería (CSE), Universidad China de Hong Kong (CUHK), RAE de Hong Kong, China

Yuqi Cheng, Jianging Zhang y Yu Li

Escuela de Ciencias Computacionales e Ingeniería, Instituto de Tecnología de Georgia, Atlanta, GA, EE. UU.

yuqi cheng

Escuela de Ingeniería de Software e Información, Universidad de Ciencia y Tecnología Electrónica de China, 610054, Chengdu, China

Fanático de Xingyu

El Instituto de Investigación CUHK Shenzhen, Hi-Tech Park, Nanshan, 518057, Shenzhen, China

yu li

También puede buscar este autor en PubMed Google Scholar

También puede buscar este autor en PubMed Google Scholar

También puede buscar este autor en PubMed Google Scholar

También puede buscar este autor en PubMed Google Scholar

YC diseñó el método y todos los experimentos de referencia. YC implementó la herramienta en Python. YC, JZ y XF realizaron análisis de datos y todos los experimentos de cálculo. JZ y XF también proporcionaron sugerencias en el desarrollo de métodos. YC, YL,JZ y XF escribieron el manuscrito juntos. Todos los autores revisaron el manuscrito.

Correspondencia a Yu Li.

Los autores declaran no tener conflictos de intereses.

Este manuscrito ha sido revisado previamente en otra revista de Nature Portfolio. El manuscrito se consideró adecuado para su publicación sin revisión adicional en Communications Biology. Editor principal de manejo: Gene Chong.

Nota del editor Springer Nature se mantiene neutral con respecto a los reclamos jurisdiccionales en mapas publicados y afiliaciones institucionales.

Acceso abierto Este artículo tiene una licencia internacional Creative Commons Attribution 4.0, que permite el uso, el intercambio, la adaptación, la distribución y la reproducción en cualquier medio o formato, siempre que se otorgue el crédito correspondiente al autor o autores originales y a la fuente. proporcionar un enlace a la licencia Creative Commons e indicar si se realizaron cambios. Las imágenes u otro material de terceros en este artículo están incluidos en la licencia Creative Commons del artículo, a menos que se indique lo contrario en una línea de crédito al material. Si el material no está incluido en la licencia Creative Commons del artículo y su uso previsto no está permitido por la regulación legal o excede el uso permitido, deberá obtener el permiso directamente del titular de los derechos de autor. Para ver una copia de esta licencia, visite http://creativecommons.org/licenses/by/4.0/.

Reimpresiones y permisos

Cheng, Y., Fan, X., Zhang, J. et al. Un marco escalable de red neuronal dispersa para la anotación de tipos de células raras de datos transcriptómicos de una sola célula. Commun Biol 6, 545 (2023). https://doi.org/10.1038/s42003-023-04928-6

Descargar cita

Recibido: 13 Abril 2023

Aceptado: 11 de mayo de 2023

Publicado: 20 mayo 2023

DOI: https://doi.org/10.1038/s42003-023-04928-6

Cualquier persona con la que compartas el siguiente enlace podrá leer este contenido:

Lo sentimos, un enlace para compartir no está disponible actualmente para este artículo.

Proporcionado por la iniciativa de intercambio de contenido Springer Nature SharedIt

Al enviar un comentario, acepta cumplir con nuestros Términos y Pautas de la comunidad. Si encuentra algo abusivo o que no cumple con nuestros términos o pautas, márquelo como inapropiado.