El aprendizaje automático revela una contribución limitada de trans

Blog

HogarHogar / Blog / El aprendizaje automático revela una contribución limitada de trans

Sep 19, 2023

El aprendizaje automático revela una contribución limitada de trans

Volumen de biología de las comunicaciones

Biología de las comunicaciones volumen 6, Número de artículo: 442 (2023) Citar este artículo

1475 Accesos

5 Altmetric

Detalles de métricas

La presentación del antígeno de clase II del antígeno leucocitario humano (HLA) es clave para controlar y desencadenar respuestas inmunitarias de células T. Las moléculas HLA-DQ, que se cree que juegan un papel importante en las enfermedades autoinmunes, son heterodímeros que pueden formarse como variantes cis y trans dependiendo de si las cadenas α y β están codificadas en el mismo (cis) o en el opuesto ( trans) cromosomas. Hasta el momento, se ha logrado un progreso limitado para predecir la presentación del antígeno HLA-DQ. Además, la contribución de las variantes trans solamente (es decir, variantes no observadas en la población como cis) en la configuración del inmunopeptidoma HLA-DQ sigue sin resolverse en gran medida. Aquí, buscamos abordar estos problemas mediante la integración de modelos de minería de datos de inmunoinformática de última generación con grandes volúmenes de datos de inmunopeptidómica de espectrometría de masas específicos de HLA-DQ de alta calidad. El análisis demuestra un poder predictivo y una cobertura molecular altamente mejorados para los modelos entrenados que incluyen estos datos novedosos de HLA-DQ. Más importante aún, la investigación del papel de las variantes de HLA-DQ solo trans revela una contribución limitada o nula al inmunopeptidoma general de HLA-DQ. En conclusión, este estudio amplía nuestra comprensión de las especificidades de HLA-DQ y arroja luz sobre el papel relativo de las variantes de HLA-DQ cis versus solo trans en el espacio de presentación del antígeno HLA clase II. El método desarrollado, NetMHCIIpan-4.2, está disponible en https://services.healthtech.dtu.dk/services/NetMHCIIpan-4.2.

Las moléculas del complejo principal de histocompatibilidad de clase II (MHC de clase II) se expresan en la superficie de las células presentadoras de antígenos profesionales, como las células B, las células dendríticas (DC) y los monocitos/macrófagos1. Estas moléculas, que están diseñadas para unir y presentar fragmentos de las proteínas exógenas a las células T auxiliares, son heterodímeros que consisten en cadenas α y β que juntas forman la hendidura de unión de péptidos.

En humanos, el HLA (antígeno leucocitario humano) clase II está codificado por tres loci diferentes (HLA-DR, -DQ y -DP). Estos genes HLA tienen numerosas variantes alélicas con polimorfismos que se agrupan principalmente alrededor del surco de unión de péptidos, lo que da como resultado una amplia gama de especificidades distintas de unión de péptidos2. En muchas enfermedades autoinmunes, los genes HLA de clase II son los principales factores de susceptibilidad genética1,3 que desempeñan un papel central en la patogenia de estas afecciones al presentar péptidos antigénicos a las células T CD4+.

Varios estudios han explorado la importancia de HLA-DR y DQ en los niveles de haplotipos y genotipos en pacientes con diabetes tipo 1 (DT1)3. Estos estudios genéticos y funcionales han indicado que tanto los alelos HLA-DR como DQ están asociados con el riesgo de T1D3,4. Además, los haplotipos DR-DQ asociados demuestran una jerarquía de riesgo, que va desde altamente predisponente hasta altamente protector4. Curiosamente, más recientemente se demostró que HLA-DR, que generalmente juega el papel principal en las enfermedades autoinmunes, tiene un papel importante pero secundario al locus HLA-DQ en T1D5.

Los trastornos autoinmunitarios como la diabetes tipo 1, además de otras condiciones como la enfermedad celíaca, donde se ha establecido una asociación directa y excepcionalmente fuerte para HLA-DQ6, requieren una caracterización más completa y sistemática de la presentación de antígenos por moléculas HLA-DQ para permitir el estudio de su función. Aunque el campo está avanzando rápidamente7, hasta ahora se han estudiado exhaustivamente los motivos de unión a péptidos de solo un número limitado de moléculas HLA-DQ8,9,10. Una de las razones de esto es que las moléculas HLA-DQ son más complejas de estudiar experimentalmente. Por ejemplo, debido a la naturaleza monomórfica de la cadena α en HLA-DR, las variaciones polimórficas solo las proporciona la cadena β11. En HLA-DQ, las cadenas α y β contribuyen a las variaciones polimórficas. Sin embargo, la evidencia sugiere que no todos los emparejamientos de cadenas α y β darán como resultado un heterodímero estable debido a requisitos estructurales clave en la interfaz de dimerización α y β11,12. Por ejemplo, solo se ha detectado que DQA1*01 forma heterodímeros estables con los alelos DQB1*05 y 06. Asimismo, los alelos DQA1*02, 03, 04, 05 y 06 forman heterodímeros estables solo con DQB1*02, 03 y 0412,13,14.

Además, estudiar la función de los alelos HLA-DQ es un desafío debido al extenso desequilibrio de enlace entre HLA-DR y HLA-DQ dentro de la región HLA clase II, lo que dificulta diferenciar el papel de los alelos HLA-DQ individuales de los alelos asociados. Moléculas HLA-DR3,11.

Finalmente, pueden ocurrir moléculas DQ únicas codificadas en cis y trans donde las cadenas α y β que se emparejan para formar el heterodímero están codificadas por los mismos cromosomas (cis) u opuestos (trans), lo que complica aún más el estudio de estas moléculas. Si bien la mayor parte del conocimiento actual sobre las moléculas HLA-DQ proviene de variantes codificadas en cis, se ha confirmado la expresión superficial y la función de un pequeño número de variantes DQ codificadas en trans11,15. Aquí, es importante enfatizar que también se ha observado que estas moléculas trans funcionales son funcionales como la correspondiente variante codificada en cis. Por lo tanto, generalmente se cree que los alelos de las cadenas DQα y DQβ se emparejan principalmente en las variantes cis y no en las trans16,17. De ahora en adelante, nos referiremos a todas las combinaciones estables de cadenas DQα y β mencionadas anteriormente como cis, y el resto que incluya cualquier combinación que no haya sido detectada o informada como codificada en cis se denominará "solo trans".

En los últimos años, la información relacionada con las variantes de HLA-DQ codificadas en cis se ha ampliado enormemente debido a la disponibilidad de grandes volúmenes de datos de secuencias de HLA13. Aquí, la suposición es que todos los haplotipos DQ observados, por selección natural, son capaces de formar moléculas estables y funcionales codificadas en cis y trans. Sin embargo, el papel de las variantes codificadas solo en trans en la presentación de antígenos y su contribución en la formación y complementación del inmunopeptidoma HLA-DQ ha permanecido en gran parte sin resolver.

Dado el papel fundamental de la presentación del antígeno HLA de clase II en el control y configuración de la respuesta inmune adaptativa, se han dedicado grandes esfuerzos al desarrollo de modelos de predicción capaces de predecir este evento (revisado en Nielsen et al. 202018). Los métodos de predicción de vanguardia actuales incluyen NetMHCIIpan19, un método panespecífico que permite la predicción de la presentación de antígenos para cualquier molécula HLA de clase II con una secuencia de proteína conocida. Para los heterodímeros HLA-DQ y DP, esto significa que se requiere información de secuencia sobre las cadenas α y β para hacer predicciones.

Originalmente, los ensayos de afinidad de unión (BA) de péptido-HLA in vitro se han utilizado para generar datos para caracterizar los motivos de las moléculas HLA de clase II2 y el desarrollo de diferentes modelos de predicción de aprendizaje automático para identificar las reglas de unión de péptido-HLA20,21. Sin embargo, los resultados experimentales indican que la afinidad de unión (BA) es un correlato relativamente débil del procesamiento y la presentación de antígenos por las moléculas HLA22. Además, varios estudios han demostrado que el rendimiento de los modelos de predicción de unión de péptidos HLA-clase II mejora significativamente cuando se entrenan con datos de inmunopeptidoma adquiridos por cromatografía líquida junto con espectrometría de masas (LC-MS/MS)2,20,23,24 . Generalmente, en un ensayo de ligando eluido (EL) de inmunopeptidoma de HLA de clase II, las moléculas de HLA se purifican por afinidad a partir de células presentadoras de antígeno (APC) lisadas utilizando anticuerpos monoclonales específicos de HLA. Las moléculas HLA se desnaturalizan a continuación y los ligandos peptídicos se aíslan y secuencian mediante LC-MS/MS25,26. El resultado de tal ensayo es una lista de secuencias peptídicas restringidas a al menos una de las moléculas HLA de clase II expresadas por la línea celular interrogada. Los datos EL tienen una gran ventaja sobre los datos BA, ya que contienen señales de diferentes pasos de la presentación del antígeno HLA clase II, como la digestión del antígeno, la carga de ligandos del HLA y el transporte a la superficie celular27,28,29.

Las predicciones de unión a HLA de clase II se han utilizado ampliamente para identificar candidatos a epítopos en enfermedades infecciosas, cancerosas y autoinmunes30. La mayoría de los algoritmos de predicción para HLA clase II se han centrado hasta ahora en moléculas HLA-DR debido a la gran disponibilidad de datos para ellas. Sin embargo, en el contexto de HLA-DQ, tanto el emparejamiento de cadenas α y β sintéticas para realizar experimentos de afinidad de unión como la generación de grandes conjuntos de datos EL han demostrado ser un desafío. Esto último se debe principalmente a la falta de aplicación de anticuerpos específicos de HLA-DQ en experimentos de inmunopeptidómica de EM a gran escala que dan como resultado un rendimiento limitado en el proceso de purificación de HLA-DQ.

En los últimos años, la proteómica y el análisis de péptidos por espectrometría de masas (MS) han progresado enormemente, debido a la tecnología de punta y la mayor sensibilidad de los instrumentos junto con plataformas de software y algoritmos avanzados que respaldan la identificación y cuantificación de péptidos. Estos avances, junto con el uso de un anticuerpo HLA-DQ altamente específico, nos han permitido caracterizar, en un solo ensayo, miles de péptidos que se unen naturalmente a las moléculas HLA-DQ y generan complejos estables de péptido-HLA que se transportan al superficie celular para ser presentada a las células inmunitarias. Aquí, hemos aplicado esta configuración para generar un gran conjunto de péptidos presentados por un grupo de moléculas HLA-DQ frecuentes en la población mundial a partir de un panel de líneas de células linfoblastoides B homocigóticas. Estos grandes conjuntos de datos se enviaron directamente a procesos de identificación de motivos bioinformáticos y aprendizaje automático para definir los motivos y descubrir las reglas que rigen el procesamiento y la presentación de péptidos en un contexto biológico. Además, este estudio nos permitió avanzar hacia la resolución del desafío de la formación cis versus trans de heterodímeros HLA-DQ funcionales y determinar el papel de las variantes solo trans en la configuración del inmunopeptidoma HLA-DQ. La amplia comprensión de las características de unión a péptidos de las moléculas HLA-DQ investigadas proporcionadas por este estudio facilitará una mejor comprensión de la asociación de enfermedades HLA-DQ y el descubrimiento de nuevos objetivos terapéuticos.

Para el estudio, se obtuvieron datos de inmunopeptidoma para 14 moléculas HLA-DQ diferentes de 16 líneas celulares linfoblastoides B homocigotas (BLCL) mediante LC-MS/MS. Mediante el uso de un anticuerpo específico de DQ durante la purificación por afinidad, pudimos obtener un gran conjunto de datos altamente enriquecido en ligandos peptídicos de DQ. En la figura 1 se muestra una descripción general de los recuentos de péptidos de las líneas celulares, los tipos DQ HLA y las distribuciones de longitudes de péptidos. En general, los datos contienen un total de 39 334 ligandos peptídicos, siendo los de 14 y 15 meros los más predominantes. Después de enriquecer los nuevos datos con péptidos naturales aleatorios asignados como negativos (ver materiales y métodos), los combinamos con los datos utilizados para entrenar el método de predicción NetMHCIIpan-4.1, lo que generó un gran conjunto de datos de ligandos HLA clase II eluidos. A partir de esto, nos dispusimos a abordar tres cuestiones esenciales relacionadas con HLA-DQ, a saber, (i) el poder predictivo relativamente bajo de los modelos de predicción actuales para las moléculas DQ, (ii) la contribución de las variantes DQ codificadas solo en trans al inmunopeptidoma DQ y (iii) la cobertura general del espacio de especificidad DQ de los datos experimentales actuales y los modelos de predicción in-silico desarrollados.

Cada fila corresponde a un conjunto de datos de una línea celular homocigota DQ determinada. Panel izquierdo: gráfico de barras de los recuentos generales de péptidos. Los números de la izquierda corresponden a los ID de línea celular. Panel central: tipos DQ HLA de las líneas celulares. Panel derecho: distribuciones de longitud de péptidos.

Para investigar el impacto en el poder predictivo mediante la integración de los nuevos datos de DQ, empleamos el algoritmo NNAlign_MA31, que es un método de aprendizaje automático muy potente para deconvolucionar los datos de inmunopeptidómica de la EM. Se entrenaron dos modelos de predicción de presentación de antígenos peptídicos: uno que incluía los nuevos datos purificados por afinidad de DQ (denominado w_Saghar_DQ) y otro sin comparación directa del impacto de los nuevos datos (denominado wo_Saghar_DQ). Luego, los modelos se evaluaron mediante validación cruzada por molécula dentro de cuatro subconjuntos diferentes de todas las moléculas HLA de clase II en los datos de entrenamiento. Estos subconjuntos son moléculas no DQ (NotDQ), todas las moléculas DQ (DQ), moléculas DQ presentes en los datos novedosos (DQ_Saghar) y moléculas DQ no presentes en los datos novedosos (DQ_NotSaghar).

La figura 2 muestra el resultado de este experimento y demuestra que la incorporación de los nuevos datos de DQ resultó en una mejora significativa del rendimiento para DQ como se esperaba (p = 0,011 para todas las métricas, n = 44 moléculas, prueba binomial de una cola sin empates). Sin embargo, a partir de estos resultados, es evidente que el rendimiento de DQ sigue siendo inferior en comparación con el de las moléculas que no son DQ. Asumimos que esto es el resultado de que el rendimiento de DQ se calculó a partir de una combinación de los datos nuevos y los datos de entrenamiento de NetMHCIIpan-4.1 más antiguos. Para demostrar esto, evaluamos el rendimiento de las moléculas DQ_Saghar limitadas solo a los nuevos datos. El resultado de esto se muestra en la Fig. 3 y demuestra que cuando se enfoca solo en los datos novedosos, el desempeño de DQ alcanza un nivel comparable al de no DQ, con una ganancia significativa en términos de VPP (t = 1.19, p = 0,24 para AUC, t = 0,21, p = 0,83 para AUC 0,1 y t = 2,69, p = 0,009 para PPV, n = 14 moléculas DQ y n = 70 moléculas no DQ, pruebas t bilaterales). Este resultado es importante ya que sugiere que el bajo rendimiento informado anteriormente para DQ se debe, al menos en parte, a la baja calidad y cantidad de los datos de DQ anteriores.

Cada punto es la métrica de rendimiento para una molécula única de HLA clase II. Para obtener detalles sobre las métricas de rendimiento, consulte materiales y métodos. Las columnas corresponden a cuatro subconjuntos diferentes de moléculas HLA, a saber, todas las moléculas no HLA-DQ (NotDQ, n = 70), todas las moléculas DQ (DQ, n = 44), las moléculas DQ en el nuevo conjunto de datos (DQ_Saghar, n = 14), y moléculas DQ no presentes en los nuevos datos (DQ_NotSaghar, n = 30). Cada diagrama de caja muestra la mediana dentro del rango intercuartil (IQR) entre los cuartiles superior e inferior, con bigotes que se extienden hasta 1,5 veces el IQR como máximo.

Cada punto es la métrica de rendimiento para una molécula HLA clase II. Cada diagrama de caja muestra la mediana dentro del rango intercuartil (IQR) entre los cuartiles superior e inferior, con bigotes que se extienden hasta 1,5 veces el IQR como máximo.

A continuación, analizamos las diferencias en los péptidos asignados a las moléculas HLA-DQ entre los dos métodos en todas las muestras. Aquí, consideramos todos los péptidos que se asignaron a DQ con rango percentil <20 (es decir, como no basura) en al menos uno de los métodos23. En general, los dos métodos comparten un alto grado de superposición en los péptidos asignados a DQ (60 959 anotaciones fueron compartidas por ambos modelos, 9309 anotaciones fueron únicas para el método entrenado que incluye los datos novedosos y 4316 únicas para el método entrenado sin ellos). Esta mayor cobertura de DQ para el modelo entrenado que incluye los datos novedosos proviene predominantemente de los péptidos asignados a DR (y hasta cierto punto basura y DP) por el modelo entrenado sin los datos novedosos (consulte la Tabla complementaria 1 para obtener una descripción general de las migraciones de péptidos). Esto sugiere que al menos parte del rendimiento predictivo mejorado del nuevo modelo se origina en una desconvolución de motivo mejorada.

Para cuantificar aún más esto, mostramos el valor medio de consistencia por molécula HLA en los cuatro subconjuntos de moléculas en la Fig. 1 complementaria. En resumen, se construyeron matrices de puntuación específicas de posición para cada molécula en una línea celular determinada a partir de los núcleos de unión predichos en el péptidos positivos individuales, y la consistencia se cuantificó mediante la correlación de tales matrices para la misma molécula entre diferentes conjuntos de datos de líneas celulares (para obtener detalles, consulte materiales y métodos). En base a este análisis, se observa una consistencia general mejorada para el modelo entrenado con los nuevos datos DQ (p < 0.02 en todos los casos excepto para el subconjunto DQ_NotSaghar, prueba binomial de una cola sin empates). El análisis de consistencia de una molécula de ejemplo contenida en los datos novedosos (DQA1*03:01-DQB1*03:02) se muestra en la Fig. 2 complementaria, lo que ilustra que, en la mayoría de los casos, la consistencia de motivo mejorada se debe a un mayor recuento de péptidos en muestras (consulte las tablas complementarias 2 y 3).

Además, los motivos de unión a HLA-DQ obtenidos por deconvolución de motivo de los nuevos datos de MS se visualizaron, junto con motivos de secuencia basados ​​en aglutinantes predichos, en la Fig. 3 complementaria. Aquí, los logotipos obtenidos por deconvolución de motivo son en la mayoría de los casos muy similares cuando se comparan los modelos entrenados con y sin los nuevos datos. Sin embargo, los logotipos de secuencia predichos basados ​​en los péptidos naturales aleatorios de mayor puntuación indican que el modelo entrenado sin los nuevos datos de DQ no ha podido aprender completamente los motivos de unión correctos de todas las nuevas moléculas de DQ, especialmente con respecto a las preferencias de aminoácidos P1. Para cuantificar estos resultados, se calcularon las correlaciones entre los logotipos desconvolucionados y predichos para cada método (Fig. 4 complementaria). Este análisis mostró una correlación significativamente mayor para el método, incluidos los datos novedosos (p = 0,011, n = 16 pares de logotipos, prueba binomial de una cola sin empates), lo que indica una correspondencia muy consistente entre los motivos de unión identificados y predichos.

Juntas, estas observaciones demuestran que la incorporación de los datos novedosos de HLA-DQ ha permitido una identificación enriquecida de los ligandos peptídicos de HLA-DQ, rescatando péptidos asignados de otro modo a moléculas DR/DP alternativas, lo que da como resultado una consistencia de deconvolución de motivo mejorada y un poder predictivo mejorado.

Los resultados anteriores se complementaron con una comparación con un modelo entrenado que incluía los datos novedosos usando la codificación del contexto del péptido. En resumen, la codificación de contexto se refiere a un escenario en el que la información de las regiones que flanquean el péptido se extrae de la secuencia de proteína de origen y se incluye como entrada adicional al modelo de aprendizaje automático. En línea con lo que se ha demostrado anteriormente2,27,31, los resultados de esta comparación (Figura 5 complementaria) demostraron que el modelo entrenado incluyendo el contexto superó significativamente al modelo entrenado sin contexto en todas las métricas de rendimiento y subconjuntos de datos (la única excepción es el subconjunto DQ_NotSaghar). Sin embargo, dado que el enfoque principal de la parte restante del manuscrito es investigar la desconvolución del motivo y el papel del emparejamiento de cadenas α y β DQ cis versus trans solo en este contexto, nos enfocamos en el modelo más simple entrenado sin información de contexto a partir de aquí.

En las líneas celulares heterocigotas DQ, se pueden observar, en principio, cuatro posibles emparejamientos de cadenas α-β. Para los llamados cis-heterodímeros, las cadenas α y β se expresan en el mismo cromosoma y, por lo tanto, pueden observarse en la secuenciación de haplotipos. Las moléculas DQ formadas por el emparejamiento de cadenas α y β entre cromosomas se denominan trans-heterodímeros. Algunos emparejamientos α-β no se han observado como codificados en cis (basado en grandes estudios de población de secuenciación de haplotipos HLA) y, por lo tanto, aquí se los denomina combinaciones "solo trans". Para evaluar la contribución relativa de los heterodímeros DQ solo cis y trans en la configuración del inmunopeptidoma, investigamos la distribución de péptidos asignados a moléculas DQ codificadas solo cis versus trans en conjuntos de datos heterocigóticos DQ para los dos modelos. Aquí, solo se consideraron los conjuntos de datos con al menos 100 péptidos anotados por DQ, excluyendo la basura en ambos métodos (para obtener una descripción general de los conjuntos de datos utilizados en este análisis, consulte la Tabla complementaria 4). Luego se calculó la proporción de péptidos anotados por DQ asignados a cada molécula para cada conjunto de datos que contenía esa molécula. Finalmente, se informó la fracción peptídica media por conjunto de datos para cada molécula de DQ, y luego se investigó la distribución de estas medias para las moléculas en cuatro categorías. Estas categorías son todas las variantes cis, cis-SA (variantes cis que forman parte de los datos de entrenamiento DQ de un solo alelo), cis-MA (variantes cis que forman parte de los datos de entrenamiento de DQ multialélicos) y variantes solo trans.

El resultado de este análisis se muestra en la Fig. 4a para los dos modelos e indica que para el método que incluye los datos novedosos, las moléculas solo trans cubren consistentemente una pequeña proporción de las anotaciones DQ en cada línea celular. Por otro lado, las moléculas cis generalmente tienen una alta contribución, siendo las moléculas cis-SA las que tienen la mayor contribución. Sin embargo, también se encontró que las moléculas cis-MA tenían una contribución significativamente mayor en comparación con las moléculas solo trans en el modelo que incluye los datos novedosos (t = 3,07, p = 0,005, n = 18 moléculas cis-MA y n = 12 trans -solo moléculas, prueba t de dos colas). Se encontraron resultados similares al extender la categoría cis-SA para incluir moléculas cis-MA con la misma pseudosecuencia que una molécula cis-SA (Fig. 6 complementaria). Además, se observó una mayor contribución general de moléculas solo trans a las anotaciones de péptidos DQ para el modelo entrenado sin los datos novedosos (t = 2.1, p = 0.03, n = 12 moléculas, prueba t de un solo lado emparejado). Estos resultados son sorprendentes, ya que indican que la deconvolución del motivo en el modelo que incluye los datos novedosos no está impulsada únicamente por las moléculas cis-SA, sino más bien por una preferencia general por las variantes codificadas en cis en comparación con las variantes solo trans (ver Complemento Figs. 7 y 8).

una contribución de recuento de péptidos de moléculas solo cis y trans en los métodos con (w_Saghar_DQ) y sin (wo_Saghar_DQ) los datos novedosos. Cada punto muestra la fracción peptídica media por conjunto de datos para una molécula de DQ determinada. Para cada método, las moléculas solo trans se muestran en un gráfico de caja (n = 12), mientras que las moléculas cis se muestran en tres categorías, a saber, todas las moléculas cis (Cis-All, n = 29), las moléculas cis que se encuentran en el DQ-SA datos de entrenamiento (Cis-SA, n = 11) y moléculas cis que solo se encuentran en los datos de entrenamiento DQ-MA (Cis-MA, n = 18). Cada diagrama de caja muestra la mediana dentro del IQR entre los cuartiles superior e inferior, con bigotes que se extienden hasta 1,5 veces el IQR como máximo. b Desconvolución del motivo DQ para el conjunto de datos Racle__TIL1. Las filas corresponden a los métodos entrenados con (wSag) y sin (woSag) los datos novedosos, respectivamente. Los recuentos de péptidos (excluidos los péptidos basura) se muestran entre paréntesis en los títulos de los gráficos del logotipo. Las moléculas solo trans se resaltan en marcos rojos.

Para investigar esto más a fondo, la deconvolución del motivo DQ de los dos modelos para el conjunto de datos Racle__TIL1 se muestra en la Fig. 4b. Aquí, el modelo entrenado sin los nuevos datos asigna una gran proporción de péptidos (170 de 425) a HLA-DQA1*01:01-DQB1*03:01, que es una molécula solo trans que se sabe que no forma un heterodímero estable12 ,13. Por otro lado, en el modelo entrenado con los datos novedosos, casi no se asignan péptidos a esta molécula (20 de 459). En cambio, los péptidos se asignan a la molécula cis HLA-DQA1*03:03-DQB1*03:01. Tenga en cuenta, también, que para ambos modelos, una proporción muy pequeña de péptidos se asigna a HLA-DQA1*03:03-DQB1*05:01, otro heterodímero solo trans que se sabe que es inestable12,13.

En general, estos resultados demuestran que el modelo que incluye los nuevos datos de DQ permite una deconvolución de motivos adecuada con una asignación limitada de péptidos a moléculas HLA-DQ solo trans. Además, la proporción muy baja de péptidos asignados a moléculas solo trans, combinada con el aumento general del volumen de péptidos HLA-DQ y la consistencia del motivo del modelo entrenado, incluidos los datos novedosos, sugiere fuertemente que las moléculas HLA-DQ solo trans se han limitado a ninguna contribución al inmunopeptidoma total de HLA-DQ. Sin embargo, es importante subrayar que las predicciones están muy influenciadas por los datos de entrenamiento de SA (ilustrado por la contribución dominante de la categoría cis-SA). Como tal, no podemos descartar por completo que el bajo número de anotaciones hacia los heterodímeros solo trans pueda verse afectado por la falta de datos de entrenamiento de SA para estas moléculas o una similitud de secuencia más baja con las moléculas cis-SA en comparación con la de los cis- moléculas MA.

Cuando comparamos la distribución de longitudes de los ligandos peptídicos DQ en los datos novedosos con péptidos restringidos por HLA-DR que se purificaron del mismo conjunto de BLCL23, se reveló que los ligandos DQ eran en general más cortos que los ligandos DR (consulte la Fig. 9). Al comparar las longitudes peptídicas medianas por molécula para los dos loci, se encontró una diferencia significativa (t = 2,4, p < 0,03, n = 17 moléculas DR y n = 14 moléculas DQ, prueba t bilateral), con DR y DQ que tiene medianas de longitud de péptido promedio de 15,41 y 14,93, respectivamente. Este análisis indica que las moléculas HLA-DQ generalmente se unen a péptidos más cortos en comparación con HLA-DR. Además, en contraste con los alelos HLA-DQ que son más consistentes en sus preferencias de longitud de péptido, varias moléculas HLA-DR muestran diferencias sutiles en sus preferencias de longitud23. Por ejemplo, HLA-DR*07:01, 09:01 y 14:01 muestran preferencia por péptidos más cortos (14 mer), mientras que la mayoría de los alelos DR siguen la preferencia de longitud común de clase II (15 mer).

A continuación, queríamos evaluar la cantidad de moléculas DQ presentes en las predicciones de validación cruzada de cada modelo que se cubrieron adecuadamente (es decir, se asignó una gran cantidad de péptidos durante el entrenamiento) y, por lo tanto, se espera que los modelos alcancen un poder predictivo preciso. . El recuento de péptidos para una molécula de DQ dada se estimó como la suma acumulada de péptidos de cada línea celular que contenía esa molécula (excluyendo los péptidos basura). Aquí, solo se incluyeron en su conteo los péptidos anotados en moléculas DQ en una línea celular determinada correspondientes a al menos el 5% del número total de péptidos DQ (esto se hizo para evitar la acumulación de ruido de conteo bajo). Entonces se dijo que una molécula DQ dada estaba cubierta si el recuento total de péptidos en todas las líneas celulares era de al menos 100. Este análisis dio como resultado que el modelo entrenado cubriera 24 moléculas DQ, incluidos los datos novedosos, y 23 al excluir estos datos. . Ninguna de las 24 moléculas DQ cubiertas por el modelo, incluidos los datos novedosos, resultó ser solo trans, mientras que el modelo sin los datos novedosos cubría dos moléculas DQ solo trans, a saber, HLA-DQA1*01:01-DQB1*03: 01 (como se describió anteriormente) y HLA-DQA1*01:03-DQB1*03:02. De las 21 moléculas restantes, 20 se incluyeron en las moléculas cubiertas por el modelo entrenado con los nuevos datos.

Dados los diferentes conjuntos de moléculas cubiertos por los dos métodos, queríamos estimar la cobertura de cada método al considerar todo el espacio de especificidad DQ. Como tal, para cada uno de los dos métodos, investigamos la proporción de 154 moléculas DQ predominantes que tenían una distancia de como máximo 0,025 a una molécula cubierta por el modelo (este conjunto de moléculas se denomina aquí "cobertura extendida"). Para obtener detalles sobre cómo se determinó esta distancia y cómo se definió la lista de moléculas DQ prevalentes, consulte materiales y métodos. El umbral de 0,025 se eligió en función de la distancia a la que el modelo entrenado sin los nuevos datos podría alcanzar un rendimiento óptimo en moléculas que no forman parte de los datos de entrenamiento DQ-SA del método (consulte la Fig. 10 complementaria). Tenga en cuenta, también, que 0.025 es un umbral de distancia conservador, y que esperamos que el modelo mantenga la precisión también para las moléculas que caen más allá de este valor32.

A partir de este análisis, se encontró una ganancia significativa en la cobertura ampliada (χ2 = 4,73, p < 0,03, n = 154 moléculas, prueba de chi-cuadrado), con el modelo que incluye los datos novedosos que cubren 94 de 154 moléculas, mientras que el modelo sin los nuevos datos solo cubrieron 75 de 154 moléculas (consulte las Tablas complementarias 5 y 6 para obtener una lista de moléculas DQ cubiertas y no cubiertas para el modelo entrenado, incluidos los datos nuevos). Al comparar las moléculas cubiertas y no cubiertas para el método, incluidos los datos novedosos, el grupo no cubierto tenía datos de frecuencia de haplotipos en todo el mundo significativamente más bajos que los obtenidos de Allelefrequencies.net (para obtener detalles sobre cómo se obtuvieron estas frecuencias, consulte el material y los métodos) en comparación con el grupo cubierto (las frecuencias promedio para los dos grupos fueron 0,0134 y 0,0025, t = 2,69, p = 0,0083, n = 94 moléculas cubiertas y n = 60 moléculas no cubiertas, prueba t de Student bilateral). Estos resultados sugieren que las moléculas de DQ no cubiertas tienen una importancia limitada desde el punto de vista de la cobertura de la población.

Para visualizar la cobertura del espacio DQ, se construyó un árbol de especificidad. Aquí, usamos la lista de 154 moléculas HLA-DQ predominantes como punto de partida. Esta lista se redujo primero a un conjunto de 61 moléculas con especificidades únicas (para más detalles, consulte los métodos) que se incluyeron en el análisis posterior. A continuación, se construyó un árbol de especificidad que abarcaba las 61 moléculas DQ aplicando el método MHCCluster33. En resumen, el método MHCCluster estima la similitud entre dos moléculas MHC utilizando la correlación entre los valores de unión predichos para un gran conjunto de péptidos naturales aleatorios. La Figura 5 muestra el árbol de especificidad resultante junto con los motivos de unión predichos para las 14 moléculas DQ novedosas. El árbol muestra una amplia cobertura del espacio DQ, ya que todas las moléculas nuevas se distribuyen de manera más o menos uniforme en las diferentes ramas del árbol, y todas las ramas están cubiertas por una o más moléculas DQ a corta distancia de las moléculas DQ cubiertas por el árbol. datos de entrenamiento. Además, se observaron algunos subgrupos de moléculas no cubiertas (resaltadas por motivos en marcos rojos), que se correspondían casi uno a uno con los grupos no cubiertos en un árbol filogenético de las pseudosecuencias DQ (ver Figura complementaria 11).

El árbol se basa en 61 moléculas DQ, incluidas las 14 moléculas descritas por los nuevos datos. Las moléculas naranjas están cubiertas por el método, incluidos los datos novedosos con al menos 100 péptidos, y las moléculas azules están a una distancia de 0,025 de una molécula naranja. Las moléculas negras no están cubiertas (es decir, tienen un recuento de péptidos <100 y una distancia >0,025 a una molécula naranja). Los logotipos en marcos negros corresponden a moléculas naranjas. Los logotipos en marcos rojos corresponden a moléculas de ramas con grupos de moléculas no cubiertas (negras). El árbol de especificidad se calculó a partir de las similitudes por pares entre las puntuaciones de las predicciones para las moléculas DQ para un conjunto de 100.000 péptidos 13-17mer naturales aleatorios. Se construyeron logotipos para el 1 % de los núcleos de unión con la puntuación más alta para estos 100 000 péptidos.

El modelo desarrollado aquí, incluidos los nuevos datos del inmunopeptidoma DQ, está disponible públicamente en https://services.healthtech.dtu.dk/services/NetMHCIIpan-4.2. El método permite la predicción de la presentación del antígeno HLA a todas las moléculas HLA-DQ, y la predicción se puede realizar con o sin codificación de contexto.

Como muestra final del poder de deconvolución del motivo de nuestro método para DQ, comparamos nuestro método con MixMHC2pred-2.0, otro predictor HLA clase II que se publicó recientemente7. Los datos de referencia se tomaron de Marcu et al.34 y consisten en datos de ligandos eluidos de 15 muestras de donantes, que se enriquecieron con péptidos negativos aleatorios (para obtener más detalles sobre los datos de referencia, consulte materiales y métodos y consulte la Tabla complementaria 7 para obtener una descripción general). de las muestras utilizadas).

Primero evaluamos el rendimiento de los dos métodos sin incluir información de contexto de péptido. La Figura 6a muestra este rendimiento por muestra en todos los datos, lo que indica que nuestro método supera significativamente a MixMHC2pred-2.0 en el conjunto de datos independiente en las tres métricas (p < 0,02 en todas las métricas, n = 15 muestras, prueba binomial de una cola sin empates) . Además, la Fig. 6b muestra el rendimiento por muestra restringida a la unión de péptidos anotados hacia DQ por cualquiera de los métodos, mostrando una vez más una mejora significativa en el rendimiento a favor de NetMHCIIpan-4.2 (p < 0,005 en todas las métricas, n = 15 muestras, una prueba binomial de colas sin empates). La repetición del punto de referencia, incluida la codificación del contexto peptídico, también dio como resultado que nuestro método superara significativamente a MixMHC2pred-2.0 (p < 0,005 en todas las métricas para los datos completos y p = 3·10−5 en todas las métricas para la unión de péptidos anotados por DQ, n = 15 muestras, pruebas binomiales de una cola sin empates (ver Fig. 12 complementaria)). Cabe señalar que ambos métodos identificaron una gran proporción de péptidos basura con rangos percentiles > 20 en los datos (~21 % y ~32 % para NetMHCIIpan-4.2 y MixMHC2pred, respectivamente). Esto sugiere una mala calidad de los datos en general, lo que produce un rendimiento sustancialmente más bajo que el observado en nuestra validación cruzada. Por lo tanto, el rendimiento de estos datos no es un indicador real del poder predictivo de cada método. Sin embargo, la ganancia de rendimiento general de nuestro método en comparación con MixMHC2pred-2.0 sugiere que NetMHCIIpan-4.2 es más potente en la desconvolución del motivo y la identificación de ligandos DQ.

Las predicciones se realizaron sin codificación de contexto peptídico en ambos métodos. Cada punto es la métrica de rendimiento para una muestra dada. Cada diagrama de caja (n = 15 muestras en todos los casos) muestra la mediana dentro del IQR entre los cuartiles superior e inferior, con bigotes que se extienden hasta 1,5 veces el IQR como máximo. a Rendimiento por muestra calculado sobre los datos completos. b Rendimiento por muestra calculado sobre la unión de péptidos anotados por DQ entre los dos métodos.

Al investigar la desconvolución del motivo de nuestro método en las muestras de heterocigotos DQ, observamos que las moléculas solo trans una vez más tenían una contribución limitada o nula (ver la Fig. 13a complementaria). En términos de las variantes cis observadas que se encuentran en los datos de entrenamiento DQ-SA o DQ-MA (cis-SA y cis-MA, respectivamente), las moléculas cis-SA tuvieron la mayor contribución, y cis-MA tuvo una contribución significativamente mayor que la variantes solo trans (t = 4,64, p = 0,0002, n = 12 moléculas cis-MA y n = 7 moléculas solo trans, prueba t bilateral). Se encontraron resultados similares al tener en cuenta las moléculas cis-MA con la misma pseudosecuencia que una molécula cis-SA (Fig. 13b complementaria). Este resultado contrasta con lo que se observó para MixMHC2pred, donde se observó una contribución casi igual en las diferentes clases de moléculas. La Figura complementaria 13c, d muestra la desconvolución del motivo DQ para las muestras heterocigóticas de Marcu et al. 202134 por nuestro método y MixMHC2pred, respectivamente. Estas deconvoluciones de motivo reflejan en general los resultados descritos anteriormente, con un número muy limitado de péptidos asignados a variantes solo trans por NetMHCIIpan-4.2, y una contribución casi uniforme a todas las moléculas DQ por MixMHC2pred-2.0.

En este trabajo, hemos demostrado cómo la generación racional de datos combinada con la minería de datos inmunoinformática refinada puede impulsar el rendimiento de las predicciones de presentación de antígenos HLA clase II y avanzar hacia el cierre de la brecha de rendimiento entre HLA-DR y HLA-DQ.

Generamos datos de inmunopeptidómica de EM de alta calidad a partir de una serie de 16 líneas celulares homocigotas HLA-DQ que cubren un total de 14 moléculas HLA-DQ frecuentes en diferentes poblaciones de todo el mundo. El uso de un anticuerpo específico de HLA-DQ interno permitió la identificación de conjuntos de datos de inmunopeptidómica de EM de un volumen sin precedentes, en un contexto de DQ, con un promedio de 2600 péptidos únicos identificados en cada línea celular. La integración de este gran volumen de datos con datos anteriores del desarrollo de NetMHCIIpan-4.1 nos permitió aumentar el rendimiento predictivo de la presentación del antígeno HLA-DQ a un nivel comparable al de HLA-DR. La investigación de la precisión de la deconvolución del motivo de los dos métodos entrenados con y sin los nuevos datos demostró una consistencia general mejorada del motivo en todas las moléculas HLA. Esta observación demuestra cómo la integración de los nuevos datos de HLA-DQ da como resultado una asignación de restricción de HLA mejorada en general de los péptidos de MS-HLA individuales que conducen a caracterizaciones de motivos más precisas en los tres loci de clase II de HLA. Se demostró que la principal fuente de esta mejora es un mayor volumen de asignación de péptidos a moléculas HLA-DQ durante la desconvolución del motivo. Esto dio como resultado una precisión de motivo mejorada tanto para HLA-DQ impuesta por el mayor volumen de péptidos como para moléculas que no son HLA-DQ mediante la eliminación de péptidos mal asignados como DQ restringidos por el modelo sin incluir los nuevos datos de DQ.

A continuación, pasando al tema de las combinaciones de cadenas α y β de HLA-DQ solo cis versus trans, demostramos que, en contraste con el método sin los datos novedosos, el modelo entrenado que incluía los datos novedosos realizó la deconvolución del motivo DQ casi exclusivamente. utilizando variantes HLA-DQ cis conocidas. Un ejemplo particular aquí fue la molécula HLA-DQ DQA1*01:01-DQB1*03:01, a la que se le asignó una gran cantidad de péptidos en el modelo entrenado sin los nuevos datos. Sin embargo, al incluir los nuevos datos, la asignación de péptidos a esta molécula se agotó casi por completo. Este resultado, combinado con el aumento general del volumen del péptido HLA-DQ y la consistencia del motivo del modelo entrenado, incluidos los nuevos datos, sugiere fuertemente que las combinaciones de HLA-DQ α y β solo trans tienen una contribución mínima o nula al inmunopeptidoma total de HLA-DQ. Este hallazgo es sorprendente ya que la definición de dimerización solo cis y trans definida aquí sigue precisamente las reglas propuestas anteriormente para formar heterodímeros HLA-DQ estables/inestables. Específicamente, las reglas indican que las restricciones estructurales no favorecen la dimerización de DQA1*01 con los alelos DQB1*02, 03 y 04, lo que resulta en su ensamblaje ineficiente, falta de estabilidad y expresión superficial y, por lo tanto, pérdida de función12,14. Estos resultados demuestran cómo tales reglas pueden aprenderse directamente de los datos del inmunopeptidoma de MS utilizando métodos de extracción de datos personalizados y conjuntos de datos definidos racionalmente, lo que sugiere que tipos similares de análisis deben extenderse a HLA-DP para mejorar nuestra comprensión de cis versus trans α- y apareamiento de cadenas β.

Como solo las variantes cis-DQ están representadas en los datos de entrenamiento de SA, no podemos descartar por completo que el bajo número de anotaciones hacia moléculas solo trans se deba a un sesgo de datos de entrenamiento. Este sesgo potencial también se ilustra por el hecho de que para las muestras que contienen múltiples moléculas cis-DQ, nuestro método anotó consistentemente menos péptidos en las variantes cis no cubiertas por los datos de entrenamiento DQ-SA. Dado esto, sería de gran valor generar conjuntos de datos SA para moléculas DQ adicionales actualmente solo cubiertas por datos cis-MA para descubrir la verdadera diferencia en las preferencias de péptidos y las jerarquías de presentación para estas variantes. Además, el conjunto de datos de MA independiente que se usó como referencia frente a MixMHC2pred era muy ruidoso y, por lo tanto, no brindaba la mejor representación del poder predictivo de cada método. Como tal, se necesitan conjuntos de datos DQ-MA de alta calidad adicionales para validar y comparar aún más el poder predictivo de los diferentes métodos, y para evaluar qué enfoque de método para el manejo de variantes solo trans es mejor.

Tenga en cuenta que la definición de combinaciones de cadenas α y β de HLA-DQ solo cis y trans aplicadas en este trabajo depende de los datos de haplotipos actuales disponibles y de la suposición de que todas las combinaciones de haplotipos α y β observadas pueden emparejarse y formar cis- variantes, y todas las demás combinaciones no observadas como tales variantes cis son solo trans. Los datos actuales que definen estas categorías tienen un volumen limitado y se requieren tamaños de muestra más grandes para realizar análisis más precisos, en particular para los grupos más heterogéneos y los haplotipos de baja frecuencia13.

Por último, demostramos cómo los modelos entrenados con los nuevos datos aumentaron en gran medida la cobertura de las moléculas HLA-DQ e ilustramos esto mediante la construcción de un árbol HLA-DQ que muestra la cobertura de todas las ramas. Esto sugiere que el modelo actual cubre todas las especificidades de unión de HLA-DQ (considerando que las moléculas HLA-DQ solo trans tienen una contribución limitada o nula al inmunopeptidoma general de HLA-DQ).

En general, este trabajo ha demostrado cómo se puede aplicar la generación cuidadosa de datos utilizando un anticuerpo específico de DQ y la purificación por afinidad combinada con una minería de datos refinada y una desconvolución de motivos para cerrar la brecha de rendimiento en la predicción de unión de péptidos entre HLA-DR y HLA-DQ. A pesar de la gran ganancia de rendimiento demostrada aquí, la precisión de HLA-DQ permanece por debajo de lo que se observa para DR. Demostramos que esto, en gran medida, se puede atribuir a la cantidad y calidad generalmente más baja de los ligandos obtenidos en estudios anteriores de inmunoprecipitación de DQ en los que, con mayor frecuencia, los datos de DQ (y DP) se obtuvieron utilizando un anticuerpo pan-HLA clase II (después de la primera empobrecimiento de HLA-DR29). Centrándonos únicamente en los nuevos datos generados en este estudio, encontramos que tanto la cantidad como la calidad de los ligandos DQ obtenidos están a la par con lo que se encuentra para HLA-DR, lo que da como resultado que el rendimiento predictivo para el conjunto de datos asociado sea igual entre los dos. Este resultado tiene un gran impacto y sugiere que el modelado de DQ es una tarea de igual complejidad que la de HLA-DR, y que el menor rendimiento actual de DQ en comparación con DR se debe a la baja cantidad y calidad de los datos; una situación que se puede resolver mediante la generación de datos de alta calidad y volumen como se describe en este estudio.

En conclusión, además de demostrar un desempeño predictivo general mejorado y una cobertura de las moléculas HLA-DQ, un resultado clave de nuestro trabajo es una mejor comprensión de la contribución relativa de las moléculas cis frente a las trans solo en el inmunopeptidoma total de HLA-DQ que demuestra una papel muy limitado de este último en la complementación del espacio de especificidad. Creemos que estos hallazgos proporcionarán una base para futuras investigaciones que definan el papel molecular de HLA-DQ en el inicio de la inmunidad celular en enfermedades autoinmunes e infecciosas.

Las líneas de células linfoblastoides B homocigotas (BLCL) se obtuvieron del banco de células y ADN del Grupo de Trabajo Internacional de Histocompatibilidad (IHWG) alojado en el Centro de Investigación del Cáncer Fred Hutchinson, Seattle, WA (http://www.ihwg.org). Se seleccionó para el estudio un grupo de 16 líneas celulares que expresan los alelos HLA-DQ de alta frecuencia (Datos complementarios 1). Para garantizar una maquinaria de presentación y procesamiento de clase II intacta y para garantizar que la expresión total de HLA-DQ represente el nivel fisiológico, se evitó el uso de células modificadas.

Las células se cultivaron en cultivos de alta densidad en frascos giratorios en medio RPMI completo (Gibco) suplementado con suero bovino fetal al 15 % (FBS; Gibco/Invitrogen Corp) y piruvato de sodio 100 mM al 1 % (Gibco). Las células se recogieron de la suspensión, se lavaron con PBS y se centrifugaron a 4 °C durante 10 min. Los sedimentos celulares se congelaron inmediatamente en LN2 y se almacenaron a -80ºC hasta el procesamiento posterior23. Todas las líneas celulares se sometieron a tipificación HLA de alta resolución (HLA-A, -B, -C, DRB1,3, 4, 5, DP y DQ) inmediatamente después de su recepción y crecimiento en nuestro laboratorio, para la autenticación previa al cultivo a gran escala. y recopilación de datos. El anticuerpo monoclonal específico anti-humano HLA-DQ se produjo internamente a partir de una línea celular de hibridoma (clon SPVL3) y se usó para la purificación por afinidad del HLA DQ total de los BLCL.

Las moléculas de HLA-DQ se purificaron de las células mediante cromatografía de afinidad usando el anticuerpo específico anti-humano HLA-DQ (clon SPVL3). Las columnas de inmunoafinidad se generaron acoplando 2 mg del anticuerpo purificado a 1 ml de matriz (CNBr-activated Sepharose 4 Fast Flow, Amersham Pharmacia Biotech, Orsay, Francia)23. Los sedimentos de células congeladas se pulverizaron utilizando Retsch Mixer Mill MM400, se resuspendieron en tampón de lisis compuesto por Tris pH 8,0 (50 mM), Igepal, 0,5 %, NaCl (150 mM) y cóctel inhibidor de proteasa completo (Roche, Mannheim, Alemania) y se incubaron a 4 C durante 1 h en un agitador rotatorio. Los lisados ​​se centrifugaron en una ultracentrífuga Optima XPN-80 (Beckman Coulter, IN, EE. UU.) a 4 °C durante 90 min (200 000 xg). Los sobrenadantes aclarados se filtraron usando un filtro de 0,45 µm y se cargaron en columnas de inmunoafinidad durante la noche a 4 °C. Las columnas se lavaron secuencialmente con 10 cv de tampones de lavado a pH: 8,026 y se eluyeron con ácido acético 0,2 N. El HLA se desnaturalizó y los péptidos se aislaron añadiendo ácido acético glacial (hasta un 10 %) y calor (76 C durante 10 min). La mezcla de péptidos y HLA-DQ se sometió a cromatografía líquida de alta resolución (RP-HPLC) de fase inversa.

Se usó RP-HPLC para reducir la complejidad de la mezcla peptídica eluida de la columna de afinidad. Primero, el eluato se secó al vacío utilizando un concentrador CentriVap (Labconco, Kansas City, Missouri, EE. UU.). El residuo sólido se disolvió en ácido acético al 10% y se fraccionó en una columna Gemini C18 de 150 mm de largo, tamaño de poro 110 Å, tamaño de partícula 5 µm (Phenomenex, Torrance, California, EE. UU.) utilizando un instrumento Paradigm MG4 (Michrom BioResources, Auburn , California, EE.UU). Se corrió un gradiente de acetonitrilo (ACN) a pH 2 usando un sistema de dos solventes. El solvente A contenía 2% de ACN en agua y el solvente B contenía 5% de agua en ACN. Tanto el disolvente A como el disolvente B contenían ácido trifluoroacético (TFA) al 0,1 %. La columna se preequilibró al 2 % de disolvente B. La muestra se cargó en la columna en un período de 18 min utilizando un sistema de disolvente compuesto por 2 % de disolvente B a un caudal de 120 µl/min. Luego, se corrió un gradiente de dos segmentos a una velocidad de flujo de 160 µl/min: 4 a 40 % de solvente B durante 40 min, seguido de 40 a 80 % de solvente B durante 8 min23. Las fracciones se recolectaron en intervalos de 2 min usando un colector de fracciones Gilson FC 203B (Gilson, Middleton, Wisconsin, EE. UU.), y el perfil de absorción ultravioleta (UV) del eluato se registró a una longitud de onda de 215 nm.

Las fracciones de HPLC que contenían péptidos se secaron y se resuspendieron en un disolvente compuesto por ácido acético al 10 %, ACN al 2 % y péptidos iRT (Biognosys, Schlieren, Suiza) como estándares internos. Las fracciones se aplicaron individualmente a una RP-HPLC a nanoescala Eksigent nanoLC 415 (AB Sciex, Framingham, Massachusetts, EE. UU.), incluida una columna trampa Chrom XP C18 de 5 mm de largo y 350 µm de diámetro interno con partículas de 3 µm y poros de 120 Å, y una columna de separación ChromXP C18 de 15 cm de largo (75 µm de diámetro interno) rellena con el mismo medio (AB Sciex, Framingham, Massachusetts, EE. UU.). Se corrió un gradiente de ACN a pH 2,5 utilizando un sistema de dos disolventes. El disolvente A era ácido fórmico al 0,1 % en agua y el disolvente B era ácido fórmico al 0,1 % en ACN al 95 % en agua. La columna se equilibró previamente con un 2 % de disolvente B. Las muestras se cargaron con un caudal de 5 μl/min en la columna trampa y se pasaron por la columna de separación a 300 nl/min con dos gradientes lineales: 10 a 40 % B durante 70 min. , seguido de 40 a 80 % B durante 7 min.

El efluente de la columna se ionizó utilizando la fuente de iones nanospray III de un espectrómetro de masas de tiempo de vuelo cuádruple AB Sciex TripleTOF 5600 (AB Sciex, Framingham, MA, EE. UU.) con el voltaje de la fuente establecido en 2400 V. Análisis dependiente de la información (IDA ) de iones peptídicos se adquirió en base a una exploración de exploración en el modo de iones positivos TOF-MS en un rango de 300 a 1250 m/z durante 0,25 s. Después de cada escaneo de estudio, hasta 22 iones con un estado de carga de 2 a 5 y una intensidad de al menos 200 recuentos por segundo se sometieron a disociación inducida por colisión (CID) para análisis MS en tándem (MS/MS) durante un período máximo de 3,3 s. Se excluyó la selección de un ion particular m/z durante 30 s después de tres experimentos iniciales de MS/MS. Se utilizó energía de colisión dinámica para ajustar automáticamente el voltaje de colisión en función del tamaño y la carga de los iones23. Se utilizó PeakView Software versión 1.2.0.3 (AB Sciex, Framingham, MA, EE. UU.) para la visualización de datos.

Las secuencias de péptidos se identificaron utilizando el software PEAKS Studio 10.5 (Bioinformatics Solutions, Waterloo, Canadá) con una tolerancia de error de masa de precursor de 30 ppm y una tolerancia de error de masa de fragmento de 0,02 Da. Se utilizó una base de datos compuesta por SwissProt Homo sapiens (identificador de taxón 9606) y secuencias de péptidos iRT como referencia para la búsqueda en la base de datos. En la búsqueda en la base de datos se incluyeron modificaciones postraduccionales variables (PTM), que incluyen acetilación, desamidación, formación de piroglutamato, oxidación, aductos de sodio, fosforilación y cisteinilación. Los péptidos identificados se filtraron aún más a una tasa de descubrimiento falso (FDR) del 1 % utilizando el algoritmo de fusión señuelo PEAKS.

Los datos del inmunopéptido consisten en datos de ligando (EL) eluido por MS y datos de afinidad de unión (BA) del NetMHCIIpan-4.1 anterior combinados con los datos de EL generados específicamente para este estudio (ver arriba). El nuevo conjunto de datos de inmunopeptidoma de MS cubre 14 moléculas HLA-DQ diferentes obtenidas de 16 BLCL homocigóticos. Estos datos se filtraron para excluir posibles aglutinantes de HLA de clase I y otros contaminantes coinmunoprecipitados, lo que dio como resultado una lista de péptidos de longitud 12-2123.

Los datos de EL se asignaron al proteoma fuente de referencia humano para definir el contexto de la proteína fuente. Se excluyeron los péptidos sin una coincidencia de referencia idéntica, lo que resultó en el descarte de ~4% de los péptidos. Finalmente, los datos de EL se enriquecieron por ID de muestra con péptidos naturales aleatorios asignados como negativos. Este enriquecimiento se realizó tomando muestras de péptidos de 12-21 aminoácidos de longitud de manera uniforme en una cantidad igual a cinco veces el número de péptidos para la longitud más prevalente en los datos positivos de la muestra dada.

Nuestro nuevo conjunto de datos final consta de 39 334 péptidos positivos y 369 313 negativos que cubren 14 moléculas HLA-DQ únicas. Los péptidos positivos de este conjunto de datos están disponibles en Datos complementarios 2. Al fusionar los nuevos datos de EL con los datos anteriores de NetMHCIIpan-4.1 (ampliados para incluir péptidos de 12 aminoácidos de longitud), los datos de EL completos consisten en 480 845 puntos de datos positivos y 4 910 165 negativos de 177 muestras/líneas celulares, y los datos BA consisten en 129.110 puntos de datos.

Los datos se dividieron en cinco subconjuntos para el entrenamiento y la evaluación de métodos de validación cruzada utilizando el enfoque de motivo común35 que fusiona los datos de EL y BA para garantizar que los péptidos que comparten una superposición idéntica de 9 o más aminoácidos consecutivos se coloquen en el mismo subconjunto.

Los modelos se entrenaron utilizando el marco de aprendizaje automático NNAlign_MA31 de manera similar a NetMHCIIpan-4.02. Es decir, el modelo completo consta de un conjunto de 100 redes neuronales de dos arquitecturas diferentes, ambas con una capa oculta y 40 o 60 neuronas ocultas, con 10 inicializaciones de peso aleatorio para cada uno de los 5 pliegues de validación cruzada (2 arquitecturas, 10 semillas, y 5 pliegues). Todos los modelos fueron entrenados utilizando retropropagación con descenso de gradiente estocástico, durante 300 épocas, sin paradas tempranas y una tasa de aprendizaje constante de 0,05. Solo se incluyeron datos de un solo alelo (SA) en el entrenamiento durante un período de quemado de 20 épocas. Los ciclos de entrenamiento posteriores incluyeron datos de alelos múltiples (MA). Se entrenaron dos modelos principales, uno que incluía los datos originales de NetMHCIIpan-4.1 y otro que incluía los nuevos datos de HLA-DQ. Además, se entrenó un modelo adicional con los nuevos datos utilizando la codificación de contexto peptídico. Aquí, el contexto se definió tanto en el N- como en el C-terminal del péptido como tres residuos de la proteína fuente que flanquean el péptido, junto con tres residuos iniciales del péptido, todos concatenados en una secuencia de aminoácidos de 12 unidades. Para más detalles referirse a Barra et al. 201827.

Para los conjuntos de datos de MA, la anotación de HLA para cada péptido se basa en cuál de las moléculas de HLA expresadas en la línea celular dada recibió la puntuación de predicción más alta. Para equilibrar las diferencias entre las distribuciones de puntuación de predicción de HLA, se generaron puntuaciones de predicción normalizadas percentiles para cada molécula clasificando las puntuaciones de predicción frente a una distribución de puntuaciones de predicción de péptidos naturales aleatorios. Como ejemplo, si un ligando peptídico recibe una puntuación de rango percentil de 1, significa que el 1 % de los péptidos aleatorios tuvo una puntuación de predicción más alta que el ligando peptídico para el HLA19,36 dado.

El rendimiento se evaluó en las predicciones del conjunto de pruebas de validación cruzada concatenada utilizando tres métricas separadas, a saber, AUC (área bajo la curva ROC), AUC 0.1 (área bajo la curva ROC integrada hasta una tasa de falsos positivos del 10 %) y valor predictivo positivo (PPV). Cada métrica se calculó por HLA a partir de las puntuaciones de predicción "sin procesar" después de la anotación de HLA. Además, el PPV se calculó como la fracción de verdaderos positivos en las N predicciones principales, donde N es el número de ligandos asignados a una molécula de HLA determinada. Para la evaluación del rendimiento por HLA, solo se incluyeron en la evaluación del rendimiento moléculas HLA con al menos 10 péptidos positivos en ambos modelos, para garantizar un nivel de certeza en las métricas de rendimiento calculadas.

Para evaluar el impacto de los nuevos datos de DQ en la desconvolución del motivo de NNAlign_MA, se realizó un análisis de matriz de correlación de consistencia2. Para evitar posibles péptidos contaminantes coinmunoprecipitados de MS que sesguen este análisis, se eliminó la unión de péptidos basura identificados (es decir, péptidos positivos a los que se les dio un rango percentil >20 en cualquiera de los dos modelos). A continuación, se generó una matriz de puntuación específica de posición (PSSM) para cada molécula en cada línea celular en función de los núcleos de unión de péptidos previstos. Aquí, se requería un mínimo de 20 péptidos positivos para generar un PSSM. Luego, para cada par de líneas celulares que comparten una molécula determinada, se calculó el coeficiente de correlación de Pearson (PCC) entre los PSSM de la molécula. El valor medio de consistencia para una molécula dada se dio luego como el PCC promedio sobre cada par de líneas celulares únicas (excluyendo las autocorrelaciones). Por lo tanto, esta métrica indica qué tan consistentes son los motivos de unión identificados en diferentes conjuntos de datos para cada molécula HLA de clase II.

La distancia entre dos moléculas HLA clase II se estimó a partir de la pseudodistancia de las dos moléculas, es decir

donde s(X, Y) es la similitud BLOSUM 50 sumada entre las pseudosecuencias de la molécula X e Y37. Aquí, cada pseudosecuencia se definió a partir de un conjunto de 34 residuos polimórficos dentro de la secuencia HLA concatenados en una secuencia continua, de los cuales 15 y 19 residuos derivan de la cadena α y β, respectivamente32.

Se construyó una lista de cadenas HLA-DQ α y β que forman heterodímeros HLA-DQ estables predominantes obteniendo primero listas de alelos DQA1 y DQB1 con frecuencias alélicas mundiales anotadas. Esto se hizo consultando la base de datos allelefrequencies.net38 en busca de alelos de alta resolución en poblaciones de tamaño 100 y superior. A continuación, las frecuencias alélicas mundiales se obtuvieron como promedios ponderados del tamaño de la población, limitando el tamaño máximo de la población a 1000. Finalmente, se construyó una lista de moléculas HLA-DQ prevalentes emparejando todas las combinaciones α y β siguiendo las restricciones descritas en la Tabla 1, incluyendo solo las moléculas con una frecuencia alélica combinada >0,00005. Esto resultó en una lista de 154 moléculas HLA-DQ.

Las frecuencias de haplotipos HLA-DQ en todo el mundo se estimaron consultando la base de datos allelefrequencies.net38 en busca de haplotipos DQ de alta resolución en poblaciones de tamaño 100 y superior, el promedio de la población como se describe anteriormente para las frecuencias HLA-DQ.

Se construyó un árbol de especificidad HLA-DQ reduciendo primero la lista de 154 moléculas HLA-DQ predominantes al conjunto de pseudosecuencias únicas entre las moléculas. Luego, cada pseudosecuencia única se mapeó en un nombre de molécula HLA-DQ representativo. De forma predeterminada, se utilizó una molécula DQ en la lista de moléculas cubiertas por los datos de entrenamiento para representar una pseudosecuencia cuando fue posible. Además, las 14 moléculas DQ en los nuevos datos se usaron para representar sus pseudosecuencias dadas. En otros casos de múltiples opciones para una pseudosecuencia dada, se eligió la molécula DQ más prevalente en términos de frecuencia alélica global. A continuación, se calculó el árbol de especificidad mediante el método MHCCluster33 y se visualizó mediante el visor de árboles filogenéticos de Iroki39.

Se construyó un árbol similar basado en la agrupación de las pseudosecuencias DQ. Este árbol se calculó con ClustalW-2.140 usando su función de árbol filogenético, y nuevamente se visualizó usando el visor de árboles de Iroki39.

Para nuestro punto de referencia contra MixMHC2pred-2.07, se tomó un conjunto de datos independiente de Marcu et al.34, que consta de datos de ligandos eluidos de 15 muestras de donantes (enumerados en la Tabla complementaria 7). Estos datos se procesaron de la misma manera que los datos de entrenamiento, es decir, los péptidos se asignaron al proteoma humano para definir el contexto y, posteriormente, se enriquecieron con péptidos negativos aleatorios. Para reducir el sesgo, los péptidos que estaban presentes en los datos de entrenamiento EL de nuestro método no se incluyeron en el punto de referencia. Esto arrojó un total de 163 933 péptidos positivos y 2 900 818 negativos que cubren 66 moléculas únicas de HLA de clase II.

Las predicciones sobre los datos de referencia se realizaron con y sin codificación de contexto peptídico. Para los péptidos ubicados cerca del comienzo o el final de la proteína fuente, los residuos de contexto faltantes se representaron con "-" y "A" en MixMHC2pred-2.0 y nuestro método, respectivamente. Además, tanto en nuestro método como en MixMHC2pred, la anotación de HLA para cada péptido se basó en el puntaje de rango de percentil más bajo informado por el método dado para las moléculas de HLA en la muestra dada.

El rendimiento se evaluó por muestra en términos de AUC, AUC 0,1 y PPV. Para nuestro método, calculamos los valores de rendimiento de la misma manera que en la validación cruzada usando los puntajes de predicción 'sin procesar', mientras que para MixMHC2pred-2.0 el rendimiento se calculó usando sus puntajes de rango percentil informados.

Las visualizaciones de datos en las figuras del manuscrito se realizaron en Python 3.8 usando la biblioteca Matplotlib (versión 3.5.1) y la biblioteca seaborn (versión 0.12.0). Los logotipos de secuencia se construyeron utilizando Seq2Logo-2.041.

Los análisis estadísticos se realizaron en Python 3.8 utilizando la biblioteca scipy (versión 1.9.1). Para cada prueba estadística, el tamaño de la muestra se basó en el número de muestras o moléculas HLA presentes en los datos. Además, en cada prueba se utilizó un nivel de significación estándar de 0,05. Para las evaluaciones de desempeño, las pruebas estadísticas se realizaron principalmente utilizando pruebas binomiales de una cola excluyendo empates. La hipótesis alternativa en estas pruebas es, por lo tanto, que es más probable que el método entrenado con los nuevos datos funcione mejor en una muestra o molécula de HLA determinada que el otro método.

La reproducibilidad de nuestros resultados experimentales y computacionales se aseguró mediante descripciones muy detalladas de los diseños experimentales y la puesta a disposición de todos los conjuntos de datos relevantes (consulte 'Disponibilidad de datos'). Para la generación de datos experimentales, utilizamos dos conjuntos de BLCL homocigóticos diferentes que compartían el mismo alelo HLA-DQ para confirmar la reproducibilidad de los motivos obtenidos para esos alelos (721.221 e IHW09004 compartían el alelo DQA1*01:01-DQB1*05:01 y IHW09072 e IHW9100 compartían el alelo DQA1*04:01-DQB1*04:02).

Más información sobre el diseño de la investigación está disponible en el Resumen de informes de Nature Portfolio vinculado a este artículo.

Los datos de proteómica de espectrometría de masas se depositaron en ProteomeXchange Consortium a través del repositorio de socios PRIDE42 con el identificador de conjunto de datos PXD040860 y 10.6019/PXD040860. La tipificación de HLA para los 16 BLCL utilizados en el estudio se incluye en los Datos complementarios 1. Los nuevos datos de inmunopeptidómica generados para este estudio están disponibles en los Datos complementarios 2. Los datos de fuente numérica utilizados para generar las cifras principales se incluyen en los Datos complementarios 3. El entrenamiento El conjunto de datos utilizado en el estudio se puede descargar del servidor web NetMHCIIpan-4.2 en la página 'Conjuntos de datos de entrenamiento', disponible en https://services.healthtech.dtu.dk/services/NetMHCIIpan-4.2/.

Rocha, N. & Neefjes, J. Moléculas MHC de clase II en movimiento para una presentación exitosa de antígenos. EMBO J. 27, 1–5 (2008).

Artículo CAS PubMed Google Académico

Reynisson, B. et al. Predicción mejorada de la presentación del antígeno MHC II a través de la integración y deconvolución de Motif de datos de ligandos eluidos de MHC de espectrometría de masas. J. Proteoma Res. 19, 2304–2315 (2020).

Artículo CAS PubMed Google Académico

Arango, MT et al. HLA-DRB1 el gen notorio en el mosaico de la autoinmunidad. inmunol. Res. 65, 82–98 (2017).

Artículo CAS PubMed Google Académico

Erlich, H. et al. Haplotipos y genotipos HLA DR-DQ y análisis de riesgo de diabetes tipo 1 de las familias del consorcio de genética de diabetes tipo 1. Diabetes 57, 1084–1092 (2008).

Artículo CAS PubMed Google Académico

Hu, X. et al. Los efectos aditivos y de interacción en tres posiciones de aminoácidos en las moléculas HLA-DQ y HLA-DR impulsan el riesgo de diabetes tipo 1. Nat. Genet 47, 898–905 (2015).

Artículo CAS PubMed PubMed Central Google Scholar

Stepniak, D. et al. La caracterización a gran escala de los ligandos naturales explica las propiedades únicas de unión al gluten de HLA-DQ2. J. Immunol. 180, 3268–3278 (2008).

Artículo CAS PubMed Google Académico

Racle, J. et al. Las predicciones de aprendizaje automático de las especificidades del MHC-II revelan un modo de unión alternativo de los epítopos de clase II. bioRxiv https://doi.org/10.1101/2022.06.26.497561 (2022).

Bergseng, E. et al. Diferentes motivos de unión de las moléculas HLA asociadas a la enfermedad celíaca DQ2.5, DQ2.2 y DQ7.5 revelados por proteómica cuantitativa relativa de repertorios de péptidos endógenos. Inmunogenética 67, 73–84 (2014).

Artículo PubMed PubMed Central Google Académico

Sidney, J. et al. Motivos divergentes pero repertorios de unión superpuestos de seis moléculas HLA-DQ expresadas con frecuencia en la población humana mundial. J. Immunol. 185, 4189–4198 (2010).

Artículo CAS PubMed Google Académico

Vartdal, F. et al. El motivo de unión al péptido de la molécula HLA-DQ asociada a la enfermedad (α 1* 0501, β 1* 0201). EUR. J. Immunol. 26, 2764-2772 (1996).

Artículo CAS PubMed Google Académico

Tollefsen, S. et al. Estudios estructurales y funcionales de la molécula de proteína HLA-DQ2.3 codificada en trans (DQA1*03:01/DQB1*02:01). J. Biol. química 287, 13611–13619 (2012).

Artículo CAS PubMed PubMed Central Google Scholar

Kwok, WW, Kovats, S., Thurtle, P. & Nepom, GT Los polimorfismos alélicos de HLA-DQ restringen los patrones de formación de heterodímeros de clase II. J. Immunol. 150, 2263–2272 (1993).

Artículo CAS PubMed Google Académico

Creary, LE et al. Frecuencias de alelos y haplotipos HLA de alta resolución en varias poblaciones no relacionadas determinadas por secuenciación de próxima generación: informe conjunto del 17º Taller Internacional de HLA e Inmunogenética. Tararear. inmunol. 82, 505–522 (2021).

Artículo CAS PubMed PubMed Central Google Scholar

Petersdorf, EW et al. Heterodímeros HLA-DQ en el trasplante de células hematopoyéticas. Sangre 139, 3009–3017 (2022).

Artículo CAS PubMed Google Académico

Lundin, KE et al. Reconocimiento de linfocitos T de un heterodímero HLA-DQ alfa/beta codificado en cis o trans asociado a la enfermedad celíaca. J. Immunol. 145, 136–139 (1990).

Artículo CAS PubMed Google Académico

Kwok, WW & Nepom, GT Limitaciones estructurales y funcionales de los dímeros HLA de clase II implicados en la susceptibilidad a la diabetes mellitus insulinodependiente. Bailieres Clin. Endocrinol. metab. 5, 375–393 (1991).

Artículo CAS PubMed Google Académico

McFarland, BJ & Beeson, C. Interacciones de unión entre péptidos y proteínas del complejo principal de histocompatibilidad de clase II. Res. media Rev. 22, 168–203 (2002).

Artículo CAS PubMed Google Académico

Nielsen, M., Andreatta, M., Peters, B. & Buus, S. Inmunoinformática: predicción de la unión péptido-MHC. Annu Rev. Biomed. ciencia de datos 3, 191–215 (2020).

Artículo Google Académico

Reynisson, B., Alvarez, B., Paul, S., Peters, B. & Nielsen, M. NetMHCpan-4.1 y NetMHCIIpan-4.0: predicciones mejoradas de la presentación de antígenos MHC mediante deconvolución de motivos concurrentes e integración de datos de ligandos eluidos de MS MHC . Ácidos Nucleicos Res. 48, W449–W454 (2020).

Artículo CAS PubMed PubMed Central Google Scholar

Gfeller, D. & Bassani-Sternberg, M. Predicción de la presentación de antígenos: ¿qué podemos aprender de un millón de péptidos? inmunol frontal. 9, 1716 (2018).

Artículo PubMed PubMed Central Google Académico

Nielsen, M., Lund, O., Buus, S. & Lundegaard, C. Algoritmos predictivos de epítopos MHC Clase II. Inmunología 130, 319–328.

Artículo CAS PubMed PubMed Central Google Scholar

Bassani-Sternberg, M. et al. Identificación directa de neoepítopos clínicamente relevantes presentados en tejido de melanoma humano nativo mediante espectrometría de masas. Nat. común 7, 13404 (2016).

Artículo CAS PubMed PubMed Central Google Scholar

Kaabinejadian, S. et al. La desconvolución precisa del motivo MHC de los datos de inmunopeptidómica revela una contribución significativa de DRB3, 4 y 5 al inmunopeptidoma DR total. inmunol frontal. 13, 835454 (2022).

Artículo CAS PubMed PubMed Central Google Scholar

Alvarez, B., Barra, C., Nielsen, M. & Andreatta, M. Herramientas computacionales para la identificación e interpretación de motivos de secuencia en inmunopeptidomas. Proteómica 18, 1700252 (2018).

Artículo Google Académico

Carón, E. et al. Análisis de inmunopeptidomas del complejo mayor de histocompatibilidad (MHC) mediante espectrometría de masas. mol. Celúla. Proteoma. 14, 3105–3117 (2015).

Artículo CAS Google Académico

Purcell, AW, Ramarathinam, SH y Ternette, N. Identificación basada en espectrometría de masas de péptidos unidos al MHC para inmunopeptidómica. Nat. Protocolo 14, 1687–1707 (2019).

Artículo CAS PubMed Google Académico

Barra, C. et al. Las huellas del procesamiento de antígenos impulsan las predicciones de ligandos naturales del MHC de clase II. Genoma Med 10, 84 (2018).

Artículo CAS PubMed PubMed Central Google Scholar

Pablo, S. et al. Determinación de un motivo de escisión predictivo para ligandos de clase II del complejo principal de histocompatibilidad eluidos. Frente. inmunol. 9, 1795 (2018).

Artículo PubMed PubMed Central Google Académico

Racle, J. et al. Predicción robusta de epítopos HLA de clase II mediante deconvolución de motivos profundos de inmunopeptidomas. Nat. Biotecnología. 37, 1283–1286 (2019).

Artículo CAS PubMed Google Académico

Wang, P. et al. Predicciones de unión de péptidos para moléculas HLA DR, DP y DQ. BMC Bioinforma. 11, 568 (2010).

Artículo Google Académico

Álvarez, B. et al. NNAlign_MA; Desconvolución del peptidoma del MHC para una caracterización precisa del motivo de unión del MHC y mejores predicciones de epítopos de células T. mol. Celúla. Proteoma. 18, 2459–2477 (2019).

Artículo CAS Google Académico

Karosiene, E. et al. NetMHCIIpan-3.0, un método común de predicción de MHC de clase II panespecífico que incluye los tres isotipos de MHC de clase II humanos, HLA-DR, HLA-DP y HLA-DQ. Inmunogenética 65, 711–724 (2013).

Artículo CAS PubMed Google Académico

Thomsen, MCF, Lundegaard, C., Buus, S., Lund, O. y Nielsen, M. MHCcluster, un método para la agrupación funcional de moléculas MHC. Inmunogenética 65, 655–665.

Artículo CAS PubMed PubMed Central Google Scholar

Marcu, A. et al. Atlas de ligandos HLA: una referencia benigna de péptidos presentados por HLA para mejorar la inmunoterapia contra el cáncer basada en células T. J. Immunother. Cáncer 9, e002071 (2021).

Artículo PubMed PubMed Central Google Académico

Nielsen, M., Lundegaard, C. y Lund, O. Predicción de la afinidad de unión del MHC de clase II mediante SMM-align, un nuevo método de alineación de la matriz de estabilización. BMC Bioinforma. 8, 238 (2007).

Artículo Google Académico

Nielsen, M. y Andreatta, M. NetMHCpan-3.0; predicción mejorada de la unión a moléculas MHC de clase I integrando información de conjuntos de datos de longitud de péptidos y receptores múltiples. Genoma Med. 8, 33 (2016).

Artículo PubMed PubMed Central Google Académico

Hoof, I. et al. NetMHCpan, un método para la predicción de unión de MHC de clase I más allá de los humanos. Inmunogenética 61, 1–13 (2009).

Artículo CAS PubMed Google Académico

Gonzalez-Galarza, FF, Christmas, S., Middleton, D. & Jones, AR Red de frecuencia de alelos: una base de datos y depósito en línea para frecuencias de genes inmunitarios en poblaciones de todo el mundo. Ácidos Nucleicos Res. 39, D913–D919 (2011).

Artículo CAS PubMed Google Académico

Moore, RM, Harrison, AO, McAllister, SM & Polson, SW & Eric Wommack, K. Iroki: Personalización automática y visualización de árboles filogenéticos. PeerJ 8, e8584 (2020).

Artículo PubMed PubMed Central Google Académico

Larkin, MA y col. Clustal W y Clustal X versión 2.0. Bioinformática 23, 2947–2948 (2007).

Artículo CAS PubMed Google Académico

Thomsen, MCF & Nielsen, M. Seq2Logo: un método para la construcción y visualización de motivos de unión de aminoácidos y perfiles de secuencias que incluyen ponderación de secuencias, pseudorrecuentos y representación bilateral del enriquecimiento y agotamiento de aminoácidos. Ácidos Nucleicos Res. 40, W281–W287 (2012).

Artículo CAS PubMed PubMed Central Google Scholar

Pérez-Riverol, Y. et al. La base de datos PRIDE y herramientas y recursos relacionados en 2019: mejora del soporte para datos de cuantificación. Ácidos Nucleicos Res. 47, D442–D450 (2019).

Artículo CAS PubMed Google Académico

Descargar referencias

La investigación informada en esta publicación fue financiada por el Instituto Nacional de Alergias y Enfermedades Infecciosas (NIAID), con el número de adjudicación 75N93019C00001. Nos gustaría agradecer sinceramente al Dr. Rico Buchli (Pure Protein, LLC) por proporcionar las columnas de afinidad SPVL3 para este estudio. También agradecemos a Steven Cate (Centro de Ciencias de la Salud de la Universidad de Oklahoma) y Sean Osborn (Pure MHC, LLC) por la tipificación HLA de los BLCL y las discusiones muy útiles.

Estos autores contribuyeron igualmente: Jonas Birkelund Nilsson, Saghar Kaabinejadian.

Departamento de Tecnología de la Salud, Universidad Técnica de Dinamarca, DK-2800, Lyngby, Dinamarca

Jonas Birkelund Nilsson, Carolina Barra y Morten Nielsen

Pure MHC, LLC, Ciudad de Oklahoma, OK, EE. UU.

Saghar Kaabinejadian

Departamento de Microbiología e Inmunología, Centro de Ciencias de la Salud de la Universidad de Oklahoma, Ciudad de Oklahoma, OK, EE. UU.

Saghar Kaabinejadian, Hooman Yari y William Hildebrand

Centro de Investigación de Enfermedades Infecciosas y Vacunas, Instituto de Inmunología de La Jolla, La Jolla, CA, 92037, California, EE. UU.

Peters Bjoern

Departamento de Patología y Medicina de Laboratorio, Facultad de Medicina de la Universidad de Tulane, Nueva Orleans, LA, 70112, EE. UU.

Loren Gragert

También puede buscar este autor en PubMed Google Scholar

También puede buscar este autor en PubMed Google Scholar

También puede buscar este autor en PubMed Google Scholar

También puede buscar este autor en PubMed Google Scholar

También puede buscar este autor en PubMed Google Scholar

También puede buscar este autor en PubMed Google Scholar

También puede buscar este autor en PubMed Google Scholar

También puede buscar este autor en PubMed Google Scholar

SK y MN diseñaron el estudio. Los datos experimentales utilizados en el estudio fueron generados por SK, con la contribución de HY y WHJBN y MN generó los resultados computacionales y las cifras. BP, CB y LG contribuyeron a la metodología con respecto al análisis DQ solo cis y trans y proporcionaron comentarios científicos. El manuscrito fue escrito por JBN, SK y MN, con contribuciones de todos los autores. Todos los autores han leído y aprobado la versión final del artículo.

Correspondencia a Morten Nielsen.

SK es un empleado de Pure MHC, LLC. Los autores restantes declaran no tener intereses contrapuestos.

Communications Biology agradece a Shanfeng Zhu, David Gfeller y los otros revisores anónimos por su contribución a la revisión por pares de este trabajo. Editor principal de manejo: Zhijuan Qiu.

Nota del editor Springer Nature se mantiene neutral con respecto a los reclamos jurisdiccionales en mapas publicados y afiliaciones institucionales.

Acceso abierto Este artículo tiene una licencia internacional Creative Commons Attribution 4.0, que permite el uso, el intercambio, la adaptación, la distribución y la reproducción en cualquier medio o formato, siempre que se otorgue el crédito correspondiente al autor o autores originales y a la fuente. proporcionar un enlace a la licencia Creative Commons e indicar si se realizaron cambios. Las imágenes u otro material de terceros en este artículo están incluidos en la licencia Creative Commons del artículo, a menos que se indique lo contrario en una línea de crédito al material. Si el material no está incluido en la licencia Creative Commons del artículo y su uso previsto no está permitido por la regulación legal o excede el uso permitido, deberá obtener el permiso directamente del titular de los derechos de autor. Para ver una copia de esta licencia, visite http://creativecommons.org/licenses/by/4.0/.

Reimpresiones y permisos

Nilsson, JB, Kaabinejadian, S., Yari, H. et al. El aprendizaje automático revela una contribución limitada de las variantes codificadas solo en trans al inmunopeptidoma HLA-DQ. Commun Biol 6, 442 (2023). https://doi.org/10.1038/s42003-023-04749-7

Descargar cita

Recibido: 01 Octubre 2022

Aceptado: 23 de marzo de 2023

Publicado: 21 abril 2023

DOI: https://doi.org/10.1038/s42003-023-04749-7

Cualquier persona con la que compartas el siguiente enlace podrá leer este contenido:

Lo sentimos, un enlace para compartir no está disponible actualmente para este artículo.

Proporcionado por la iniciativa de intercambio de contenido Springer Nature SharedIt

Al enviar un comentario, acepta cumplir con nuestros Términos y Pautas de la comunidad. Si encuentra algo abusivo o que no cumple con nuestros términos o pautas, márquelo como inapropiado.