DEDTI versus IEDTI: modelos eficientes y predictivos de drogas

Noticias

HogarHogar / Noticias / DEDTI versus IEDTI: modelos eficientes y predictivos de drogas

Oct 24, 2023

DEDTI versus IEDTI: modelos eficientes y predictivos de drogas

Informes científicos volumen 13,

Scientific Reports volumen 13, Número de artículo: 9238 (2023) Citar este artículo

Detalles de métricas

La reutilización de fármacos es un área activa de investigación que tiene como objetivo disminuir el costo y el tiempo de desarrollo de fármacos. La mayoría de esos esfuerzos se refieren principalmente a la predicción de las interacciones entre el fármaco y el objetivo. Muchos modelos de evaluación, desde la factorización de matrices hasta las redes neuronales profundas más avanzadas, han entrado en escena para identificar tales relaciones. Algunos modelos predictivos se dedican a la calidad de la predicción y otros se dedican a la eficiencia de los modelos predictivos, por ejemplo, la generación de incorporación. En este trabajo, proponemos nuevas representaciones de fármacos y dianas útiles para más predicción y análisis. Usando estas representaciones, proponemos dos modelos de redes inductivas y profundas de IEDTI y DEDTI para la predicción de la interacción entre el fármaco y el objetivo. Ambos utilizan la acumulación de nuevas representaciones. El IEDTI aprovecha el triplete y mapea las características de similitud acumuladas de entrada en vectores correspondientes de incrustación significativos. Luego, aplica un modelo predictivo profundo a cada par de drogas-objetivo para evaluar su interacción. El DEDTI utiliza directamente los vectores de características de similitud acumulados de fármacos y objetivos y aplica un modelo predictivo en cada par para identificar sus interacciones. Hemos realizado una simulación integral en el conjunto de datos de DTINet, así como en los conjuntos de datos estándar de oro, y los resultados muestran que DEDTI supera a IEDTI y los modelos de última generación. Además, llevamos a cabo un estudio de acoplamiento sobre las nuevas interacciones predichas entre dos pares de fármaco-objetivo, y los resultados confirman una afinidad aceptable de unión de fármaco-objetivo entre ambos pares predichos.

El descubrimiento de fármacos de novo consume enormes cantidades de dinero y requiere una larga investigación sin garantía de éxito1. Para superar estos desafíos, los métodos computacionales de descubrimiento de fármacos se utilizan cada vez más para identificar interacciones objetivo-fármaco (DTI) desconocidas y ocultas para tratar numerosas enfermedades. La reutilización computacional de fármacos es un hito en la identificación de indicaciones novedosas para los fármacos actualmente comercializados frente a dianas de interés. La idea principal detrás de las estrategias computacionales de reutilización de fármacos se basa en el hecho de que compuestos similares pueden compartir propiedades similares (conocidas como culpabilidad por asociación)2,3. Existen tres enfoques principales para realizar la predicción computacional de DTI4. El enfoque basado en ligandos es el primero y se utiliza cuando se dispone de información limitada sobre el objetivo. Estos enfoques se basan en el concepto de que compuestos similares tienen propiedades similares e interactúan con proteínas similares. En otras palabras, los resultados previstos de estos enfoques dependen completamente de la cantidad de ligandos conocidos por proteína, por lo tanto, su confiabilidad puede verse afectada por una proporción insuficiente de ligandos por proteína5,6,7,8,9. El segundo enfoque es el enfoque basado en acoplamiento, que utiliza las estructuras 3D de un ligando y un receptor para evaluar la afinidad de unión entre ellos10. El enfoque de acoplamiento molecular adolece de la falta de suficientes estructuras 3D de ligandos y receptores11. El tercer enfoque prometedor, el enfoque quimiogenómico, se ha definido como la identificación y descripción de todas las moléculas posibles que pueden interactuar con cualquier objetivo terapéutico, por lo tanto, permite a los investigadores abordar el tema de la predicción de proteínas fuera del objetivo para candidatos terapéuticos12,13. Este enfoque trata de evitar los inconvenientes de los métodos antes mencionados al encontrar las correlaciones entre el espacio químico del ligando y el espacio genómico de la proteína14. Los enfoques quimiogenómicos se pueden clasificar en cinco tipos: (1) modelos de vecindario, (2) modelos locales bipartitos, (3) modelos de difusión en red, (4) modelos de factorización matricial y (5) modelos de clasificación basados ​​en características4. La factorización de matrices es uno de los métodos más utilizados en la predicción de DTI15. Los métodos de factorización matricial16 manipulan los DTI e intentan encontrar una representación latente de cada fármaco y cada diana16,17,18. A pesar de las muchas ventajas de este método, la factorización de matrices adolece de varias desventajas. Por ejemplo, la factorización de matrices utiliza el producto interior lineal de dos vectores. En consecuencia, no es la mejor solución para predecir la interacción o relación de fármaco y diana. Como resultado, sugerimos evitar la factorización de matriz lineal convencional en la reutilización de fármacos. Los autores mencionaron los problemas de los métodos de factorización de matrices en otro trabajo19.

En los últimos años, los métodos quimiogenómicos que utilizan el aprendizaje automático para predecir las DTI (p. ej., métodos profundos, transformadores y de redes neuronales gráficas) se han vuelto ampliamente utilizados. Estos métodos han entrado en escena para evadir los inconvenientes de otros enfoques de predicción de DTI. Presentamos algunos de los métodos quimiogenómicos más avanzados. NeoDTI20 es un método basado en redes neuronales gráficas que utiliza un método de finalización de matriz inductiva para predecir los DTI. AutoDTI++21 emplea una solución de codificador automático en combinación con factorización de matriz. Debido al uso de la factorización matricial, este método sufre de fuga de datos. HIDTI22 genera incrustaciones de objetivos y fármacos aplicando redes neuronales a sus diferentes propiedades y luego las concatena todas. La concatenación de la información procesada de cada par fármaco-objetivo se envía a una red neuronal residual para identificar su interacción. Este método adolece de escasez, así como de generación incompleta de incrustaciones. MolTrans23 pertenece a los métodos basados ​​en transformadores que toman prestados conceptos de los modelos de lenguaje profundo. TransDTI24 aprovecha AlphaFold25 entre otras incrustaciones previamente entrenadas y las alimenta a una red neuronal de avance para identificar los DTI.

Este documento propone dos escenarios para predecir DTI utilizando una red neuronal profunda (DNN). Varían principalmente en la forma de modelar el par de entrada fármaco-objetivo. Llamamos al primer escenario "DTI de incrustación indirecta" o simplemente IEDTI y al segundo "DTI de incrustación directa" o DEDTI. Las Figuras 1 y 2 muestran los marcos propuestos, respectivamente. Utilizamos información heterogénea, que incluye interacciones entre fármacos, interacciones entre fármacos, asociaciones entre fármacos y efectos secundarios, asociaciones entre fármacos y enfermedades, interacciones entre objetivos, interacciones entre objetivos y enfermedades y similitudes de objetivos, para predecir las DTI. La sección "Método" proporciona una expresión detallada de ellos.

Marco IEDTI. Consta de tres pasos: preprocesamiento, generación de incrustación y predicción de DTI. (I) El primer paso lee las matrices de fármaco y diana. Convierte las asociaciones fármaco-efecto secundario, fármaco-enfermedad y diana-enfermedad en tres matrices de similitud. Este procedimiento conduce a tener cuatro matrices de igual tamaño para fármacos y tres matrices de igual tamaño para dianas. El marco resume las matrices de fármacos y también resume las tres matrices objetivo. Aplica k-means para establecer las mismas etiquetas para medicamentos similares. Para visualizarlo, cada etiqueta se muestra en un color diferente. Lo mismo sucede con los objetivos. (II) El marco utiliza triplete para generar vectores de incrustación para cada fármaco y objetivo utilizando dos módulos DNN. (III) Concatena las incrustaciones de cada par fármaco-objetivo y las alimenta al tercer módulo DNN para predecir interacciones.

Marco DEDTI. Este marco consta de dos pasos, es decir, preprocesamiento y predicción DTI. (I) En el paso de preprocesamiento, el marco lee las matrices de fármaco y objetivo. Convierte las asociaciones fármaco-efecto secundario, asociaciones fármaco-enfermedad y asociaciones diana-enfermedad en tres matrices de similitud. Este procedimiento conduce a tener cuatro matrices de igual tamaño para fármacos y tres matrices de igual tamaño para dianas. El marco resume las matrices de fármacos y también resume las tres matrices objetivo. (II) El marco concatena cada par fármaco-objetivo. Luego alimenta las concatenaciones a un módulo de red profunda para predecir sus interacciones.

IEDTI y DEDTI utilizan las interacciones entre el fármaco y el objetivo como etiquetas y la información restante como entrada para sus modelos. Como se muestra en la Fig. 1, el IEDTI tiene tres pasos. El primer paso, el preprocesamiento, consiste en leer las matrices del fármaco y el objetivo y crear sus vectores de características correspondientes. Para las drogas, tenemos dos matrices de interacciones fármaco-fármaco y similitudes estructurales de fármacos. Además, existen dos matrices más de asociaciones fármaco-enfermedad y fármaco-efecto secundario. El paso de preprocesamiento utiliza la similitud del coseno y convierte las dos últimas matrices en matrices de similitud. Como resultado, las drogas tienen cuatro matrices de igual tamaño. Los resumimos en el paso de preprocesamiento y generamos un espacio de características para las drogas. Luego, nuestro objetivo es convertir el espacio de características original en un espacio de menor dimensión. Sin embargo, el nuevo espacio necesita preservar las similitudes entre los vectores de características del espacio original. Para hacer esto, se implementa la pérdida de triplete para hacer una reducción significativa de la dimensión. La pérdida de triplete necesita etiquetas de los vectores de características correlacionados. El espacio de datos original no tiene ninguna etiqueta. Por lo tanto, el marco aplica k-medias a los vectores de drogas, y las drogas similares reciben las mismas etiquetas. En otras palabras, usamos k-means para el etiquetado de muestras. Este etiquetado es crucial para preparar los vectores de incrustación. El mismo procedimiento ocurre con los objetivos en el paso de preprocesamiento.

En el siguiente paso, la generación de incorporación, IEDTI utiliza dos módulos de red profundos (\(DNN_1\) y \(DNN_2\)) para fármacos y objetivos correspondientes. Utilizando \(DNN_1\), mapea cada vector de características de fármacos en un espacio de incrustación. Estas nuevas representaciones deben tener una interpretación significativa de drogas similares con incrustaciones similares. Lo mismo ocurre con los destinos con \(DNN_2\).

El último paso de IEDTI, la predicción de DTI, predice la interacción entre cada par de fármacos y objetivos. Por otro lado, DEDTI se concentra exclusivamente en la predicción de DTI. DEDTI consta de dos pasos "preprocesamiento" y "predicción DTI". Se diferencia de IEDTI al excluir el paso de generación de incrustación. Los discutimos con más detalle a continuación.

Los conjuntos de datos se obtuvieron de un estudio previo sobre la predicción de DTI no homogéneos11 (lo llamamos conjunto de datos DTINet). Este conjunto de datos contiene datos de 708 medicamentos de DrugBank (Versión 3.0)26, 1512 proteínas objetivo de la base de datos HPRD (Versión 9)27, 5603 enfermedades de la base de datos Comparative Toxicogenomics28 y 4192 efectos secundarios de medicamentos de la base de datos SIDER (Versión 2)29 . Además, existen 1923 interacciones conocidas entre fármacos y dianas30.

Además, llevamos a cabo una validación externa de conjuntos de datos estándar de oro de enzimas, GPCR, canales iónicos y receptores nucleares31. La Tabla 1 presenta las estadísticas de todos los conjuntos de datos.

Como se mencionó, este estudio evalúa dos escenarios para predecir las interacciones entre el fármaco y el objetivo; la diferencia entre estos dos escenarios se basa en diferentes etapas de preprocesamiento y manipulación de datos. Antes de sumergirnos en los escenarios, primero establecemos el manejo de datos en los conjuntos de datos. Debido al objetivo de la predicción de los DTI, este artículo aborda las interacciones entre fármacos y dianas. Ocho matrices contienen toda la información y la interacción necesaria para nuestra predicción DTI.

X, o interacciones fármaco-objetivo con dimensión \(708\times 1512\) [algunos estudios consideran otra matriz denominada matriz objetivo-fármaco. Este último no es más que la transposición del primero. Este documento utiliza la interacción fármaco-objetivo como etiquetas de predicción y, por lo tanto, solo necesitamos una de ellas].

\(D^{(1)}\), o similitudes estructurales Droga-Droga con dimensión \(708\times 708\).

\(D^{(2)}\), o Interacciones fármaco-fármaco con dimensión \(708\times 708\).

\(D_{raw}^{(3)}\), o asociaciones fármaco-enfermedad con dimensión \(708\times 5603\).

\(D_{raw}^{(4)}\), o asociaciones de efectos secundarios de medicamentos con la dimensión \(708\times 4192\).

\(T^{(1)}\), o interacciones Objetivo-Objetivo con la dimensión \(1512\times 1512\).

\(T^{(2)}\), o similitudes de secuencia objetivo-objetivo con dimensión \(1512\times 1512\).

\(T_{raw}^{(3)}\), o asociaciones Objetivo-Enfermedad con dimensión \(1512\times 5603\) [Pronto quedará claro por qué hemos usado el subíndice "raw" para algunas de las matrices \ (D_{sin procesar}^{(3)}\), \(D_{sin procesar}^{(4)}\) y \(T_{sin procesar}^{(3)}\). Por el momento, estas matrices no son matrices de semejanza].

Vale la pena mencionar que diferenciamos la primera matriz, X, de todas las demás matrices. Si bien vemos las otras matrices como características de entrada, X se trata como las etiquetas de predicción de los DTI. El primer escenario, Escenario 1, se ocupa de la generación de incorporación además de la predicción de DTI. El segundo escenario, Escenario 2, se refiere exclusivamente a la predicción de interacción. En otras palabras, mientras que el primero se ocupa de las incrustaciones para un análisis posterior, el segundo se ocupa de la calidad de la predicción. Cabe mencionar que ambos métodos tienen el mismo paso de preprocesamiento.

Estos dos escenarios tienen un solo paso común de preprocesamiento de datos. Ambos tienen como objetivo combinar información de matrices de fármacos (y proteínas) en una única matriz. El primer paso transforma las matrices para fármacos—\(D^{(i)},~1\le i\le 4\)—en una sola matriz de características, D, y para dianas—\(T^{(j) },~1\le j\le 3\)— en una sola matriz de características, T. \(D^{(1)}\) y \(D^{(2)}\), ambas tienen el mismo tamaño de \(708\times 708\). Para generar el espacio de características de las drogas, convertimos los otros dos \(D^{(3)}\) y \(D^{(4)}\) en un espacio con un tamaño igual a \(D^{( 1)}\) y \(D^{(2)}\). En otras palabras, nos deshacemos de la representación explícita de enfermedades y efectos secundarios de \(D^{(3)}\) y \(D^{(4)}\), respectivamente. Produjimos las matrices de similitud de las matrices de fármaco-enfermedad, fármaco-efecto secundario y diana-enfermedad mediante la métrica de "similitud de coseno32". Este tipo de similitud se ha utilizado debido a su invariancia de escala, conciencia de direccionalidad, utilización en los sistemas de recomendación y computacionalmente eficiente33,34.

Suponga que O es una matriz con el tamaño de \(o_1\times o_2\). El objetivo es calcular la similitud entre sus filas. Con este fin, aplicamos la semejanza del coseno. Su salida es una matriz cuadrada R con el tamaño de \(o_1\times o_2\). Así, la similitud de las filas k y \(\ell ,~1\le k,\ell \le o_1\), \(R_{k\ell }\) y es igual a

donde "\(\cdot \)" representa el producto interno de dos vectores y \(||\cdot ||\) muestra la norma \(\ell ^2\) del vector. La ecuación 1 se aplica a todos los pares \((k,\ell ), 1\le k,\ell \le o_1\). La matriz resultante R tiene el tamaño de \(o_1\times o_1\). \(D^{(1)}\), \(D^{(2)}\), \(T^{(1)}\) y \(T^{(2)}\) ya están matrices de semejanza. Por lo tanto, aplicamos la Ecuación 1 en las matrices restantes: \(D_{raw}^{(3)},\) \(D_{raw}^{(4)},\) y \(T_{raw}^{( 3)},\) y los resultados son \(D^{(3)},\) \(D^{(4)},\) y \(T^{(3)}.\)

Eventualmente, hay cuatro matrices de similitud de drogas \(D^{(1)}\), \(D^{(2)}\), \(D^{(3)}\) y \(D^ {(4)}\) con el mismo tamaño de \(708\times 708\), y hay tres matrices de similitud \(T^{(1)}\), \(T^{(2)}\) , y \(T^{(3)}\) para datos objetivo cuyo tamaño es \(1512\times 1512\). Estas conversiones tienen como objetivo generar vectores de características para fármacos y objetivos. Hacemos esto sumando las matrices de similitud de drogas para las drogas y las matrices de similitud de objetivos para los objetivos. Por lo tanto, las matrices de similitud final del fármaco y la diana (D y T) se obtienen sumando las matrices de similitud de la siguiente manera.

consideramos D y T como los vectores de características para fármacos y dianas, respectivamente. En otras palabras, cada fila de D corresponde a una representación informativa de una droga específica. Lo mismo se aplica al vector de características objetivo T. Al tener D y T, podemos describir los escenarios.

Esta subsección proporciona la formulación matemática de IEDTI y DEDTI.

Este escenario tiene como objetivo producir incrustaciones y predicciones de DTI utilizando los vectores de características de entrada D y T. Genera una incrustación para cada fármaco \({{\textbf {d}}}_i=D(i,:);~1\le i \le m\) y cada objetivo \({{\textbf {t}}}_j=T(j,:);~1\le j\le n\). Las incrustaciones de \({{\textbf {d}}}_i\) y \({{\textbf {t}}}_j\) son \(\bar{{{\textbf {d}}}}_i\ ) y \(\bar{{{\textbf {t}}}}_j\), respectivamente. Estas nuevas representaciones ocupan espacios más pequeños, lo que lleva a un cálculo más rápido y eficiente. Además, tienen significado, es decir, los vectores similares tienen representaciones incrustadas similares y los diferentes tienen representaciones diferentes. Luego, predice los DTI. Primero explicamos la forma de incrustar la generación. Comenzamos con la descripción de la producción de incrustaciones de drogas. Cada fármaco \({{\textbf {d}}}_i\) de la matriz D se asigna a un nuevo espacio de representación y se muestra mediante \(\bar{{{\textbf {d}}}}_i\). En otras palabras, esos fármacos se transforman en un nuevo dominio al cumplir con la "propiedad significativa" de un par similar de vectores que tienen un par similar de vectores de incrustación y viceversa. Por lo tanto, buscamos una función, es decir, \(g_1\), donde convierte cada \({{\textbf {d}}}_i\) de D en un vector de incrustación con la propiedad de que los similares deben tener una incrustación similar los vectores y los diferentes deben tener incrustaciones diferentes, o formalmente:

donde \(\tau _D\in {\mathbb {R}}^+\) y \(\tau_{\bar{D}}\in {\mathbb {R}}^+\) son umbrales de comparación para drogas ' representaciones originales y representaciones incrustadas, respectivamente. Vale la pena señalar que \({{\textbf {d}}}_i\in {\mathbb {R}}^m\) y \(\bar{{{\textbf {d}}}}_i\in { \mathbb {R}}^{f_1}\), donde \(f_1\ll m\). Dos funciones \(dist_D\) y \(dist_{\bar{D}}\) son, respectivamente, \({\mathbb {R}}^m\times {\mathbb {R}}^m\rightarrow {\mathbb funciones {R}}^+\) y \({\mathbb {R}}^{f_1}\times {\mathbb {R}}^{f_1}\rightarrow {\mathbb {R}}^+\), se utiliza para medir la similitud entre los vectores en D y sus vectores de incrustación. La función de distancia puede ser cualquier función legítima que discrimine vectores diferentes y agrupe vectores similares en la coordenada de representación incrustada. La misma condición se aplica a los miembros de la matriz de similitud objetivo (T). Entonces, buscamos una función \(g_2\) con condiciones similares en \({{\textbf {t}}}_j\), o formalmente:

donde \(\tau _T\in {\mathbb {R}}^+\) y \(\tau_{\bar{T}}\in {\mathbb {R}}^+\) son umbrales de comparación para objetivos ' representaciones originales \({{\textbf {t}}}_i\in {\mathbb {R}}^n\) y representaciones incrustadas \(\bar{{{\textbf {t}}}}_i\in { \mathbb {R}}^{f_2}\), donde \(f_2\ll n\), respectivamente. Cada fila, \(\bar{{{\textbf {d}}}}_i\) y \(\bar{{{\textbf {t}}}}_j\) son vectores incrustados en un nuevo dominio de su correspondiente filas, \({{\textbf {d}}}_i\) y \({{\textbf {t}}}_j\), en las matrices de similitud de diana y fármaco, respectivamente. Similar a \(dist_D\) y \(dist_{\bar{D}}\), otras dos funciones \(dist_T\) y \(dist_{\bar{T}}\) son respectivamente \({\mathbb { R}}^n\times {\mathbb {R}}^n\rightarrow {\mathbb {R}}^+\) y \({\mathbb {R}}^{f_2}\times {\mathbb {R }}^{f_2}\rightarrow {\mathbb {R}}^+\) funciones que se utilizan para medir la similitud entre los vectores en T y sus vectores de incrustación. El \(\bar{{{\textbf {d}}}}_i,~1\le i \le m\) y \(\bar{{{\textbf {t}}}}_j,~1\le j \le n\) son el primer tipo de salida del Escenario 1. El siguiente tipo es la predicción de la interacción entre pares de fármacos y diana. Para hacer esto, usa cada par de \(\bar{{{\textbf {d}}}}_i\) y \(\bar{{{\textbf {t}}}}_j\), y llama a un función \(g_3:{\mathbb {R}}^{f_1}\times {\mathbb {R}}^{f_2}\rightarrow {\mathbb {R}}\) donde \(g_3(\bar{{{ \textbf {d}}}}_i,\bar{{{\textbf {t}}}}_j)\approx x_{ij}\). Lo definimos formalmente de la siguiente manera:

Cabe destacar que las explicaciones anteriores son la formalización conceptual de nuestra propuesta. Los parámetros \(\tau _D\) y \(\tau _T\) se manejan usando módulos de clustering y DNN. En otras palabras, abordaremos estos tres objetivos con una solución DNN. Nuestro DNN propuesto está formado por tres módulos (\(DNN_1,~DNN_2,~DNN_3\)), y cada uno de ellos modela una de las funciones \(\{g_1,g_2,g_3\}\). El primer módulo (\(DNN_1\)) es calcular la incorporación de los vectores de similitud de fármacos (D). Sus vectores de entrada son las filas (\({{\textbf {d}}}_i\)) de D, y su salida es la nueva representación de cada fila, \(\bar{{{\textbf {d}}} }_i\). El segundo módulo (\(DNN_2\)) es para adquirir los vectores de incrustación de destino (\(\bar{{{\textbf {t}}}}_j\)). Sus vectores de entrada son de las filas (\({{\textbf {t}}}_j\)) de la matriz de similitud objetivo. Estos dos módulos DNN actúan como métodos de triplete. Finalmente, el tercer módulo (\(DNN_3\)), al tener las entradas en forma de vectores concatenados \((\bar{{{\textbf {d}}}}_i,\bar{{{\textbf {t }}}}_j)\), predice las interacciones entre las entidades de las matrices D y T. La siguiente sección proporciona la estructura de la DNN diseñada con más detalle.

Este escenario se centra directamente en la predicción de DTI. Para ello, el Escenario 2 consta de dos pasos. El primer paso es definir el vector de características necesario para la predicción de DTI. Utiliza los vectores de D y T para generar el vector de características necesario para la predicción. En otras palabras, cada vector de características está disponible como pareja de fármaco-objetivo. Cada vector de características \({{\textbf {z}}}\) se deriva de \({{\textbf {d}}}_i=D(i,:);~1\le i\le m\) con destino \({{\textbf {t}}}_j=T(j,:);~1\le j\le n\), o \({{\textbf {z}}}=({{\ textbf {d}}}, {{\textbf {t}}})\), y \({{\textbf {z}}}\in {\mathbb {R}}^{m+n}\). El siguiente paso es predecir la interacción entre cada par de diana-fármaco dado. Mostramos ambos pasos de la siguiente manera.

Esta subsección proporciona la arquitectura profunda de IEDTI y DEDTI. Los describimos uno por uno de la siguiente manera.

Esta subsección proporciona la arquitectura profunda de IEDTI. Lo describimos en tres módulos diferentes de la siguiente manera.

Primer módulo de Deep Neural Network El primer módulo (\(DNN_1\)) obtiene el \({{\textbf {d}}}_i=D(i,:),\forall i \in \{1,~\cdots ,m\}\) como entrada y devuelve el vector de incrustación correspondiente para cada uno de ellos. Como se mencionó anteriormente, la similitud y disimilitud entre objetivos también debe mantenerse entre sus correspondientes vectores de incrustación. En otras palabras, si dos vectores son similares en el espacio principal, su transformación debería ser similar en el espacio de incrustación. Para mantener similitudes en el espacio de incrustación, aprovechamos la idea de Bordes et al. han introducido35. Sin embargo, hemos cambiado la función objetivo. Supongamos que para cada \({{\textbf {d}}}_i\), podemos encontrar el "conjunto" de sus vectores similares en D. Lo llamamos \(Smlr_{{{\textbf {d}}} _i}\) . Por otro lado, cada \({{\textbf {d}}}_i\) tiene diferencias o menos similitudes con los vectores restantes de D. Usando estos dos conjuntos de similares y diferentes para cada \({{ \textbf {d}}}_i\); calculamos su representación \(\bar{{{\textbf {d}}}}_i\). Su formulación puede ser:

Teniendo este conjunto y su complemento para cada \({{\textbf {d}}}_i\in D\), definimos la siguiente función objetivo:

Es notable que el conjunto \(Smlr_{{{\textbf {d}}}_i}\) se define en base a \(dist_D\) y \({{\textbf {d}}}\), pero \( {\mathscr {L}}_d\) se basa en \(dist_{\bar{D}}\) y \(\bar{{{\textbf {d}}}}\). Los vectores similares deben tener una distancia menor y los vectores diferentes deben tener una distancia mayor. Si el modelo funciona correctamente, \({\mathscr {L}}_d\) debe estar cerca de cero. Por tanto, el objetivo de \(DNN_1\) es minimizar la función de coste \({\mathscr {L}}_d\). El parámetro \(\gamma \) es un hiperparámetro de margen para ajustar la función objetivo. Esta función se llama triplete. Para ello, podemos disponer de varias capas de redes neuronales. El número de neuronas de la capa de entrada debe ser igual a m (la longitud de \({{\textbf {d}}}_i\)). También es necesario que el número de neuronas de la capa de salida sea igual a \(f_1\) (la longitud de \(\bar{{{\textbf {d}}}}_i\)). Es necesario tener incrustaciones significativas. En otras palabras, las drogas similares deben tener representaciones similares en el espacio de incrustación. Este objetivo requiere definir una similitud entre la representación original de las drogas. Con este fin, usamos el algoritmo k-means y lo aplicamos a los vectores de drogas y definimos conjuntos de drogas similares. Utilizando este agrupamiento, \(DNN_1\) calcula incrustaciones similares para los fármacos de cada conjunto. Como se mencionó anteriormente, aplicamos el método k-means para colocar medicamentos similares (y proteínas similares) en los mismos grupos. Luego, obtenemos una nueva representación utilizando una función de pérdida de triplete semidura. Este enfoque lleva a tener una distancia más corta entre cada dos miembros en un grupo y una brecha más amplia entre cada par de grupos. Estos grupos actúan como etiquetas y la función de pérdida los usa para producir incorporaciones significativas. La Figura 4 muestra representaciones de t-SNE de fármacos y dianas antes y después de aplicar el triplete. Muestran el poder de la representación de k-means, así como la aplicación de vectores de incrustación de tripletes. Elegimos el número de grupos de manera que los grupos tienen que ser aproximadamente iguales. Por lo tanto, examinamos de 2 a 64 como el número de conglomerados de drogas, y 4 es el mejor número posible de conglomerados de drogas. La Figura 4a ilustra las representaciones de k-medias de las drogas. La figura 4b es la separación de esas drogas en la coordenada de incrustación. La comparación de dos figuras muestra el poder de discriminación del triplete. Lo mismo ocurrió con los objetivos; el mejor número de conglomerados fue 5. La figura 4c muestra el resultado de aplicar k-means en los objetivos. Finalmente, la Fig. 4d visualiza las incrustaciones de los objetivos finales.

Segundo módulo de Deep Neural Network El segundo módulo (\(DNN_2\)) funciona como su hermano \(DNN_1\). La diferencia es que mientras \(DNN_1\) calcula incrustaciones de \({{\textbf {d}}}_i\in D,~i \in \{1,\cdots,m\}\), \(DNN_2\ ) calcula \({{\textbf {t}}}_j\in T,~j \in \{1,\cdots,n\}\). Para cada \({{\textbf {t}}}_j\), también definimos conjuntos de vectores similares:

Teniendo el conjunto de similitud de cada \({{\textbf {t}}}_i\in T\) y su complemento correspondiente, definimos la siguiente función objetivo:

Como hemos mencionado para \({{\textbf {d}}}\), la distancia entre vectores similares y diferentes debe funcionar igual para \({{\textbf {t}}}\) también. Si el modelo funciona correctamente, \({\mathscr {L}}_t\) debe ser cercano a cero, y el objetivo de \(DNN_2\) es minimizar la función de costo \({\mathscr {L}}_t\ ). Para este fin, la primera capa de \(DNN_2\) debe tener n neuronas, y la capa de salida de \(DNN_2\) necesita tener \(f_2\) neuronas. En armonía con la subsección anterior, aplicamos el algoritmo k-means para ubicar el conjunto de objetivos similares.

Tercer módulo de Red Neural Profunda El tercer módulo de la red neuronal \(DNN_3\) se encarga de la predicción de DTI. La entrada de \(DNN_3\) son las representaciones incrustadas del fármaco y el objetivo de \(DNN_1\) y \(DNN_2\); la salida de \(DNN_1\) es el vector \(\bar{{{\ textbf {d}}}}_{f_1\times 1}\), y la salida de \(DNN_2\) es el vector \(\bar{{{\textbf {t}}}}_{f_2\times 1 }\). El formato de entrada de \(DNN_3\) es la concatenación de \(\bar{{{\textbf {d}}}}\) y \(\bar{{{\textbf {t}}}}\), o \([\bar{{{\textbf {d}}}}^T \bar{{{\textbf {t}}}}^T]^T\). Entonces, el número de neuronas de la capa de entrada de \(DNN_3\) es igual a \(f_1+f_2\). Como se mencionó anteriormente, el papel de la tercera sección es el cálculo de la cantidad de interacción entre \(\forall i \in \{1,\cdots,m\}: {{\textbf {d}}}_i\in D \) y \(\forall j \in \{1,\cdots,n\}: {{\textbf {t}}}_j\in T\), o \(x_{ij}\). La capa de salida tiene una neurona, una aproximación \(x_{ij}\). Formalmente, el objetivo de \(DNN_3\) es

Porque \(\bar{{{\textbf {d}}}}_i\) y \(\bar{{{\textbf {t}}}}_j\) se adquieren de \(DNN_1\) y \(DNN_2 \), podemos reescribir la función objetivo como

donde \(\mathbin \Vert \) muestra las concatenaciones de dos vectores. Es necesario mencionar que todos los \(DNN_1\), \(DNN_2\) y \(DNN_3\) pueden tener varias capas ocultas. Discutimos esto más en las secciones "implementación" y "discusión". La Figura 1 muestra la estructura general del primer escenario propuesto.

Cabe destacar que el modelo IEDTI no es un modelo de extremo a extremo. Por lo tanto, la propagación de errores no es un proceso de extremo a extremo. y cada módulo tiene su propia propagación de errores.

La red profunda del segundo escenario es similar a la del primero. La única diferencia está en el vector de entrada de la red. Su vector de entrada es la concatenación de cada \({{\textbf {d}}}_i\) y \({{\textbf {t}}}_j\). Formalmente,

o más precisamente, es

Las neuronas requeridas de la capa de entrada son iguales a \(m+n\), y la última capa contiene una sola neurona para predecir cada DTI.

En ambos escenarios descritos, implementamos una validación cruzada de diez veces para proporcionar información precisa sobre el rendimiento de nuestro algoritmo. Para ajustar los parámetros, hemos probado los resultados con la sugerencia de los estudios anteriores sobre el tema del aprendizaje profundo y la predicción DTI. Los resultados muestran que los parámetros funcionan bien en este trabajo.

Modelo DEDTI Nuestro primer modelo toma como entrada la concatenación de las representaciones de vector de i-ésima proteína y j-ésima de fármaco, \(c_{ij}\). Por lo tanto, la forma de entrada es (2220, 1) ya que tenemos 708 fármacos y 1512 dianas. Luego, pasa la entrada, \(c_{ij}\), a cuatro capas Conv1D consecutivas con la función de activación de Relu, donde a cada una le sigue la normalización por lotes y el abandono 0.5. A continuación, usamos una capa densa después de una capa aplanada, seguida de una caída de 0,5. Finalmente, una capa densa con una función de activación sigmoidea predice la interacción entre el fármaco y la proteína. Compilamos nuestro modelo con el optimizador Adam y la función de pérdida de entropía cruzada binaria. La interacción es de valor binario. El cero no muestra interacción y el uno representa una interacción válida. También usamos la técnica de sesgo inicial en nuestra capa densa final para considerar la propiedad del conjunto de datos de desequilibrio. Nuestro sesgo inicial es el siguiente:

En este modelo, configuramos el tamaño del lote en 1024 en la fase de entrenamiento.

Modelo IEDTI Nuestra fase de predicción en el modelo triplete es la misma que nuestro primer modelo. Sin embargo, aquí tenemos dos pasos adicionales. Primero, usamos k-medias en drogas y proteínas por separado para encontrar diferentes grupos en ellas. Luego obtenemos nuevas representaciones para ellos utilizando pérdida de triplete semidura. Nuestra nueva representación vectorial para fármacos y proteínas tiene un tamaño igual a 256. Después de eso, alimentamos sus concatenaciones a nuestra fase de predicción, de forma similar a nuestro modelo anterior. Sin embargo, la forma de entrada en este escenario es (512). Como la forma de entrada aquí es más pequeña que el modelo anterior, configuramos nuestro tamaño de lote en 64 para este.

Utilizamos una validación cruzada de diez veces para evaluar el rendimiento de los modelos. Utilizamos diferentes métricas como AUC-ROC, AUPR, F1-score y MCC para evaluar los métodos. AUC-ROC no es adecuado para el desequilibrio. Por lo tanto, usamos las otras métricas de evaluación para cubrir el caso de datos desequilibrados. Calculamos las métricas de sensibilidad (recuperación), especificidad, precisión y puntuación F1 en función de las siguientes ecuaciones.

Si bien la puntuación F1 se usa para la evaluación de datos desequilibrados, consideramos MCC debido a sus ventajas en la clasificación binaria36. Su ecuación es la siguiente.

El parámetro m muestra el número de medicamentos, y el número de objetivos n representa el número de objetivos, el número de enfermedades es \(n_{di}\), y el número de efectos secundarios es \(n_{se}\) . Suponemos que hay \(e_{emb}\) épocas necesarias para la generación de representaciones secundarias de fármacos y objetivos, y cada tiempo de época es igual a \(T_{e}\) tanto para el fármaco como para el objetivo. Para simplificar, hemos supuesto que no hay diferencia en el tiempo de conversión entre el fármaco y el objetivo. Por último, asumimos que el número de épocas en el modelo predictivo es igual a \(e_{p}\), y el intervalo de tiempo de cada época es igual a \(T_{p}\).

DEDTI e IEDTI necesitan calcular la representación principal de cada fármaco y cada proteína. Ya están listas dos matrices de similitud para fármacos. Necesitamos calcular dos matrices de similitud más para medicamentos que usan enfermedades y efectos secundarios necesarios para las siguientes dos similitudes de medicamentos. En la matriz fármaco-enfermedad, los métodos aplican similitud de coseno para cada par de fármacos. Por lo tanto, su complejidad temporal es \(O(m^2n_{di})\). Lo mismo ocurre con la matriz de efectos secundarios de fármacos; por lo tanto, la complejidad de su conversión es \(O(m^2n_{se})\). Totalmente, la conversión para medicamentos es \(O(m^2(n_{di}+n_{se})\). Los objetivos necesitan un cálculo adicional de similitud de enfermedades. la similitud entre los objetivos en función de sus enfermedades comunes es \(O(n^2n_{di})\). En este documento, n es mayor que m, y la complejidad del cálculo de similitud es \(O\left( e_{ emb}\left( (m+n)T_{e}\right) \right) \), y \(m

Ambos modelos tienen un módulo predictivo similar, y su complejidad para evaluar todos los objetivos y todas las drogas es \(O\left( e_{p}mnT_{p}\right) \). Su diferencia está en \(T_{p}\), que IDETI necesita menor complejidad de tiempo y espacio que DEDTI.

Cabe destacar que IEDTI con tres módulos DNN (dos para incrustar la producción de vectores y un módulo para predicción) contiene todos los pasos de preparación y predicción de incrustación, mientras que los métodos más avanzados utilizan las incrustaciones disponibles (p. ej., TransDTI ) o de mayor complejidad (IMCHGAN).

El acoplamiento molecular basado en la estructura es una alternativa virtual a los costosos y lentos experimentos de laboratorio para encontrar la orientación de "mejor ajuste" de un fármaco a un objetivo en particular. Por lo tanto, utilizamos esta técnica para racionalizar el potencial de interacción entre la clorzoxazona-PTGS2 y la tetrabenazina-ADORA1 como dos nuevos pares de fármaco-objetivo previstos. Para ello, se obtuvieron estructuras cristalinas de ADORA1 (PDB 5n2s) y PTGS2 (PDB 3QMO) del banco de datos de proteínas RCSB PDB37. Además, las estructuras 3D-SDF de tetrabenazina y clorzoxazona se descargaron de NCBI PubChem38. El ligando nativo, HEATM, y otras moléculas solventes en ambas estructuras proteicas se eliminaron utilizando Discovery Studio, y se utilizó el método de descenso más pronunciado para la minimización de energía. Luego, se utilizó la herramienta Swiss PDB Viewer (SPDBV)39 para adquirir la conformación más estable de las proteínas. Finalmente, las etapas finales de la preparación de proteínas, incluida la adición de hidrógenos polares y cargas de Kollman, se realizaron utilizando las herramientas Autodock (ADT). La preparación de ligandos se realizó mediante la adición de hidrógenos polares y cargas gaseosas. Además, se realizó la detección de raíces y la elección de torsiones del árbol de torsión para rotar todos los enlaces giratorios. Para determinar el "sitio activo" en la posición de unión de ADORA1, se visualizó la estructura cristalina de ADORA1 estabilizado en complejo con PSB36 en 3.3A usando la herramienta LIGPLOT+40. El patrón obtenido muestra que His 1356, Trp 1352, Leu 1355, Met 1285, Asn 1359, Thr 1375, Glu 1277, Thr 1362, Phe 1276, Val 1192, Ile 1174, Ile 1379 y Ala 1196 son los aminoácidos más importantes involucrados. en la formación de este complejo. Además, se analizó la estructura cristalina de rayos X de NS-398 unido a ciclooxigenasa-2. Arg 120, Val 523, Ala 527, Val 349, Ser 530, Tyr 385, Trp 387, Gly 526, Leu 352, Met 522, Phe 518 y Ser 353 se determinaron como la mayoría de los residuos participantes para establecer el complejo mencionado anteriormente. Para definir el espacio de acoplamiento, generamos el cuadro de cuadrícula para cada proteína objetivo. Para ADORA1, los valores del cuadro de cuadrícula son centro x = 103,962, centro y = 128,898, centro z = 44,237 y puntos x = 54, puntos y = 48 y puntos z = 58. Para PTGS2, el centro El cuadro de cuadrícula se define con 40,049, 51,442 y 69,613 como X, Y y Z, respectivamente, y los puntos de cuadrícula eran 56, 60 y 63 en coordenadas X, Y y Z. Además, el espaciado de los puntos de la cuadrícula se estableció en 0,375 angstroms para ambos. Finalmente, los estudios de acoplamiento fueron realizados por AutoDock 4.2 usando el algoritmo genético Lamarckiano.

Con el fin de reducir el espacio experimental necesario para descubrir un nuevo agente terapéutico, este estudio propone dos modelos computacionales innovadores denominados IEDTI y DEDTI. Pueden ayudar a identificar nuevos DTI mediante la incorporación de información heterogénea sobre fármacos y dianas. Los escenarios IEDTI y DEDTI aprovechan las interacciones fármaco-objetivo como etiqueta de predicción. Como descripción general (Figs. 1 y 2) representan IEDTI y DEDTI, respectivamente. Ambos modelos extraen cuatro tipos de similitudes entre fármacos y tres tipos de similitudes para dianas. Ambos escenarios manipulan la versión acumulativa de drogas y objetivos como sus insumos. IEDTI consta de tres módulos CNN. Los módulos primero y segundo generan los vectores de incrustación de fármacos y dianas, respectivamente. Por lo tanto, sus entradas son vectores de características de la acumulación de matrices de similitud y sus salidas son nuevos vectores de incorporación. Para tener una generación significativa de incrustaciones, se aplica un método de agrupamiento a las matrices de acumulación. La agrupación ayuda a identificar etiquetas de medicamentos y objetivos. Los módulos DNN generan vectores de incrustación similares para entradas con la misma etiqueta. El tercer módulo identifica la interacción de cada par fármaco-objetivo. Por lo tanto, su entrada es la concatenación de nuevos vectores de incrustación de pares fármaco-objetivo, y su salida es un valor binario que muestra la existencia o ausencia de cualquier interacción. DEDTI, por otro lado, consta de un solo módulo DNN. Las entradas de este módulo son matrices de similitud acumuladas directamente de cada par fármaco-objetivo bajo examen, y su salida es su identificador de interacción. La sección "Métodos" describe ambos escenarios en detalle.

El rendimiento de predicción de nuestros modelos se evaluó mediante un procedimiento de validación cruzada de diez veces. Dividimos el conjunto de datos en conjuntos de prueba y de entrenamiento, donde \(10\%\) del conjunto de datos se utilizó como conjunto de prueba, y el \(90\%\) restante se usó como conjunto de entrenamiento. Luego, comparamos nuestros resultados con los resultados de cinco métodos de vanguardia para la predicción de DTI, incluidos HIDTI22 y NeoDTI20, MolTrans23, TransDTI24 e IMCHGAN41. Además, debido al desequilibrio de datos en muestras positivas frente a negativas de DTI, informamos los resultados con proporciones de positivo a negativo de 1:3 y 1:5, como es común en la literatura22. Las tablas 2 y 3 ilustran los resultados para estas dos proporciones de muestreo, respectivamente. Comparamos los resultados en función de AUC-ROC y AUPR, precisión, recuperación, puntuación F1 y MCC. AUPR, F1-score y MCC son especialmente útiles cuando existe un desequilibrio de proporción entre las muestras positivas y negativas. IEDTI tiene un AUC-ROC más alto en comparación con los modelos HIDTI y NeoDTI. El formato HIDTI-simple tiene una AUPR más alta en proporciones de 1:3 y 1:5 que IEDTI. Sin embargo, la desviación estándar de los modelos HIDTI y NeoDTI es mucho más alta que la IEDTI. En otras palabras, IEDTI tiene menores fluctuaciones al ver pliegues diversos. Más importante aún, como muestra la tabla, DEDTI proporciona la mejor AUPR y AUC-ROC en todos los métodos con fluctuaciones menores en todos los índices y en ambas métricas. Los resultados muestran que IEDTI y DEDETI, especialmente este último, funcionan bien en la predicción de DTI. Las figuras 3a–f muestran los gráficos ROC y PR de IEDTI y DEDTI para todas las proporciones 1:1, 1:3 y 1:5. Cabe mencionar que lo mismo ocurre con los métodos IEDTI y DEDTI para la relación de 1:10.

Curvas PR y ROC de diferentes proporciones de muestreo del conjunto de datos DTINet.

Las representaciones t-NSE de fármacos y objetivos en el conjunto de datos DTINet. Las figuras de la izquierda muestran las representaciones de las drogas y los objetivos después de aplicar las k-medias. Como muestran las cifras, las clases no se han desarticulado por completo; sin embargo, al aplicar los módulos de triplete, tanto los fármacos como los objetivos se separan por completo (figuras de la derecha).

Aplicamos DEDTI, IMCHGAN, AutoDTI++ e IRNMF en conjuntos de datos de referencia31 (conjuntos de datos de enzimas, canales iónicos, GPCR y receptores nucleares). Sus gráficos de barras AUC-ROC y AUPR se muestran en la Fig. 5. Como muestran los resultados, IMCHGAN y DEDTI tienen una fuerte competencia en los conjuntos de datos estándar de oro. Si bien IMCHGAN tiene el AUC-ROC más alto en GPCR y Receptor nuclear, DEDTI tiene el AUC-ROC más alto en conjuntos de datos de enzimas y canales iónicos. Además, el diagrama de gráficos de barras muestra que DEDTI tiene la AUPR más alta en tres de cuatro puntos de referencia. Además, la Tabla 4 presenta la comparación de DEDTI, TransDTI, MolTrans, TransformarCPI, DeepConvDTI y DeepDTA en conjuntos de datos de referencia. El DEDTI es el ganador en todos los casos excepto en dos.

Comparación de rendimiento entre DEDTI con IRNMF, AutoDTI++ e IMCHGAN en los conjuntos de datos de referencia31. Gráficos de barras AUC-ROC y AUPR.

Nuestro modelo utiliza la información de similitudes acumulativas para predecir las interacciones novedosas entre fármacos y objetivos (Datos complementarios 1). Seleccionamos DTI con un puntaje de predicción de no menos de 0.9 como las sugerencias de DEDTI mejor clasificadas. Entre las 126 predicciones mejor clasificadas (Fig. 6), descubrimos que muchas de ellas son verificables con evidencia científica de la literatura. Por ejemplo, nuestra lista de predicciones muestra la interacción entre el fentanilo y el receptor de dopamina D2 (DRD2), y esta predicción puede estar respaldada por estudios previos42.

Sin embargo, entre la lista de las 126 principales predicciones de DEDTI, hay algunas interacciones novedosas con menos atención en la literatura. Por ejemplo, dos de estas interacciones son tetrabenazina-receptor de adenosina A1 (ADORA1) y clorzoxazona-prostaglandina-endoperóxido sintasa 2 (PTGS2). El receptor de adenosina A1 junto con otros cuatro receptores forman un subgrupo definido de receptores acoplados a proteína G43. Esta proteína se distribuye por todo el cuerpo humano y regula la función renal44. Además, estudios recientes muestran que la eliminación de ADORA1 en las líneas celulares de melanoma humano suprime significativamente la proliferación celular, y esta supresión conduce a un efecto antitumoral45. Aunque según la base de datos KEGG46 existen 25 fármacos aprobados que afectan a ADORA1, el fármaco predicho por DEDTI (tetrabenazina) no se menciona en esta lista. La tetrabenazina se ha conocido como un agente que agota la dopamina desarrollado para el tratamiento de la esquizofrenia. Además, muchos estudios demostraron que este fármaco podría ser eficaz en el tratamiento de trastornos psicóticos y trastornos del movimiento hipercinético47. La prostaglandina-endoperóxido sintasa 2 (PTGS2), también conocida como ciclooxigenasa 2 (COX-2), es responsable de la producción de prostaglandinas y contribuye al embarazo temprano48. Además, se han informado numerosos estudios sobre el papel de PTGS2 en la patogénesis de muchas enfermedades, como la inflamación, el cáncer cardiovascular, gastrointestinal y colorrectal49. Los fármacos antiinflamatorios no esteroideos (AINE) se utilizan habitualmente como inhibidores de esta enzima50. La clorzoxazona es un relajante muscular aprobado por la FDA, que también fue predicho por DEDTI como un fármaco potencial para interactuar con PTGS2. A pesar de la disponibilidad de medicamentos aprobados para estos dos objetivos mencionados anteriormente, la identificación de un nuevo medicamento a partir de los medicamentos aprobados existentes siempre es considerable. Por lo tanto, sería fascinante comprobar si las interacciones previstas entre estos dos fármacos y los objetivos pueden validarse aún más.

Se realizaron estudios de acoplamiento molecular para analizar las posibles interacciones entre la clorzoxazona y la tetrabenazina complejada con PTGS2 y ADORA1, respectivamente. Las conformaciones obtenidas se agruparon en función de las similitudes conformacionales y la desviación posicional de la raíz cuadrada media (RMSD)51. Luego, se seleccionó la mejor pose con la energía de enlace más baja (\(\Delta G\)) para cada objetivo. Con el fin de investigar las fuerzas de interacción intermolecular, los resultados del acoplamiento se visualizaron utilizando Biovia Discovery Studio Visualizer52. Las energías libres de unión de clorzoxazona y tetrabenazina complejadas con PTGS2 y ADORA1 se muestran en la Tabla 5. Ambos fármacos predichos se unen a su objetivo con afinidades de unión aceptables y en una posición correcta. La clorzoxazona se une a PTGS2 formando un enlace de hidrógeno con Ser 530 y otras interacciones con Val 523, Leu352, Phe 518, Met 522, Gly 526, Lue 384, Phe 381, Tyr 385, Trp 387, Ala 527, Val 349 y Ser 353 La figura 7 muestra sus representaciones 3D y 2D. Como muestra la Fig. 8, el complejo de tetrabenazina-ADORA1 está formado por un intermediario de una interacción de hidrógeno entre el fármaco y Asn 1359. Además, otros aminoácidos como Ala 1171, Ile 1174, Tyr 1376, Tyr 1117, Phe 1276 , Val 1192 y Leu 1355 también participaron en la formación de este complejo fármaco-proteína.

Visualización de los 126 DTI principales predichos por DEDTI. Los objetivos se muestran en círculos verdes y los medicamentos en cuadros rosas. Las interacciones novedosas entre el fármaco y el objetivo están marcadas con bordes negros.

Representaciones 2D y 3D de la pose acoplada para la interacción prevista entre clorzoxazona y PTGS2. Los enlaces de hidrógeno están representados por las líneas discontinuas verdes.

Representaciones 2D y 3D de la pose acoplada para la interacción predicha entre tetrabenazina y ADORA1. Los enlaces de hidrógeno están representados por las líneas discontinuas verdes.

Realizamos la prueba t con un nivel de error de \(5\%\) para verificar la importancia de las diferencias en los resultados en tres métodos de IEDTI, DEDTI e IMCHGAN en todos los conjuntos de datos. Aquí informamos los resultados de DTI con una proporción de muestreo negativa de 1:1, DTI con una proporción de muestreo negativa de 1:3 y todos los conjuntos de datos estándar. En todos los casos, el análisis estadístico estuvo por debajo del nivel de error, excepto en el caso de comparar DEDTI e IMCHGAN en el conjunto de datos DTI con una relación de muestreo negativa de 1:1. En otras palabras, en todos los casos, DEDTI es significativamente mejor que los otros métodos. La excepción ocurre para la relación 1:3, en la que DEDTI e IMCHGAN funcionan por igual. La Tabla 6 muestra los resultados del valor p.

Hemos introducido dos métodos, IEDTI y DEDTI, que necesitan las interacciones fármaco-objetivo no como información de características de entrada, sino como etiquetas para la predicción de DTI. En otras palabras, nuestros métodos son inductivos, lo que contrasta con NeoDTI20. NeoDTI utiliza información sobre el objetivo del fármaco en el espacio de funciones, que es bastante común en los métodos de redes neuronales gráficas. Lo que es más importante, tanto las muestras de entrenamiento como las de prueba son visibles en la fase de entrenamiento del método, lo que hace que este método sea transductivo. Los métodos transductivos no son adecuados para la predicción.

IEDTI y DEDTI utilizan módulos DNN para sus misiones. el primero usa tres módulos (dos para la producción de incrustaciones y uno para predicción y el segundo usa un módulo (el módulo de predicción). además del número de módulos, ambos tienen una complejidad computacional menor en comparación con el estado del -Métodos de última generación, por ejemplo, HIDTI, NeoDTI e IMCHGAN Además, IEDTI adquiere incrustaciones significativas directamente en lugar de utilizar incrustaciones disponibles y listas para usar.

Por otro lado, IEDTI, al igual que los métodos de la literatura como NeoDTI e HIDTI, aprovecha la transformación del espacio de características original en un nuevo espacio de incrustación correspondiente. Su objetivo es tener una representación significativa de los datos y una menor sobrecarga computacional para la predicción. Mostramos esto en el análisis de complejidad en la sección Método. Sin embargo, tales transformaciones dependen del método de conversión y de los datos etiquetados. En muchos casos, la agrupación de datos no devuelve un valor adecuado. DEDTI presenta que los métodos más sencillos sin la sobrecarga adicional de la conversión integrada tienen un mejor rendimiento en la predicción de DTI. Es necesario tener mejores métodos para incrustar conversiones.

Además, los métodos deben ser inductivos para poder predecir DTI. Según la navaja de Occam, el método más sencillo es la mejor opción para los datos. Una vez más, DEDTI ofrece una representación perspicaz de esta idea. Información para DTI, es decir, interacciones fármaco-objetivo, interacción fármaco-fármaco, similitud fármaco-fármaco, asociaciones fármaco-efecto secundario, asociaciones fármaco-enfermedad, interacciones objetivo-objetivo, interacciones objetivo-enfermedad, similitudes de objetivos. Otra observación importante de este trabajo son las ventajas de sumar matrices similares en lugar de concatenarlas. Convertir las matrices de información en matrices de similitud hace que su dimensión sea igual, y esta conversión proporciona la capacidad de sumar la información.

La suma de matrices de similitud tiene un espacio de características más pequeño que la concatenación. Por ejemplo, cada vector de fármaco tiene un tamaño de 708 en comparación con otros métodos con una longitud de vector de características superior a miles. Además, el espacio de características conciso evita la escasa representación de los vectores de características. En otras palabras, cada muestra de droga tiene una representación más densa, haciéndola más significativa.

La representación más densa es otra razón por la que DEDTI tiene el mejor rendimiento en todos los métodos. En particular, además de la red de predicción profunda, DEDTI incluye los vectores de similitud resumidos como la representación característica tanto del fármaco como del objetivo. Mejorar la forma de incrustaciones de funciones y mejorar el método inductivo y predictivo son elixires de la predicción DTI.

Los conjuntos de datos generados y/o analizados durante el estudio actual están disponibles en el repositorio IEDTI-DEDTI, github.com/BioinformaticsIASBS/IEDTI-DEDTI.

Li, J. et al. Un estudio de las tendencias actuales en el reposicionamiento computacional de fármacos. Breve. Bioinformar. 17, 2–12 (2016).

Académico de Google de PubMed

Truong, TT, Panizzutti, B., Kim, JH y Walder, K. Reutilización de fármacos a través del análisis de redes: Oportunidades para los trastornos psiquiátricos. Farmacéutica 14, 1464 (2022).

PubMed PubMed Central Google Académico

Dick, K. et al. La perspectiva recíproca como superaprendiz mejora la predicción de la interacción fármaco-objetivo (musdti). ciencia Rep. 12, 1–19 (2022).

Google Académico

Ezzat, A., Wu, M., Li, X.-L. y Kwoh, CK-K. Predicción computacional de interacciones fármaco-objetivo utilizando enfoques quimiogenómicos: una encuesta empírica. Breve. Bioinformar. 20, 1337–1357 (2019).

CAS PubMed Google Académico

Najm, M., Azencott, C.-A., Playe, B. & Stoven, V. Identificación de objetivos de fármacos con aprendizaje automático: cómo elegir ejemplos negativos. En t. J. Mol. ciencia 22, 5118 (2021).

PubMed PubMed Central Google Académico

Kaushik, AC, Mehmood, A., Dai, X. y Wei, D.-Q. Un análisis quimiogénico comparativo para predecir el par fármaco-objetivo a través de enfoques de aprendizaje automático. ciencia Rep. 10, 1–11 (2020).

Google Académico

Jacob, L. y Vert, J.-P. Predicción de la interacción proteína-ligando: un enfoque quimiogenómico mejorado. Bioinformática 24, 2149–2156 (2008).

CAS PubMed PubMed Central Google Académico

Hu, L. et al. Sselm-neg: máquina de aprendizaje extremo basada en búsqueda esférica para la predicción de la interacción entre el fármaco y el objetivo. BMC Bioinformática 24, 38 (2023).

CAS PubMed PubMed Central Google Académico

Mongia, A. & Majumdar, A. Predicción de la interacción fármaco-objetivo utilizando la minimización de la norma nuclear regularizada de gráficos múltiples. Plos One 15, e0226484 (2020).

CAS PubMed PubMed Central Google Académico

Zhou, J., Li, Y., Huang, W., Shi, W. y Qian, H. Fuente y exploración de los péptidos utilizados para construir conjugados de péptido-fármaco. EUR. J.Med. química 224, 113712 (2021).

CAS PubMed Google Académico

Luo, Y. et al. Un enfoque de integración de red para la predicción de la interacción fármaco-objetivo y el reposicionamiento computacional de fármacos a partir de información heterogénea. Nat. común 8, 1–13 (2017).

ANUNCIOS Google Académico

Carón, PR et al. Enfoques quimiogenómicos para el descubrimiento de fármacos. actual Opinión química Biol. 5, 464–470 (2001).

CAS PubMed Google Académico

Playe, B. & Stoven, V. Evaluación de métodos de aprendizaje profundo y superficial en quimiogenómica para la predicción de la especificidad de fármacos. J. Cheminform. 12, 11 (2020).

PubMed PubMed Central Google Académico

Sawada, R., Kotera, M. & Yamanishi, Y. Evaluación comparativa de una amplia gama de descriptores químicos para la predicción de la interacción fármaco-objetivo utilizando un enfoque quimiogenómico. mol. Informar. 33, 719–731 (2014).

CAS PubMed Google Académico

Sharma, A. & Rani, R. Una revisión sistemática de las aplicaciones del aprendizaje automático en la predicción y el diagnóstico del cáncer. Arco. computar Métodos Ing. 28, 4875–4896 (2021).

Google Académico

Tang, X. et al. Indicador regularizado de reutilización de medicamentos basado en el método de factorización de matriz no negativa para covid-19. Frente. inmunol. 11, 603615. https://doi.org/10.3389/fimmu.2020.603615 (2021).

CAS PubMed PubMed Central Google Académico

Güvenç Paltun, B., Mamitsuka, H. & Kaski, S. Mejora de la predicción de la respuesta a fármacos mediante la integración de múltiples fuentes de datos: factorización de matriz, enfoques basados ​​en kernel y redes. Breve. Bioinformar. 22, 346–359 (2021).

Académico de Google de PubMed

Picard, M., Scott-Boyer, M.-P., Bodein, A., Périn, O. & Droit, A. Estrategias de integración de datos multiómicos para el análisis de aprendizaje automático. computar Estructura. Biotecnología. J. 19, 3735–3746 (2021).

CAS PubMed PubMed Central Google Académico

Hashemi, SM, Zabihian, A., Hooshmand, M. y Gharaghani, S. Draw: Predicción de antivirales covid-19 mediante aprendizaje profundo: una objeción sobre el uso de la factorización matricial. BMC Bioinforme. 24, 52 (2023).

Google Académico

Wan, F., Hong, L., Xiao, A., Jiang, T. y Zeng, J. Neodti: Integración neuronal de información vecina de una red heterogénea para descubrir nuevas interacciones entre fármacos y objetivos. Bioinformática 35, 104–111 (2019).

CAS PubMed Google Académico

Sajadi, SZ, Zare Chahooki, MA, Gharaghani, S. & Abbasi, K. Autodti++: aprendizaje profundo no supervisado para la predicción de dti mediante codificadores automáticos. BMC Bioinforme. 22, 1–19 (2021).

Soh, J., Park, S. & Lee, H. Hidti: Integración de información heterogénea para predecir las interacciones entre el fármaco y el objetivo. ciencia Rep. 12, 1–12 (2022).

Google Académico

Huang, K., Xiao, C., Glass, LM & Sun, J. MolTrans: Transformador de interacción molecular para la predicción de la interacción fármaco-objetivo. Bioinformática 37, 830–836 (2021).

CAS PubMed Google Académico

Kalakoti, Y., Yadav, S. & Sundar, D. TransDTI: modelos de lenguaje basados ​​en transformadores para estimar DTI y crear un flujo de trabajo de recomendación de medicamentos. ACS Omega 7, 2706–2717 (2022).

CAS PubMed PubMed Central Google Académico

Senior, AW et al. Predicción mejorada de la estructura de proteínas utilizando potenciales de aprendizaje profundo. Naturaleza 577, 706–710. https://doi.org/10.1038/s41586-019-1923-7 (2020).

ANUNCIOS CAS PubMed Google Académico

Knox, C. et al. Drugbank 3.0: un recurso integral para la investigación "ómica" de las drogas. Ácidos Nucleicos Res. 39, D1035–D1041 (2010).

PubMed PubMed Central Google Académico

Keshava Prasad, T. et al. Base de datos de referencia de proteínas humanas-actualización de 2009. Ácidos Nucleicos Res. 37, D767–D772 (2009).

CAS PubMed Google Académico

Davis, AP et al. La base de datos de toxicogenómica comparativa: actualización de 2013. Nucleic Acids Res. 41, D1104–D1114 (2013).

ANUNCIOS CAS PubMed Google Académico

Kuhn, M., Campillos, M., Letunic, I., Jensen, LJ & Bork, P. Un recurso de efectos secundarios para capturar los efectos fenotípicos de las drogas. mol. sist. Biol. 6, 343 (2010).

PubMed PubMed Central Google Académico

Xuan, P., Chen, B., Zhang, T. et al. Predicción de interacciones fármaco-objetivo basada en aprendizaje de representación de red y aprendizaje de conjunto. En IEEE/ACM Transactions on Computational Biology and Bioinformatics (2020).

Yamanishi, Y., Araki, M., Gutteridge, A., Honda, W. y Kanehisa, M. Predicción de redes de interacción fármaco-objetivo a partir de la integración de espacios químicos y genómicos. Bioinformática 24, i232–i240 (2008).

CAS PubMed PubMed Central Google Académico

Han, J. & Kamber, M. Minería de datos: conceptos y técnicas. Morgan Kaufmann 340, 94104–3205 (2006).

Matemáticas Google Académico

Yuan, S.-T. & Sun, J. Similitud de coseno estructurado basada en ontología en el resumen de documentos de voz. En Conferencia internacional IEEE/WIC/ACM sobre inteligencia web (WI'04), 508–513 (IEEE, 2004).

Singh, RH, Maurya, S., Tripathi, T., Narula, T. & Srivastav, G. Sistema de recomendación de películas usando similitud de coseno y knn. En t. J. Ing. Adv. Tecnología 9, 556–559 (2020).

Google Académico

Bordes, A., Usunier, N., Garcia-Duran, A., Weston, J. y Yakhnenko, O. Traducción de incrustaciones para modelar datos multirelacionales. Adv. Información neuronal Proceso. sist. 26 (2013).

Chicco, D. & Jurman, G. Las ventajas del coeficiente de correlación de Matthews (mcc) sobre el puntaje f1 y la precisión en la evaluación de la clasificación binaria. Genoma BMC. 21, 6. https://doi.org/10.1186/s12864-019-6413-7 (2020).

Google Académico

Berman, HM et al. El banco de datos de proteínas. Ácidos Nucleicos Res. 28, 235–242. https://doi.org/10.1093/nar/28.1.235 (2000).

ANUNCIOS CAS PubMed PubMed Central Google Académico

Kim, S. et al. PubChem en 2021: nuevo contenido de datos e interfaces web mejoradas. Ácidos Nucleicos Res. 49, D1388–D1395. https://doi.org/10.1093/nar/gkaa971 (2020).

CAS PubMed Central Google Académico

Guex, N. & Peitsch, MC SWISS-MODEL y Swiss-PdbViewer: un entorno para el modelado comparativo de proteínas. Electroforesis 18, 2714–2723 (1997).

CAS PubMed Google Académico

Laskowski, RA & Swindells, MB Ligplot+: diagramas de interacción de proteínas y ligandos múltiples para el descubrimiento de fármacos. J. Chem. información Modelo. 51, 2778–2786. https://doi.org/10.1021/CI200227U (2011).

CAS PubMed Google Académico

Li, J., Wang, J., Lv, H., Zhang, Z. y Wang, Z. IMCHGAN: finalización de matriz inductiva con redes de atención de gráficos heterogéneos para la predicción de interacciones fármaco-objetivo. Trans. IEEE/ACM. computar Biol. Bioinformar. 19, 655–665 (2022).

CAS PubMed Google Académico

Lipiński, PFJ & Matalińska, J. Estructura de fentanilo como andamio para analgésicos multiobjetivo opioides/no opioides. En t. J. Mol. ciencia 23, https://doi.org/10.3390/ijms23052766 (2022).

Fredholm, BB Receptores de adenosina como dianas farmacológicas. Exp. Resolución celular 316, 1284–1288 (2010).

CAS PubMed PubMed Central Google Académico

Hocher, B. Antagonistas del receptor de adenosina A1 en investigación y desarrollo clínicos. Riñón Int. 78, 438–445 (2010).

CAS PubMed Google Académico

Liu, H. et al. La inhibición de Adora1 promueve la evasión inmune tumoral al regular el eje atf3-pd-l1. Cancer Cell 37, 324-339.e8. https://doi.org/10.1016/j.ccell.2020.02.006 (2020).

CAS PubMed Google Académico

Kanehisa, M. & Goto, S. Kegg: Enciclopedia de genes y genomas de Kioto. Ácidos Nucleicos Res. 28, 27–30 (2000).

CAS PubMed PubMed Central Google Académico

Kenney, C. & Jankovic, J. Tetrabenazina en el tratamiento de los trastornos del movimiento hipercinético. Experto Rev. Neurother. 6, 7–17 (2006).

CAS PubMed Google Académico

Anamthathmakula, P. & Winuthayanon, W. Prostaglandina-endoperóxido sintasa 2 (PTGS2) en el oviducto: roles en la fertilización y el desarrollo temprano del embrión. Endocrinología 162 (2021).

Jaén, RI, Prieto, P., Casado, M., Martín-Sanz, P. & Boscá, L. Modificaciones postraduccionales de la prostaglandina-endoperóxido sintasa 2 en el cáncer colorrectal: una actualización. Mundo J. Gastroenterol. 24, 5454–5461 (2018).

PubMed PubMed Central Google Académico

Rao, PP & Knaus, EE Evolución de los fármacos antiinflamatorios no esteroideos (AINE): inhibición de la ciclooxigenasa (cox) y más allá. J. Pharm. Farmacia ciencia Publicación Can. Soc. Farmacia ciencia Société canadienne des sciences pharmaceutiques 11(2), 81s–110s (2008).

Google Académico

Iman, M., Saadabadi, A. y Davood, A. (2013). Estudios de acoplamiento del farmacóforo de ftalimida como bloqueador de los canales de sodio. Irán. J. Medicina Básica. ciencia 16, 1016–1021. https://doi.org/10.22038/ijbms.2013.1684

Systems, D. Biovia, Discovery Studio Visualizer, versión 2019 (Dassault Systems, San Diego, 2020).

Google Académico

Descargar referencias

Los autores desean agradecer a Alireza Abdi por su ayuda en la preparación del análisis de la prueba.

Laboratorio de Bioinformática y Diseño de Fármacos (LBD), Instituto de Bioquímica y Biofísica, Universidad de Teherán, Teherán, Irán

Arash Zabihian y Sajjad Gharaghani

Departamento de Informática y Tecnología de la Información, Instituto de Estudios Avanzados en Ciencias Básicas (IASBS), Zanjan, Irán

Faeze Zakaryapour Sayyad, Seyyed Morteza Hashemi, Reza Shami Tanha y Mohsen Hooshmand

Departamento de Bioinformática, Campus Internacional de Kish, Universidad de Teherán, Kish, Irán

Arash Zabihian

También puede buscar este autor en PubMed Google Scholar

También puede buscar este autor en PubMed Google Scholar

También puede buscar este autor en PubMed Google Scholar

También puede buscar este autor en PubMed Google Scholar

También puede buscar este autor en PubMed Google Scholar

También puede buscar este autor en PubMed Google Scholar

AZ, MH y FZS conceptualizaron la idea. FZS y SMH implementaron los métodos y prepararon los resultados. RS actualizó y preparó el método IMCHGAN. AZ, MH y FZS escribieron el artículo. MH, AZ, FZS y SG revisaron el manuscrito.

Correspondencia a Mohsen Hooshmand o Sajjad Gharaghani.

Los autores declaran no tener conflictos de intereses.

Springer Nature se mantiene neutral con respecto a los reclamos jurisdiccionales en mapas publicados y afiliaciones institucionales.

Acceso abierto Este artículo tiene una licencia internacional Creative Commons Attribution 4.0, que permite el uso, el intercambio, la adaptación, la distribución y la reproducción en cualquier medio o formato, siempre que se otorgue el crédito correspondiente al autor o autores originales y a la fuente. proporcionar un enlace a la licencia Creative Commons e indicar si se realizaron cambios. Las imágenes u otro material de terceros en este artículo están incluidos en la licencia Creative Commons del artículo, a menos que se indique lo contrario en una línea de crédito al material. Si el material no está incluido en la licencia Creative Commons del artículo y su uso previsto no está permitido por la regulación legal o excede el uso permitido, deberá obtener el permiso directamente del titular de los derechos de autor. Para ver una copia de esta licencia, visite http://creativecommons.org/licenses/by/4.0/.

Reimpresiones y permisos

Zabihian, A., Sayyad, FZ, Hashemi, SM et al. DEDTI versus IEDTI: modelos eficientes y predictivos de interacciones fármaco-objetivo. Informe científico 13, 9238 (2023). https://doi.org/10.1038/s41598-023-36438-0

Descargar cita

Recibido: 27 febrero 2023

Aceptado: 03 junio 2023

Publicado: 07 junio 2023

DOI: https://doi.org/10.1038/s41598-023-36438-0

Cualquier persona con la que compartas el siguiente enlace podrá leer este contenido:

Lo sentimos, un enlace para compartir no está disponible actualmente para este artículo.

Proporcionado por la iniciativa de intercambio de contenido Springer Nature SharedIt

Al enviar un comentario, acepta cumplir con nuestros Términos y Pautas de la comunidad. Si encuentra algo abusivo o que no cumple con nuestros términos o pautas, márquelo como inapropiado.