Métodos de aprendizaje automático para biomarcadores radiómicos cuantitativos

Noticias

HogarHogar / Noticias / Métodos de aprendizaje automático para biomarcadores radiómicos cuantitativos

Oct 13, 2023

Métodos de aprendizaje automático para biomarcadores radiómicos cuantitativos

Informes científicos volumen 5,

Scientific Reports volumen 5, Número de artículo: 13087 (2015) Citar este artículo

34k Accesos

600 citas

16 Altmetric

Detalles de métricas

La radiómica extrae y extrae una gran cantidad de características de imágenes médicas que cuantifican las características fenotípicas del tumor. Los enfoques de aprendizaje automático altamente precisos y confiables pueden impulsar el éxito de las aplicaciones radiómicas en la atención clínica. En este estudio radiómico, se examinaron catorce métodos de selección de características y doce métodos de clasificación en términos de rendimiento y estabilidad para predecir la supervivencia global. Se extrajeron un total de 440 características radiómicas de las imágenes de tomografía computarizada (TC) previas al tratamiento de 464 pacientes con cáncer de pulmón. Para garantizar la evaluación imparcial de los diferentes métodos de aprendizaje automático, se utilizaron implementaciones disponibles públicamente junto con configuraciones de parámetros informadas. Además, utilizamos dos cohortes radiómicas independientes para entrenamiento (n = 310 pacientes) y validación (n = 154 pacientes). Identificamos que el método de selección de características basado en la prueba de Wilcoxon WLCX (estabilidad = 0,84 ± 0,05, AUC = 0,65 ± 0,02) y un método de clasificación RF de bosque aleatorio (RSD = 3,52 %, AUC = 0,66 ± 0,03) tuvieron el rendimiento pronóstico más alto con alta estabilidad contra perturbación de datos. Nuestro análisis de variabilidad indicó que la elección del método de clasificación es la fuente más dominante de variación del rendimiento (34,21 % de la varianza total). La identificación de métodos de aprendizaje automático óptimos para aplicaciones radiómicas es un paso crucial hacia biomarcadores radiómicos estables y clínicamente relevantes, que proporcionan una forma no invasiva de cuantificar y monitorear las características fenotípicas del tumor en la práctica clínica.

La 'oncología de precisión' se refiere a la personalización de la atención del cáncer, donde las prácticas y/o terapias se adaptan a pacientes individuales. Tal proceso de personalización puede maximizar el éxito de las intervenciones preventivas y terapéuticas con efectos secundarios mínimos. La mayor parte de la investigación relacionada con la oncología de precisión se ha centrado en la caracterización molecular de los tumores utilizando enfoques basados ​​en la genómica, que requieren la extracción de tejido mediante biopsias del tumor. Aunque se han aplicado con éxito varios enfoques basados ​​en la genómica en oncología clínica1, existen limitaciones inherentes a los ensayos basados ​​en biopsias. Los tumores son espacial y temporalmente heterogéneos y, a menudo, se requieren biopsias tumorales repetidas, que aumentan el riesgo para un paciente, para capturar la heterogeneidad molecular de los tumores. Estos desafíos éticos y clínicos relacionados con los ensayos basados ​​en biopsias pueden abordarse mediante imágenes médicas, que es una práctica de rutina para el diagnóstico y la estadificación del cáncer en oncología clínica. A diferencia de las biopsias, las imágenes médicas no son invasivas y pueden proporcionar información sobre el fenotipo tumoral completo, incluida la heterogeneidad intratumoral. Además, los avances recientes en máquinas de adquisición de imágenes de alta resolución y hardware computacional permiten la cuantificación detallada y eficiente de las características fenotípicas del tumor. Por lo tanto, las imágenes médicas brindan oportunidades sin precedentes para la oncología de precisión.

"Radiómica", un campo emergente y prometedor, plantea la hipótesis de que las imágenes médicas proporcionan información crucial sobre la fisiología del tumor, que podría aprovecharse para mejorar el diagnóstico del cáncer2. Proporciona una cuantificación completa de los fenotipos tumorales al extraer y extraer una gran cantidad de características de imágenes cuantitativas3. Varios estudios han investigado diversas características radiómicas en términos de su capacidad pronóstica o predictiva y su fiabilidad en diferentes entornos clínicos4,5,6,7,8,9,10. Diferentes estudios han demostrado las capacidades discriminatorias de las características radiómicas para la estratificación de la histología tumoral6, los grados o estadios tumorales11 y los resultados clínicos8,12,13. Además, algunos estudios han informado la asociación entre las características radiómicas y los patrones de expresión génica subyacentes8,14,15.

El "aprendizaje automático" se puede definir en términos generales como métodos/modelos computacionales que utilizan la experiencia (datos) para mejorar el rendimiento o hacer predicciones precisas16. Estos métodos computacionales programables son capaces de "aprender" de los datos y, por lo tanto, pueden automatizar y mejorar el proceso de predicción. Los modelos predictivos y pronósticos con alta precisión, confiabilidad y eficiencia son factores vitales que impulsan el éxito de la radiómica. Por lo tanto, es esencial comparar diferentes modelos de aprendizaje automático para biomarcadores clínicos basados ​​en radiómica. Como cualquier campo de minería de datos de alto rendimiento, la radiómica también subyace a la maldición de la dimensionalidad17, que debe abordarse mediante estrategias de selección de características adecuadas. Además, la selección de características también ayuda a reducir el sobreajuste de los modelos (aumentando la generalización). Por lo tanto, para reducir la dimensionalidad del espacio de características radiómicas y mejorar el rendimiento de los modelos predictivos basados ​​en radiómica, se deben investigar a fondo diferentes métodos de selección de características18. Sin embargo, dado que la radiómica es un campo de investigación emergente, la mayoría de los estudios publicados solo han evaluado las capacidades predictivas de las características radiómicas sin poner mucho énfasis en la comparación de diferentes métodos de modelado predictivo y selección de características. Solo unos pocos estudios recientes han investigado el efecto de diferentes métodos de clasificación de selección de características y aprendizaje automático en predicciones clínicas basadas en radiómica19,20, pero con tamaños de muestra limitados. Además, estos estudios carecían de una validación independiente de los resultados, lo que puede restringir la generalización de sus conclusiones.

En este estudio, investigamos un gran panel de enfoques de aprendizaje automático para la predicción de supervivencia basada en radiómica. Evaluamos 14 métodos de selección de características y 12 métodos de clasificación en términos de su rendimiento predictivo y estabilidad frente a la perturbación de datos. Estos métodos fueron elegidos por su popularidad en la literatura. Además, en el análisis se utilizaron implementaciones disponibles públicamente junto con configuraciones de parámetros informadas, lo que aseguró una evaluación imparcial de estos métodos. Se utilizaron dos cohortes independientes de cáncer de pulmón para el entrenamiento y la validación, con un total de imágenes y datos de resultados clínicos de 464 pacientes. La selección de características y el modelado predictivo se consideran componentes básicos importantes para la radiómica basada en datos de alto rendimiento. Por lo tanto, nuestra investigación podría ayudar en la identificación de enfoques óptimos de aprendizaje automático para estudios predictivos basados ​​en radiómica, lo que podría mejorar las aplicaciones de la radiómica no invasiva y rentable en oncología clínica.

En el análisis se utilizaron un total de 440 características radiómicas. Estas características radiómicas cuantificaron las características fenotípicas del tumor en imágenes de TC y se dividen en cuatro grupos de características: I) intensidad del tumor, II) forma, III) textura y IV) características de ondas. Las características basadas en la intensidad del tumor estimaron las estadísticas de primer orden del histograma de intensidad, mientras que las características de forma describieron las propiedades geométricas 3D del tumor. Las características texturales, derivadas de la co-ocurrencia de nivel de gris (GLCM)21 y las matrices de longitud de serie (GLLRM)22, cuantificaron la heterogeneidad intratumoral. Estas características texturales se calcularon promediando sus valores en las trece direcciones. Las características de wavelet son las representaciones de dominio transformadas de las características de intensidad y textura. Estas características se calcularon en diferentes descomposiciones de wavelet de la imagen original utilizando una transformación de wavelet coiflet. Se utilizó Matlab R2012b (The Mathworks, Natick, MA) para el análisis de imágenes. Las características radiómicas fueron extraídas automáticamente por nuestro software de análisis de imágenes radiómicas desarrollado internamente, que utiliza una versión adaptada de CERR (Entorno computacional para la investigación en radioterapia)23 y Matlab para el preprocesamiento de imágenes médicas. Las definiciones matemáticas de todas las características radiómicas, así como los métodos de extracción, se describieron previamente8.

En este estudio, empleamos dos cohortes de NSCLC de dos institutos diferentes de los Países Bajos: (1) Lung1: 422 pacientes con NSCLC tratados en la Clínica MAASTRO en Maastricht. (2) Lung2: 225 pacientes con NSCLC tratados en el Centro Médico de la Universidad de Radboud en Nijmegen. Las tomografías computarizadas, las delineaciones manuales y los datos clínicos estaban disponibles para todos los pacientes incluidos. Más detalles sobre los conjuntos de datos incluidos se describen en el Suplemento-A. Dicotomizamos los datos de supervivencia continuos censurados utilizando un tiempo de corte de 2 años. Los pacientes que vivieron más allá del tiempo de corte se etiquetaron como 1, mientras que los fallecidos se etiquetaron como 0. El objetivo del estudio fue estratificar a los pacientes en estas dos clases de supervivencia etiquetadas. Se considera que dos años es un tiempo de supervivencia relevante para los pacientes con NSCLC y varios otros estudios han diseñado sus modelos de predicción utilizando un límite de supervivencia de 2 años24,25,26. Se excluyeron los pacientes que fueron seguidos por menos de 2 años. Resultó en 310 pacientes en la cohorte de entrenamiento (Lung1) y 154 pacientes en la cohorte de validación (Lung2). Todas las características se normalizaron utilizando la normalización de puntuación Z.

En el análisis se utilizaron catorce métodos de selección de características basados ​​en enfoques de filtro (puntaje de Fisher (FSCR), relieve (RELF), puntaje T (TSCR), chi-cuadrado (CHSQ), Wilcoxon (WLCX), índice de Gini (GINI), Maximización de información mutua (MIM), Selección de características de información mutua (MIFS), Relevancia máxima de redundancia mínima (MRMR), Extracción de características infomax condicional (CIFE), Información mutua conjunta (JMI), Maximización de información mutua condicional (CMIM), Limitación de interacción (ICAP) ), Relevancia simétrica de doble entrada (DISR)). Para mejorar la legibilidad de este manuscrito, hemos definido todos los acrónimos relacionados con los métodos de selección de características en la Tabla 1. Elegimos estos métodos principalmente por su popularidad en la literatura, simplicidad y eficiencia computacional. Además, las implementaciones disponibles públicamente estaban disponibles para estos métodos27,28, lo que aumenta su reutilización. Los métodos de filtro son métodos de clasificación de características, que clasifican las características utilizando un criterio de puntuación. Todos los métodos de selección de características basados ​​en filtros se pueden dividir en dos categorías: métodos univariados y métodos multivariados. En el caso de los métodos univariados, el criterio de puntuación solo depende de la relevancia de la función, ignorando la redundancia de la función, mientras que los métodos multivariados investigan la interacción multivariada dentro de las funciones y el criterio de puntuación es una suma ponderada de la relevancia y la redundancia de la función. La relevancia de la característica es una medida de la asociación de la característica con la variable objetivo/resultado, mientras que la redundancia de la característica es la cantidad de redundancia presente en una característica particular con respecto al conjunto de características ya seleccionadas. Se puede obtener una descripción más detallada sobre la formulación teórica del problema de selección de características y cada uno de los métodos de selección de características utilizados en el Suplemento-B en línea.

En el aprendizaje automático, la clasificación se considera como una tarea de aprendizaje supervisado de inferir una función a partir de datos de entrenamiento etiquetados16. Los datos de entrenamiento consisten en un conjunto de ejemplos, donde cada ejemplo se representa como un par de un vector de entrada (características) y un valor de salida deseado (objetivo o etiqueta de categoría). El algoritmo de clasificación (clasificador) analiza los datos de entrenamiento e infiere una hipótesis (función), que se puede utilizar para predecir las etiquetas de las observaciones no vistas. En la literatura sobre aprendizaje automático se han propuesto muchos clasificadores pertenecientes a diferentes áreas de la informática y la estadística29. En nuestro estudio, utilizamos 12 clasificadores de aprendizaje automático que surgen de 12 familias de clasificadores (Bagging (BAG), Bayesian (BY), Boosting (BST), Árboles de decisión (DT), Análisis discriminante (DA), Modelos lineales generalizados (GLM) , splines de regresión adaptativa múltiple (MARS), vecinos más cercanos (NN), redes neuronales (Nnet), regresión de componentes principales y mínimos cuadrados parciales (PLSR), bosques aleatorios (RF) y máquinas de vectores de soporte (SVM)). Los acrónimos relacionados con los clasificadores se definen en la Tabla 1. Todos los clasificadores se implementaron utilizando el paquete R caret30, que proporciona una interfaz agradable para acceder a muchos algoritmos de aprendizaje automático en R. Además, también proporciona un marco fácil de usar para entrenar diferentes algoritmos de aprendizaje automático. modelos de aprendizaje. Los clasificadores se entrenaron usando la validación cruzada repetida (3 iteraciones repetidas) de 10 veces de la cohorte de entrenamiento (Lung1) y su desempeño predictivo se evaluó en la cohorte de validación (Lung2) usando el área bajo la curva ROC (AUC). Usamos configuraciones de parámetros que fueron definidas previamente por Fernández-Delgado et al.31 en un estudio comparativo exhaustivo de 179 clasificadores y 121 conjuntos de datos diferentes. Hemos enumerado los métodos de clasificación junto con sus parámetros y los paquetes R correspondientes en Supplementary-C en línea.

Para investigar y comparar diferentes métodos de selección y clasificación de características, creamos una cuadrícula de parámetros tridimensionales para el análisis. Para cada uno de los 14 métodos de selección de funciones, seleccionamos de manera incremental funciones que van desde 5 hasta 50, con un incremento de 5 funciones (n = 5, 10, 15, 20, …, 50). Estos subconjuntos de características seleccionadas luego se evaluaron utilizando cada uno de los 12 clasificadores de aprendizaje automático y el área bajo las curvas ROC (AUC).

Para evaluar la estabilidad de los métodos de selección de características, utilizamos una medida de estabilidad propuesta por Yu et al.32 bajo la configuración de perturbación de datos duros33. Cuantificamos la estabilidad de un método como la similitud entre los resultados obtenidos por el mismo método de selección de características, cuando se aplica en las dos particiones no superpuestas (de tamaño N/2) de la cohorte de entrenamiento (Lung1). Para calcular la similitud entre los dos conjuntos de características resultantes, se construyó un gráfico bipartito completo ponderado, donde los dos conjuntos de nodos correspondían a los dos conjuntos de características seleccionadas. Los pesos de los bordes se asignaron como el coeficiente de correlación de Spearman absoluto entre las características en los nodos. Luego aplicamos el algoritmo húngaro34 para identificar la coincidencia ponderada máxima entre los dos conjuntos de nodos y luego se cuantificó la similitud (estabilidad) como el costo de coincidencia final. Para cada método de selección de características, calculamos la estabilidad 100 veces utilizando un enfoque de arranque e informamos la mediana ± valores estándar en los resultados.

La estabilidad empírica de un clasificador se cuantificó utilizando la desviación estándar relativa (% RSD) y un enfoque de arranque. Primero seleccionamos 30 características representativas utilizando el método de selección de características WLCX basado en Wilcoxon y las usamos para calcular la estabilidad del clasificador. Para cada método de clasificación, entrenamos el modelo en la cohorte de entrenamiento submuestreada (tamaño N/2) y validamos el rendimiento en la cohorte de validación usando AUC. El submuestreo de la cohorte de capacitación se realizó 100 veces utilizando un enfoque de arranque. RSD es el valor absoluto del coeficiente de variación y, a menudo, se expresa en porcentaje. Aquí se definió como

donde y fueron la desviación estándar y la media de los 100 valores AUC respectivamente. Cabe señalar que una mayor estabilidad en el caso de los clasificadores corresponde a valores de RSD más bajos.

Para identificar los métodos altamente confiables y precisos, usamos los valores medianos de AUC y la estabilidad como umbrales. Creamos dos listas de clasificación basadas en AUC y estabilidad y citamos los métodos como altamente precisos y confiables, que se clasificaron en la mitad superior de ambas listas clasificadas. Los métodos de selección de características que tienen una estabilidad ≥0,735 (estabilidad mediana de todos los métodos de selección de características) y AUC ≥ 0,615 (AUC mediana de todos los métodos de selección de características) se consideran métodos altamente confiables y precisos. De manera similar, los métodos de clasificación que tienen RSD ≤ 5,97 (RSD mediana de todos los clasificadores) y AUC ≥ 0,61 (AUC mediana de todos los clasificadores) se consideran altamente confiables y precisos.

Hay tres factores experimentales principales, que pueden afectar potencialmente la predicción de supervivencia basada en radiómica: el método de selección de características, el método de clasificación y el número de características seleccionadas. Se utilizó ANOVA multifactorial para cuantificar la variabilidad en las puntuaciones de AUC aportadas por estos factores y sus interacciones. Para comparar la variabilidad aportada por cada factor, los componentes de la varianza estimada se dividieron por la varianza total.

Todo el análisis se realizó utilizando el software R (R Core Team, Viena, Austria) versión 3.1.2 y Matlab R2012b (The Mathworks, Natick, MA) con Windows 7.

Para investigar los enfoques de aprendizaje automático para biomarcadores radiómicos pronósticos, se extrajo un total de 440 características radiómicas de las regiones tumorales segmentadas de las imágenes de TC previas al tratamiento de dos cohortes independientes de NSCLC. El entrenamiento de selección y clasificación de características se realizó utilizando la cohorte de entrenamiento Lung1 (n = 310 pacientes), mientras que la cohorte de validación Lung2 (n = 154 pacientes) se utilizó para evaluar el rendimiento predictivo [ver Fig. 1].

Se extrajo un total de 440 características radiómicas de las regiones tumorales segmentadas de las imágenes de TC previas al tratamiento de 464 pacientes con NSCLC.

El entrenamiento de selección y clasificación de características se realizó utilizando la cohorte de entrenamiento Lung1 (n = 310), mientras que la cohorte Lung2 (n = 154) se utilizó como cohorte de validación.

El rendimiento predictivo de diferentes métodos de clasificación y selección de características se evaluó utilizando el área bajo la curva característica del operador del receptor (AUC). La Figura 2 muestra el rendimiento de la selección de características (en filas) y los métodos de clasificación (en columnas) utilizando 30 características seleccionadas, que son las 30 características mejor clasificadas, que resultaron en la selección de características. Para cada método de clasificación, hay 14 valores AUC correspondientes a los 14 métodos de selección de características diferentes. Usamos una mediana de los 14 valores de AUC como un AUC representativo de un clasificador. De manera similar, para cada método de selección de características, se utiliza una mediana de 12 AUC (correspondientes a 12 métodos de clasificación) como AUC representativa. Estos valores AUC representativos para los métodos de clasificación y selección de características se dan en la Tabla 2. Para los métodos de clasificación, el bosque aleatorio (RF) mostró el rendimiento predictivo más alto (AUC: 0,66 ± 0,03) (mediana ± std), mientras que el árbol de decisión (DT) ( AUC: 0,54 ± 0,04) mostró el rendimiento predictivo más bajo. En cuanto a los métodos de selección de características, el método WLCX basado en la prueba de Wilcoxon mostró el rendimiento predictivo más alto (AUC: 0,65 ± 0,02), mientras que el método CHSQ (AUC: 0,60 ± 0,03) y CIFE (AUC: 0,60 ± 0,04) tuvieron la mediana más baja. AUC. Repetimos el experimento anterior variando el número de características seleccionadas (rango 5–50). Los resultados correspondientes a 10, 20, 40 y 50 características representativas (mejor clasificadas) se informan en las Figuras complementarias S1, S2, S3 y S4 en línea. Además, los valores medios de AUC sobre cada uno de los factores experimentales (métodos de selección de características, métodos de clasificación y número de características seleccionadas) se representan en los mapas de calor en las Figuras complementarias S5, S6 y S7 en línea. Aquí también, el bosque aleatorio (RF) (clasificador) y el método basado en la prueba de Wilcoxon WLCX (selección de características) mostraron las AUC medianas más altas en la mayoría de los casos.

Mapa de calor que representa el rendimiento predictivo (AUC) de los métodos de selección de características (en filas) y clasificación (en columnas).

Se puede observar que los métodos de clasificación RF, BAG y BY y los métodos de selección de características WLCX, MRMR y MIFS muestran un rendimiento predictivo relativamente alto en muchos casos.

Evaluamos los métodos de selección de características en términos de su estabilidad frente al remuestreo de datos utilizando la configuración de perturbación de datos duros33. Observamos que MIM fue el método más estable (estabilidad = 0,94 ± 0,02) (mediana ± estándar) seguido de RELIEF (estabilidad = 0,91 ± 0,05) y WLCX (estabilidad = 0,84 ± 0,05), mientras que GINI (estabilidad = 0,68 ± 0,10) , JMI (estabilidad = 0,68 ± 0,05), CHSQ (estabilidad = 0,69 ± 0,09), DISR (estabilidad = 0,69 ± 0,05) y CIFE (estabilidad = 0,69 ± 0,05) mostraron una estabilidad relativamente baja [Tabla 2].

La estabilidad empírica de los métodos de clasificación se cuantificó utilizando la desviación estándar relativa (RSD) y un enfoque de arranque. Observamos que BY fue el método de clasificación más estable (RSD = 0,86 %), seguido de GLM (RSD = 2,19 %), PLSR (RSD = 2,24 %) y RF (RSD = 3,52 %). BST tuvo la desviación estándar relativa más alta en las puntuaciones de AUC (RSD = 8,23 %) y, por lo tanto, la estabilidad más baja entre los métodos de clasificación. Los valores de RSD (%) correspondientes a los 12 clasificadores se informan en la Tabla 2.

Los diagramas de dispersión de la Fig. 3 evalúan la estabilidad y el rendimiento de la predicción. Se puede observar que los métodos de selección de características WLCX (estabilidad = 0,84 ± 0,05, AUC = 0,65 ± 0,02), MIFS (estabilidad = 0,8 ± 0,03, AUC = 0,63 ± 0,03), MRMR (estabilidad = 0,74 ± 0,03, AUC = 0,63 ± 0,03) y FSCR (estabilidad = 0,78 ± 0,08, AUC = 0,62 ± 0,04) deberían preferirse ya que su estabilidad y desempeño predictivo fueron más altos que los valores medianos correspondientes en todos los métodos de selección de características (estabilidad = 0,735, AUC = 0,615). De manera similar para los métodos de clasificación, RF (RSD = 3,52 %, AUC = 0,66 ± 0,03), BY (RSD = 0,86 %, AUC = 0,64 ± 0,05), BAG (RSD = 5,56 %, AUC = 0,64 ± 0,03), GLM (RSD = 2,19 %, AUC = 0,63 ± 0,02) y PLSR (RSD = 2,24 %, AUC = 0,63 ± 0,02), la estabilidad y el rendimiento predictivo fueron superiores a los valores medios correspondientes (RSD = 5,93 %, AUC = 0,61).

Diagramas de dispersión entre la estabilidad y el rendimiento predictivo (AUC) de la selección de características (FS) (izquierda) y los métodos de clasificación (CF) (derecha).

Los métodos de selección de características que tienen una estabilidad ≥0,735 (estabilidad mediana de FS) y AUC ≥ 0,615 (AUC mediana de FS) se consideran métodos altamente confiables y predictivos. Del mismo modo, los métodos de clasificación que tienen RSD ≤ 5,97 (mediana de RSD de CF) y AUC ≥ 0,61 (mediana de AUC de CF) se consideran muy fiables y precisos. Los métodos altamente confiables y predictivos se muestran en una región cuadrada gris.

Para cuantificar los efectos de los tres factores experimentales (métodos de selección de características, métodos de clasificación y el número de características seleccionadas), realizamos un análisis de varianza multifactorial (ANOVA) en las puntuaciones de AUC. Observamos que los tres parámetros experimentales y sus interacciones son los factores significativos que afectan el rendimiento de la predicción [Fig. 4]. El método de clasificación fue la fuente de variabilidad más dominante, ya que explicó el 34,21 % de la varianza total en las puntuaciones de AUC. La selección de características representó el 6,25 %, mientras que la interacción del clasificador y la selección de características explicó el 23,03 % de la variación total. El tamaño del subconjunto de características seleccionado (representativo) solo compartió el 1,65 % de la varianza total [Fig. 4].

Variación de AUC explicada por los factores experimentales y sus interacciones.

Se puede observar que el método de clasificación fue la fuente de variabilidad más dominante. El tamaño del subconjunto de características seleccionado (representativo) compartió la menor variación total.

Las imágenes médicas son una fuente de información de uso rutinario y de fácil acceso en oncología clínica. Sirve como una herramienta de diagnóstico de cáncer no invasiva y rentable. La radiómica emplea los datos de imágenes médicas para la personalización de la atención del cáncer y, por lo tanto, agrega una dimensión nueva y prometedora a la oncología de precisión2,3,8. Además, también puede capturar la heterogeneidad intratumoral, que a menudo se considera un biomarcador importante en oncología12,35,36,37. Varios estudios han construido modelos predictivos basados ​​en radiómica para varios factores clínicos (grados tumorales, resultados de supervivencia, respuesta al tratamiento, etc.)12. Para la realización exitosa de análisis predictivos basados ​​en radiómica, se requiere evaluar y comparar diferentes métodos de modelado predictivo y selección de características, que fue el objetivo principal de este estudio.

Se han empleado varios métodos de selección de características para problemas de minería de datos de alto rendimiento38. En general, los métodos de selección de características se clasifican en tres categorías principales: (1) métodos de filtro (2) métodos de envoltura y (3) métodos integrados. En este estudio, investigamos 14 enfoques diferentes basados ​​en filtros para la predicción de supervivencia basada en radiómica. Solo usamos enfoques basados ​​en filtros porque son computacionalmente más eficientes y menos propensos a sobreajustarse que los métodos envolventes e integrados18,27. Además, a diferencia de los métodos envolventes e integrados, los métodos de filtro son independientes del clasificador. Por lo tanto, permiten la separación del componente de modelado y selección de características del análisis predictivo, lo que aumenta la generalización de cada componente y, por lo tanto, el análisis general.

También investigamos 12 métodos de clasificación de aprendizaje automático pertenecientes a 12 familias de clasificadores diferentes. Se han propuesto muchos clasificadores en la literatura de aprendizaje automático. Teóricamente hablando, estos clasificadores pertenecen a diferentes campos (familias de clasificadores) de la informática y la estadística. Por lo tanto, podría ser realmente difícil comprender las suposiciones subyacentes de todos y cada uno de los clasificadores y ajustar los parámetros de manera imparcial. El ajuste de parámetros podría estar sesgado por la mayor (o falta) experiencia del usuario con algunos clasificadores sobre otros. Por lo general, los estudios que proponen un nuevo clasificador solo lo comparan con los clasificadores de referencia de la misma familia, excluyendo las otras familias de clasificadores. Incluso si se consideran clasificadores que pertenecen a diferentes familias para la comparación, estos clasificadores de referencia generalmente se implementan utilizando herramientas simples y con configuraciones de parámetros limitadas mientras se ajusta cuidadosamente el clasificador propuesto. En consecuencia, estos podrían sesgar los resultados a favor de los clasificadores propuestos31. En nuestro estudio, no estamos proponiendo ningún clasificador nuevo y hemos utilizado la misma herramienta de implementación (marca de intercalación del paquete R) para todos los clasificadores. Además, para garantizar un uso imparcial de los clasificadores, utilizamos configuraciones de parámetros definidas previamente por Fernández-Delgado et al.31, en un estudio exhaustivo de comparación de 179 clasificadores en 121 conjuntos de datos diferentes. Estas configuraciones de parámetros fueron seleccionadas de la literatura y han sido validadas previamente en un gran número (121) de conjuntos de datos pertenecientes a diferentes campos. Además, en nuestro estudio, los parámetros se ajustaron utilizando únicamente la validación cruzada repetida de los datos de entrenamiento. Por lo tanto, nuestro diseño experimental nos permitió evaluar diferentes métodos de clasificación de manera imparcial.

Nuestros resultados muestran que el método de selección de características basado en la prueba de Wilcoxon WLCX produce el rendimiento predictivo más alto con la mayoría de los clasificadores. Curiosamente, WLCX es un método univariante simple basado en rangos, que no tiene en cuenta la redundancia de las características seleccionadas durante la clasificación de características. La mayoría de los métodos de selección de características dieron el mayor rendimiento predictivo cuando se usaron con el clasificador de bosque aleatorio (RF). Se podría argumentar que con diferentes configuraciones de parámetros, el rendimiento de los métodos de clasificación puede mejorar aún más. Podría investigarse un ajuste de parámetros exhaustivo para evaluar la mejora del rendimiento de la predicción. Sin embargo, los recursos computacionales requeridos y la alta complejidad de tiempo pueden dificultar la búsqueda exhaustiva. Esperamos que futuros estudios radiómicos centrados en diferentes resultados clínicos y un marco de análisis similar puedan proporcionar una mejor comprensión a este respecto. Un número limitado de métodos, que tienen un alto rendimiento constante en diferentes estudios radiómicos, podrían evaluarse más a fondo con un ajuste de parámetros exhaustivo. Sin embargo, debe tenerse en cuenta que los bosques aleatorios (RF) han mostrado un alto rendimiento predictivo en varias otras aplicaciones biomédicas y de otros dominios también31. Estos resultados indican que elegir el método de selección de características WLCX y/o el método de clasificación de RF aumenta el rendimiento predictivo en radiómica.

Los resultados relacionados con nuestro análisis de estabilidad proporcionan otra dimensión para elegir los métodos de clasificación y selección de características. Dependiendo de las aplicaciones, se puede dar importancia al rendimiento predictivo oa la estabilidad y, en consecuencia, optar por el método requerido. Los resultados relacionados con ANOVA multifactorial indicaron que el método de clasificación es la fuente de variación más dominante en el rendimiento de predicción (AUC) y, por lo tanto, debe elegirse con cuidado. El tamaño del subconjunto de características seleccionado fue el que menos contribuyó a la variación total de AUC.

Solo unos pocos estudios han investigado y comparado diferentes métodos de modelado de selección de características y aprendizaje automático para predicciones clínicas basadas en radiómica19,20. Recientemente, Hawkins et al.19 compararon cuatro métodos diferentes de selección y clasificación de características para la predicción de supervivencia basada en TC de pacientes con NSCLC. Sin embargo, este estudio estuvo limitado por el pequeño tamaño de la cohorte, ya que los resultados finales se obtuvieron en solo 40 pacientes. Además, también carecía de una validación independiente de los resultados. Por el contrario, en nuestro análisis se utilizaron dos cohortes radiómicas independientes de tamaños 310 y 154 pacientes y se informó una validación independiente de los resultados.

Nuestro análisis radiómico se centra en la predicción de la supervivencia del paciente a dos años en pacientes con NSCLC. Proporciona una evaluación imparcial de diferentes métodos de aprendizaje automático de selección y clasificación de características. Podría considerarse como una referencia para los futuros estudios predictivos basados ​​en radiómica. Nuestros resultados indicaron que elegir el método de selección de características basado en la prueba de Wilcoxon WLCX y/o el método de clasificación de bosque aleatorio (RF) brinda el mayor rendimiento para la predicción de supervivencia basada en radiómica. Además, estos métodos también resultaron razonablemente estables frente a la perturbación de datos y, por lo tanto, podrían ser los preferidos para estudios predictivos basados ​​en radiómica. Estos resultados deben probarse más en otros estudios predictivos basados ​​en radiómica, con diferentes modalidades de imagen y en diferentes tipos de cáncer.

Se ha demostrado previamente que para los pacientes con NSCLC, los modelos estadísticos basados ​​en el tumor del paciente y las características del tratamiento brindan predicciones significativamente mejores que el experto humano24. Además, varios otros estudios han destacado la limitación de la capacidad pronóstica de los médicos para pacientes con cáncer en fase terminal39,40,41. Las predicciones de los expertos humanos pueden sufrir de variabilidad entre observadores. Por el contrario, los modelos estadísticos podrían hacer que el sistema de predicción sea más determinista si las configuraciones de los parámetros y el marco de entrenamiento son fijos.

La utilidad clínica potencial de los modelos de pronóstico basados ​​en la radiómica se ha señalado en un estudio anterior8. Con la expansión de las cohortes radiómicas y las dimensiones de las características, esperamos un mayor rendimiento de predicción en futuros estudios radiómicos. Además, los estudios integradores como radiómica-genómica en combinación con covariables clínicas estándar también podrían mejorar el rendimiento de la predicción y validar aún más la utilidad de estos métodos en la práctica clínica. En general, nuestro análisis es un paso adelante hacia la mejora de las predicciones clínicas basadas en radiómica.

Cómo citar este artículo: Parmar, C. et al. Métodos de aprendizaje automático para biomarcadores radiómicos cuantitativos. ciencia Rep. 5, 13087; doi: 10.1038/srep13087 (2015).

Doroshow, J. & Kummar, S. Investigación traslacional en oncología: 10 años de progreso y perspectivas de futuro. Nat. Reverendo Clin. oncol. 11, 649 (2014).

Artículo CAS Google Académico

Lambin, P. et al. Predicción de resultados en oncología radioterápica: sistemas de soporte de decisiones multifactoriales. Nat. Reverendo Clin. oncol. 10, 27–40 (2013).

Artículo Google Académico

Lambin, P. et al. Radiómica: extracción de más información de imágenes médicas utilizando análisis de características avanzadas. EUR. J. of Cancer 48, 441–446 (2012).

Artículo Google Académico

Coroller, TP et al. La firma radiómica basada en TC predice la metástasis a distancia en el adenocarcinoma de pulmón. Radiothe. oncol. (2015), http://dx.doi.org/10.1016/j.radonc.2015.02.015 (2015).

Cook, GJ et al. ¿Se asocian las características texturales del tumor con 18F-FDG PET previa al tratamiento en el cáncer de pulmón de células no pequeñas con la respuesta y la supervivencia después de la quimiorradioterapia? J. Nucl. Medicina. 54, 19–26 (2013).

Artículo Google Académico

Ganeshan, B. et al. Cáncer de pulmón de células no pequeñas: correlatos histopatológicos para los parámetros de textura en la TC. Radiología 266, 326–336 (2013).

Artículo Google Académico

Gevaert, O. et al. Glioblastoma multiforme: análisis radiogenómico exploratorio mediante el uso de características de imagen cuantitativas. Radiología 273, 168–174 (2014).

Artículo Google Académico

Aerts, HJ et al. Decodificación del fenotipo tumoral mediante imágenes no invasivas utilizando un enfoque radiómico cuantitativo. Nat. común 5 (2014).

Leijenaar, RT et al. Estabilidad de las características de FDG-PET Radiomics: un análisis integrado de la variabilidad test-retest y entre observadores. Acta Oncolo. 52, 1391–1397 (2013).

Artículo CAS Google Académico

Parmar, C. et al. Cuantificación de características radiómicas robustas mediante segmentación volumétrica semiautomática. PLOS UNO 9, e102107 (2014).

Artículo ANUNCIOS Google Académico

Ganeshan, B., Abaleke, S., Young, RC, Chatwin, CR y Miles, KA Análisis de textura del cáncer de pulmón de células no pequeñas en tomografía computarizada sin contraste: evidencia inicial de una relación con el metabolismo de la glucosa tumoral y el estadio. Imágenes del cáncer 10, 137 (2010).

Artículo Google Académico

Alic, L., Niessen, WJ & Veenland, JF Cuantificación de la heterogeneidad como biomarcador en imágenes de tumores: una revisión sistemática. PLOS UNO 9, e110300 (2014).

Artículo ANUNCIOS Google Académico

Jain, R. et al. Predicción de resultados en pacientes con glioblastoma mediante el uso de biomarcadores de imágenes, clínicos y genómicos: enfoque en el componente del tumor que no mejora. Radiología 272, 484–493 (2014).

Artículo Google Académico

Nicolasjilwan, M. et al. La adición de características de imágenes de RM y biomarcadores genéticos fortalece la predicción de supervivencia del glioblastoma en pacientes con TCGA. J. Neuroradiol. (2014), 10.1016/j.neurad.2014.02.006. (2014).

Segal, E. et al. Descodificación de programas de expresión génica global en cáncer de hígado mediante imágenes no invasivas. Nat. biotecnología 25, 675–680 (2007).

Artículo CAS Google Académico

Mohri, M., Rostamizadeh, A. & Talwalkar, A. Fundamentos del aprendizaje automático. cap. 1, 1–3, (MIT press, 2012).

Google Académico

Pękalska, E. & Duin, RP La representación de disimilitud para el reconocimiento de patrones: fundamentos y aplicaciones. vol. 64 (World Scientific, 2005).

Guyon, I. & Elisseeff, A. Una introducción a la selección de características y variables. J. Mach. Aprender. Res. 3, 1157–1182 (2003).

Matemáticas Google Académico

Hawkins, SH et al. Predicción de los resultados del cáncer de pulmón de células no pequeñas mediante características de imagen de TC. Acceso IEEE 2, 1418–1426 (2014).

Artículo Google Académico

Basu, S. et al. en Sistemas, Hombre y Cibernética (SMC), Conferencia Internacional IEEE 2011 sobre. 1306-1312 (IEEE).

Haralick, RM, Shanmugam, K. & Dinstein, IH Características texturales para la clasificación de imágenes. Trans. IEEE. Syst., Man Cybern. 6, 610–621 (1973).

Artículo Google Académico

Galloway, MM Análisis de textura utilizando longitudes de ejecución de nivel de gris. computar Gráfico de visión. 4, 172–179 (1975).

Google Académico

Deasy, JO, Blanco, AI & Clark, VH CERR: un entorno computacional para la investigación en radioterapia. Medicina. física 30, 979–985 (2003).

Artículo Google Académico

Oberije, C. et al. Un estudio prospectivo que compara las predicciones de los médicos con los modelos para el resultado del tratamiento de pacientes con cáncer de pulmón: un paso hacia la atención individualizada y la toma de decisiones compartida. Radiothe. oncol. 112, 37–43 (2014).

Artículo Google Académico

Hoang, T., Xu, R., Schiller, JH, Bonomi, P. & Johnson, DH Modelo clínico para predecir la supervivencia en pacientes con quimioterapia avanzada con cáncer de pulmón de células no pequeñas avanzado tratados con regímenes de quimioterapia de tercera generación basados ​​en Eastern Cooperative Datos del Grupo de Oncología. J. Clin. oncol. 23, 175–183 (2005).

Artículo CAS Google Académico

Cistaro, A. et al. Predicción de supervivencia a 2 años en pacientes con cáncer de pulmón de células no pequeñas en estadio I y II utilizando la cuantificación SUV PET/CT con 18F-FDG. Radiol. oncol. 47, 219–223 (2013).

Artículo Google Académico

Brown, G., Pocock, A., Zhao, M.-J. & Luján, M. Maximización de verosimilitud condicional: un marco unificador para la selección de características de la teoría de la información. J. Mach. Aprender. Res. 13, 27–66 (2012).

MathSciNet MATEMÁTICAS Google Académico

Zhao, Z. et al. Avanzando en la investigación de selección de características. Repositorio de selección de características de ASU (2010).

Kotsiantis, Sotiris B., Ioannis, D. Zaharakis & Panayiotis, E. Pintelas. Aprendizaje automático: una revisión de las técnicas de clasificación y combinación. Artefacto Intel. Rev. 26.3, 159–190 (2006).

Artículo Google Académico

Kuhn, M. Construyendo modelos predictivos en R usando el paquete caret. Estado J. suave 28, 1–26 (2008).

Artículo Google Académico

Fernández-Delgado, M., Cernadas, E., Barro, S. & Amorim, D. ¿Necesitamos cientos de clasificadores para resolver problemas de clasificación del mundo real? J. Mach. Aprender. Res. 15, 3133–3181 (2014).

MathSciNet MATEMÁTICAS Google Académico

Yu, L., Ding, C. & Loscalzo, S. en Actas de la 14.ª conferencia internacional ACM SIGKDD sobre descubrimiento de conocimiento y minería de datos. 803-811 (ACM).

Haury, A.-C., Gestraud, P. y Vert, J.-P. La influencia de los métodos de selección de características en la precisión, la estabilidad y la interpretabilidad de las firmas moleculares. PLOS UNO 6, e28210 (2011).

Artículo CAS ANUNCIOS Google Académico

Kuhn, HW El método húngaro para el problema de asignación. Res. Naval. Logis. P. 2, 83–97 (1955).

Artículo MathSciNet Google Académico

Fisher, R., Pusztai, L. & Swanton, C. Heterogeneidad del cáncer: implicaciones para la terapia dirigida. Hermano J Cancer 108, 479–485 (2013).

Artículo CAS Google Académico

Ng, C., Pemberton, H. & Reis-Filho, J. Heterogeneidad genética intratumoral del cáncer de mama: causas e implicaciones. Experto Rev. Anticancer Ther. 12, 1021–1032 (2012).

Artículo CAS Google Académico

Brown, JR, DiGiovanna, MP, Killelea, B., Lannin, DR y Rimm, DL Evaluación cuantitativa Puntuación Ki-67 para la predicción de la respuesta a la quimioterapia neoadyuvante en el cáncer de mama. Laboratorio. Invertir. 94, 98–106 (2014).

Artículo CAS Google Académico

Bolón-Canedo, V., Sánchez-Maroño, N., Alonso-Betanzos, A., Benítez, J. & Herrera, F. Una revisión de conjuntos de datos de microarrays y métodos de selección de características aplicados. Informar Ciencias 282, 111–135 (2014).

Artículo Google Académico

Christakis, NA, Smith, JL, Parkes, CM & Lamont, EB Alcance y determinantes del error en los pronósticos de los médicos en pacientes terminales: estudio de cohorte prospectivo Comentario: ¿Por qué los médicos sobrestiman? Comentario: Los pronósticos deben basarse en índices comprobados, no en la intuición. Bmj 320, 469–473 (2000).

Artículo CAS Google Académico

Deslumbramiento, P. et al. Una revisión sistemática de las predicciones de supervivencia de los médicos en pacientes con cáncer terminal. Bmj 327, 195 (2003).

Artículo Google Académico

Clément-Duchêne, C., Carnin, C., Guillemin, F. & Martinet, Y. ¿Qué precisión tienen los médicos en la predicción de la supervivencia de los pacientes con cáncer de pulmón avanzado? Oncólogo 15, 782–789 (2010).

Artículo Google Académico

Descargar referencias

Los autores agradecen el apoyo financiero del Instituto Nacional de Salud (NIH-USA U24CA194354 y NIH-USA U01CA190234), el 7º programa marco de la UE (EURECA, ARTFORCE), Kankeronderzoekfonds Limburg de la Health Foundation Limburg y la Sociedad Holandesa del Cáncer (KWF UM 2009–4454) , KWF MAC 2013–6425).

Parmar Chintan y Grossmann Patrick contribuyeron igualmente a este trabajo.

Departamentos de Oncología Radioterápica,

Chintan Parmar, Patrick Grossmann y Hugo JWL Aerts

Radiología, Dana-Farber Cancer Institute, Brigham and Women's Hospital, Harvard Medical School, Boston, MA, EE. UU.

Hugo JWL Aerts

Oncología Radioterápica (MAASTRO), Instituto de Investigación GROW, Universidad de Maastricht, Maastricht, Países Bajos

Chintan Parmar y Philippe Lambin

Unidad de Inteligencia de Máquinas, Instituto Indio de Estadística, Kolkata, India

Chintán Parmar

Departamento de Bioestadística y Biología Computacional, Instituto del Cáncer Dana-Farber, Boston, MA, EE. UU.

Patrick Grossmann y Hugo JWL Aerts

Departamento de Oncología Radioterápica, Centro Médico de la Universidad de Radboud, Nijmegen, Países Bajos

Johan Bussink

También puede buscar este autor en PubMed Google Scholar

También puede buscar este autor en PubMed Google Scholar

También puede buscar este autor en PubMed Google Scholar

También puede buscar este autor en PubMed Google Scholar

También puede buscar este autor en PubMed Google Scholar

HJWLA, CP y PG concibieron el proyecto, analizaron los datos y escribieron el artículo. JB y PL proporcionaron orientación experta, datos o herramientas de análisis y revisaron el manuscrito.

Los autores declaran no tener intereses financieros en competencia.

Este trabajo tiene una licencia internacional Creative Commons Attribution 4.0. Las imágenes u otro material de terceros en este artículo están incluidos en la licencia Creative Commons del artículo, a menos que se indique lo contrario en la línea de crédito; si el material no está incluido bajo la licencia Creative Commons, los usuarios deberán obtener el permiso del titular de la licencia para reproducir el material. Para ver una copia de esta licencia, visite http://creativecommons.org/licenses/by/4.0/

Reimpresiones y permisos

Parmar, C., Grossmann, P., Bussink, J. et al. Métodos de aprendizaje automático para biomarcadores radiómicos cuantitativos. Informe científico 5, 13087 (2015). https://doi.org/10.1038/srep13087

Descargar cita

Recibido: 02 Abril 2015

Aceptado: 17 de julio de 2015

Publicado: 17 de agosto de 2015

DOI: https://doi.org/10.1038/srep13087

Cualquier persona con la que compartas el siguiente enlace podrá leer este contenido:

Lo sentimos, un enlace para compartir no está disponible actualmente para este artículo.

Proporcionado por la iniciativa de intercambio de contenido Springer Nature SharedIt

Investigación médica militar (2023)

BMC Gastroenterología (2023)

Radiología europea (2023)

Revista de investigación del cáncer y oncología clínica (2023)

Revista japonesa de radiología (2023)

Al enviar un comentario, acepta cumplir con nuestros Términos y Pautas de la comunidad. Si encuentra algo abusivo o que no cumple con nuestros términos o pautas, márquelo como inapropiado.