automático preciso

Noticias

HogarHogar / Noticias / automático preciso

Nov 13, 2023

automático preciso

Volumen de comunicaciones de la naturaleza

Nature Communications volumen 13, Número de artículo: 1867 (2022) Citar este artículo

7083 Accesos

6 citas

17 Altmetric

Detalles de métricas

La incapacidad de etiquetar con precisión y eficiencia grandes conjuntos de datos de imágenes médicas de acceso abierto limita la implementación generalizada de modelos de inteligencia artificial en el cuidado de la salud. Sin embargo, ha habido pocos intentos de automatizar la anotación de dichas bases de datos públicas; un enfoque, por ejemplo, se centró en el etiquetado manual y laborioso de subconjuntos de estos conjuntos de datos que se utilizarán para entrenar nuevos modelos. En este estudio, describimos un método para el etiquetado estandarizado y automatizado basado en la similitud con un atlas derivado del modelo de IA explicable (xAI) previamente validado, para el cual el usuario puede especificar un umbral cuantitativo para un nivel deseado de precisión (la probabilidad -de similitud, métrica pSim). Mostramos que nuestro modelo xAI, mediante el cálculo de los valores de pSim para cada etiqueta de salida clínica en función de la comparación con su atlas de referencia derivado del conjunto de entrenamiento, puede etiquetar automáticamente los conjuntos de datos externos con un alto nivel de precisión seleccionado por el usuario, igualando o superando ese de expertos humanos. Además, mostramos que, al ajustar el modelo original utilizando los exámenes etiquetados automáticamente para el reentrenamiento, el rendimiento se puede conservar o mejorar, lo que da como resultado un modelo más generalizado y de alta precisión.

La implementación de la inteligencia artificial médica (IA) en la práctica clínica en general, y en la práctica de la radiología en particular, se ha visto limitada en gran parte por el tiempo, el costo y la experiencia necesarios para etiquetar con precisión conjuntos de datos de imágenes muy grandes, que pueden servir como nivel de platino. verdad básica para entrenar modelos de IA clínicamente relevantes. Por lo tanto, la capacidad de anotar de manera automática y eficiente grandes conjuntos de datos externos, con un nivel de precisión seleccionado por el usuario, puede tener un valor considerable en el desarrollo de modelos médicos de IA importantes e impactantes que aporten valor agregado y sean ampliamente aceptados por la industria. comunidad sanitaria. Tal enfoque no solo tiene el potencial de beneficiar el reentrenamiento para mejorar la precisión de los modelos de IA existentes, sino que, mediante el uso de una metodología explicable basada en atlas derivada de modelos1, puede ayudar a estandarizar el etiquetado de conjuntos de datos de fuente abierta2,3,4,5 , para las que las etiquetas proporcionadas pueden ser ruidosas, inexactas o inexistentes. Dicha estandarización puede, a su vez, reducir la cantidad de puntos de datos necesarios para la construcción, facilitación, capacitación y reentrenamiento de modelos precisos a partir de conjuntos de datos iniciales pequeños pero bien anotados1,6.

En este estudio, desarrollamos y demostramos un método para el etiquetado estandarizado y automatizado basado en la similitud con un modelo de IA explicable (xAI) previamente validado, utilizando un enfoque basado en un atlas derivado del modelo para el cual el usuario puede especificar un umbral cuantitativo para un deseado nivel de precisión (la probabilidad de similitud, o métrica pSim). Los valores de pSim varían desde una probabilidad de similitud "básica" (pSim = 0, menos selectivo) hasta una probabilidad de similitud "máxima" (pSim = 1, más selectivo); pSim se calcula mediante la comparación entre las características de la imagen derivadas del conjunto de prueba y las características de la imagen recuperadas del atlas de referencia del modelo (es decir, la biblioteca). Este atlas derivado del modelo se construye durante la construcción del modelo (Fig. 1a) a partir de los casos del conjunto de entrenamiento (Fig. 1a, b). El valor pSim calculado refleja la media armónica entre dos parámetros relacionados con el modelo, la "similitud del parche" y la "confianza" (Métodos, Fig. 1b, c).

Método de etiquetado estandarizado y automatizado, basado en la similitud con un modelo de IA explicable (xAI) de detección de rayos X de tórax (CXR) de cinco etiquetas previamente validado, utilizando un enfoque basado en atlas derivado del modelo xAI. a Nuestro sistema de IA explicable basado en atlas y derivado de un modelo cuantitativo calcula un valor de probabilidad de similitud (pSim) para el etiquetado automatizado, basado en la media armónica entre la similitud del parche y la confianza. La métrica de pSim resultante se puede aplicar a un algoritmo de "selección de modo", ya sea para etiquetar las imágenes de entrada externas a un umbral de confianza seleccionado, o para alertar al usuario de que el valor de pSim cae por debajo de este umbral seleccionado. b El método basado en atlas derivado del modelo calcula la similitud y la confianza del parche, según el mapeo de activación de clase (CAM)38,39 y la probabilidad prevista del modelo, para cada etiqueta de resultado clínico. c La media armónica entre la similitud del parche y la confianza se usa luego para calcular un pSim para cada etiqueta de salida clínica en la selección de modo.

Específicamente, aplicamos nuestro modelo de IA existente para la detección de cinco etiquetas diferentes de imágenes de rayos X de tórax (CXR) (cardiomegalia, derrame pleural, edema pulmonar, neumonía y atelectasia), a tres grandes conjuntos de datos de código abierto: CheXpert2, MIMIC3 y NIH4, y comparó las etiquetas resultantes con las de siete radiólogos expertos humanos. Cabe destacar que existe una relación inversa entre los valores umbral de pSim seleccionados y el número de casos identificados (es decir, capturados) por el modelo del conjunto de datos externo; en otras palabras, cuanto mayor sea el umbral de probabilidad de similitud, menos casos se identificarán en la base de datos externa como similares a los casos etiquetados del modelo.

Mostramos que nuestro modelo xAI, mediante el cálculo de los valores de pSim para cada etiqueta de salida clínica en función de la comparación con el atlas de referencia derivado del conjunto de entrenamiento del modelo, podría etiquetar automáticamente los conjuntos de datos externos con un nivel de precisión arbitrariamente alto seleccionado por el usuario, igualando o superior a la de los expertos humanos. Además, también demostramos que, al ajustar el modelo original utilizando los exámenes etiquetados automáticamente para el reentrenamiento, el rendimiento podría conservarse o mejorarse, lo que daría como resultado un modelo más generalizado y de alta precisión. Aunque los valores de umbral de pSim requeridos para lograr la máxima similitud varían según la etiqueta de resultados clínicos, una vez que se identifican esos valores, en función de la comparación de las etiquetas del modelo con un subconjunto relativamente pequeño de etiquetas de verdad del terreno anotadas por expertos, se pueden aplicar al resto externo. conjunto de datos, para identificar exámenes que probablemente sean positivos para esa etiqueta de resultados clínicos con un nivel de precisión predeterminado y de alta confianza; las etiquetas resultantes se pueden aplicar para ajustar o volver a entrenar el modelo original.

Desarrollamos un modelo xAI para la detección de las siguientes cinco etiquetas diferentes en CXR de proyección posterior-anterior (PA): cardiomegalia, derrame pleural, edema pulmonar, neumonía y atelectasia (ver Métodos). Según informes anteriores, nuestro modelo presentaba módulos de creación de atlas y cálculo de base de predicción para la explicabilidad (Fig. 1)1. La base de predicción se utilizó para calcular un valor de similitud de parche (una probabilidad entre 0 y 1). Nuestro modelo también incluía un módulo de cálculo de probabilidad de confianza (Fig. 1a y b). La media armónica entre la similitud del parche y los resultados del modelo de confianza se utilizaron para calcular un valor cuantitativo de probabilidad de similitud (pSim), entre 0 y 1, para cada etiqueta de resultado clínico estudiada (Fig. 1c).

Los exámenes de CXR realizados en nuestra institución desde febrero de 2015 hasta febrero de 2019 se identificaron a partir de nuestro RIS (Sistema de información de radiología) y PACS (Sistema de archivo y comunicación de imágenes), lo que resultó en un conjunto de datos de 440,852 estudios. Se excluyeron los exámenes si no había un informe radiológico asociado, información sobre la posición de la vista (p. ej., proyección anteroposterior, portátil, etc.) o identificadores esenciales del paciente (incluidos, entre otros, el número de registro médico, la edad o el sexo). Se recopilaron retrospectivamente un total de 400 886 imágenes de CXR de 267 180 exámenes, que representan a 117 195 pacientes, junto con sus correspondientes informes de radiología (Figura 1 complementaria). Utilizando un modelo de Procesamiento del lenguaje natural (NLP) basado en reglas (Tabla complementaria 1), extrajimos automáticamente 20 etiquetas patológicas de los informes de radiología, a las que se les asignó una de las siguientes tres etiquetas: positivo, negativo o ignorar. Después de la extracción y limpieza automática de datos de NLP, archivamos 151 700 vistas de CXR anteroposterior de 49 096 pacientes (58 % hombres, edad media 62 ± 18 años) y 90 023 vistas de CXR posteroanteriores (PA) de 69 404 pacientes (50 % hombres, edad media 57 años). ± 19 años). Seleccionamos aleatoriamente 1000 imágenes para cada posición de vista como conjunto de prueba; los exámenes restantes, de pacientes que no se superponen, se separaron en conjuntos de entrenamiento y validación (Figura 1 complementaria). Las etiquetas para los conjuntos de entrenamiento y validación se determinaron exclusivamente a partir de las asignaciones de NLP automatizadas, mientras que las del conjunto de prueba se determinaron por consenso de tres radiólogos certificados por la junta de EE. UU. en nuestra institución (se proporcionan más detalles en la Tabla complementaria 1), utilizando el " herramienta Mark-it" (https://markit.mgh.harvard.edu, MA, EE. UU.) para la anotación7. Nuestro modelo xAI se entrenó mediante aprendizaje supervisado con un conjunto de datos de entrenamiento total de 138 686 CXR y logró un área media bajo la curva característica operativa del receptor (AUROC)8 de 0,95 + 0,02 para la detección de las cinco etiquetas de resultados clínicos (Tabla complementaria 2) en nuestro modelo inicial , conjunto de prueba independiente (Métodos).

Aplicamos nuestro modelo de etiquetado automático xAI CXR a las imágenes PA CXR disponibles de tres grandes conjuntos de datos de código abierto: CheXpert (n = 29 420 PA CXR), MIMIC (n = 71 223) y NIH (n = 67 310)2,3, 4. Para evaluar la precisión del etiquetado, seleccionamos aleatoriamente un subconjunto de casos "positivos" y "negativos" según lo determina el modelo para cada una de las cinco etiquetas, distribuidos equitativamente en cada uno de los diez rangos de valores de pSim (0–0.1, 0.1–0.2, 0.2 –0.3, …, 0.9–1.0), para revisión de expertos (Figs. 2–4). Ground Truth (GT) se definió como el consenso mayoritario de siete radiólogos subespecialistas expertos (tres con 12 a 25 años de experiencia en radiología torácica y cuatro con 1 a 6 años de experiencia en radiología de emergencia); GT y las calificaciones individuales de cada lector, para cada etiqueta de resultado clínico (cardiomegalia, derrame pleural, edema pulmonar, neumonía y atelectasia), en cada uno de los rangos de valores de pSim, se muestran en las Figs. 2–4a (arriba a la izquierda). En las Figs. 2–4b (parte superior derecha), representamos gráficamente la relación entre el valor pSim aplicado para el etiquetado automático del modelo (eje x) y tanto el (i) valor predictivo positivo (PPV) como el valor predictivo negativo (NPV) del modelo calificaciones, frente a la realidad del terreno; y (ii) la tasa de captura de verdaderos positivos (TPCR) y la tasa de captura de verdaderos negativos del modelo, definidas respectivamente como el total de verdaderos positivos (por GT) dividido por el total de positivos (por GT), y el total de verdaderos negativos (por GT) dividido por el total negativo (por GT). En las Figs. 2–4c (abajo a la izquierda) y las Figs. 2–4d (abajo a la derecha), respectivamente, se muestra el número de casos falsos positivos (por GT) y falsos negativos (por GT) calificados por el modelo en cada valor de umbral de pSim (eje x), estratificados por conjuntos de datos (es decir, , CheXpert, MIMIC o NIH), con el umbral de pSim más bajo y óptimo que alcanza el 100 % de PPV o NPV, indicado. Cabe destacar que el umbral de pSim más bajo posible requerido para un PPV o VPN del 100 % corresponde a la "tasa de captura correcta" máxima, como se muestra en las Figs. 2–4b.

Aplicamos nuestro modelo de etiquetado automático xAI CXR a tres grandes conjuntos de datos de código abierto: CheXpert, MIMIC y NIH. Para dos de las cinco etiquetas de resultados clínicos (cardiomegalia y derrame pleural), seleccionamos aleatoriamente un subconjunto de casos "positivos" y "negativos" según lo determina el modelo, distribuidos equitativamente en cada uno de los diez rangos de valores de pSim (0-0,1, 0,1 –0,2, 0,2–0,3, …, 0,9–1,0), para revisión de expertos. En a, las calificaciones positivas (rojo claro) y negativas (azul claro) para cada uno de los siete lectores individuales (columnas A–G) se muestran gráficamente, con la verdad fundamental de consenso (GT, determinada por mayoría) que se muestra en la última columna (rojo negrita o azul negrita). En b, los valores predictivos positivos (PPV = [verdadero positivo por GT]/[total positivo por modelo], triángulos rojos sólidos, eje y a la izquierda) y valores predictivos negativos (NPV = [verdadero negativo por GT]/[total negativo por modelo], círculos azules sólidos, eje y a la izquierda), de las calificaciones del modelo, se representan gráficamente frente al valor de umbral de pSim que aplicó el modelo (eje x). También se muestran en b (eje y a la derecha) la tasa de captura positiva verdadera del modelo (TPCR, triángulos rojos punteados) y la tasa de captura negativa verdadera (TNCR, círculos azules punteados), definidas respectivamente como TPCR = [positivo verdadero (TP) por GT ]/[positivo total por GT (número en negrita rojo de a)] y TNCR = [negativo verdadero (TN) por GT]/[negativo total por GT (número en negrita azul de a)]. En c (abajo a la izquierda) y d (abajo a la derecha), respectivamente, el número de casos falsos positivos (FP por GT) y falsos negativos (FN por GT) calificados por el modelo en cada valor de umbral de pSim (eje x), son se muestra estratificado por conjunto de datos (CheXpert, MIMIC o NIH; número total de casos positivos o negativos según el modelo entre paréntesis), con el umbral de pSim más bajo y óptimo que alcanza el 100 % de PPV o NPV, como se indica (triángulos verdes en negrita).

Consulte la Fig. 2 para los subtítulos a–d.

Consulte la Fig. 2 para los subtítulos a–d.

Además, como se muestra en los cuadros de texto de las Figs. 2–4c, d, así como en la Fig. 5, la precisión del modelo se compara favorablemente con la de las etiquetas públicas agrupadas disponibles de los conjuntos de datos externos de código abierto. La Figura 5 muestra además que el rendimiento AUROC del modelo de etiquetado automatizado, en comparación favorable con el de los radiólogos expertos individuales, para cada etiqueta de salida clínica, tanto en el umbral de etiquetado de valor de referencia de pSim = 0 como en el umbral de etiquetado de valor de pSim óptimo (es decir, el el valor pSim más bajo logrando un 100 % de precisión, según las figuras 2–4c, d).

El rendimiento de AUROC de nuestro modelo de etiquetado automático xAI CXR aplicado a los conjuntos de datos de fuente abierta CheXpert, MIMIC y NIH se muestra para cada una de las cinco etiquetas de salida clínica etiquetadas: a cardiomegalia, b derrame pleural, c edema pulmonar, d neumonía, y e atelectasia. La comparación es con el desempeño de los radiólogos expertos individuales (A–G, círculos rojos), así como con el desempeño de las anotaciones externas agrupadas (cuadrados azules, n = número de casos externos etiquetados disponibles por etiqueta de salida clínica). Las curvas ROC (sensibilidad del eje y, especificidad 1 del eje x) se muestran tanto para el umbral pSim = 0 de referencia (recuadro ampliado) como para el umbral pSim óptimo (es decir, el umbral pSim más bajo que alcanza el 100 % de precisión, según las Figs. 2–4c y d).

Las imágenes de CXR autoetiquetadas de muestra que tenían un acuerdo total entre los siete radiólogos expertos y el modelo xAI, positivas para cada una de las cinco etiquetas de resultados clínicos estudiadas, se muestran en la Fig. 2 complementaria. Los valores umbral de pSim aplicados por el modelo para cada imagen y también se muestra el número/porcentaje de exámenes PA CXR con acuerdo total para cada etiqueta. Es de destacar que solo hubo 14 exámenes positivos identificados por el modelo como neumonía que tuvieron un acuerdo total con cada lector, de un total de 50 exámenes etiquetados como positivos para neumonía (28%). Los porcentajes de etiquetas positivas con concordancia completa para las otras cuatro etiquetas, como se muestra en la figura, fueron cardiomegalia 78 % (39/50), derrame pleural 78 % (39/50), edema pulmonar 43 % (17/40) y atelectasias 46% (23/50).

En la Tabla complementaria 3, aplicamos nuestro modelo de etiquetado automatizado a los tres conjuntos de datos CXR públicos y de código abierto completos: CheXpert (n = 29 420), MIMIC (n = 71 223) y NIH (n = 67 310); para demostrar la magnitud del número de casos capturados, en el valor de umbral pSim optimizado para máxima precisión para cada etiqueta de salida clínica (PPV, VPN = 1; según las Figs. 2–4). La combinación de las etiquetas del modelo para los tres conjuntos de datos públicos completos (Tabla complementaria 3, C) dio como resultado una tasa de captura del 80 % para cardiomegalia (134 076/167 953), 68 % para derrame pleural (114 230/167 953), 27 % para edema pulmonar ( 45.660/167.953), 20% por neumonía (33.308/167.953) y 28% por atelectasia (47.436/167.953). Es de destacar que las "tasas de captura" medias de CXR del modelo para los resultados agrupados de los tres conjuntos de datos públicos, se correspondían estrechamente con los que se muestran en los gráficos de las Figs. 2–4b, para el subconjunto de exámenes seleccionados al azar (n = 90–100) etiquetados tanto por el modelo como por los radiólogos expertos.

Para cada una de las cinco etiquetas de resultados clínicos con etiquetado automático (Fig. 6), comparamos: (i) el porcentaje de CXR con etiquetado automático positivo capturados de los tres conjuntos de datos públicos completos agrupados (de la Tabla complementaria 3); (ii) el porcentaje de casos con acuerdo completo entre el modelo y los siete lectores expertos (de la Fig. 2 complementaria); (iii) el valor de pSim más bajo tal que PPV = 1 (graficado como "1-pSim@PPV1"; de las Figs. 2-4c), y (iv) el valor de pSim más bajo tal que VPN = 1 (graficado como "1- pSim@NPV1"; de las Figs. 2–4d). Las etiquetas de resultados clínicos con valores más altos de estos parámetros (p. ej., cardiomegalia, derrame pleural) correspondieron a una mayor eficiencia y confianza en el autoetiquetado del modelo; Las etiquetas de salida clínica con valores más bajos (p. ej., edema pulmonar, neumonía) correspondieron a una menor eficiencia y confianza del autoetiquetado del modelo. Cabe destacar que, para la atelectasia, "1-pSim@PPV1" fue más alto que "1-pSim@NPV1", lo que indica una mayor confianza en que el modelo es correcto al "descartar" esta etiqueta (es decir, etiquetar correctamente los verdaderos positivos). ) que en "descartar" esta etiqueta (es decir, etiquetar correctamente los verdaderos negativos). Esta relación se invirtió para las otras cuatro etiquetas (p. ej., mayor confianza en que el modelo puede "descartar" correctamente que "descartar" neumonía o edema pulmonar).

Para cada una de las cinco etiquetas de resultados clínicos con etiquetas automáticas: cardiomegalia (azul), derrame pleural (naranja), atelectasia (gris), edema pulmonar (verde) y neumonía (amarilla), comparamos: (i) el porcentaje de casos positivos CXR autoetiquetados "capturados" de los tres conjuntos de datos públicos completos agrupados (es decir, "% de captura agrupada", de la Tabla complementaria 3, C); (ii) el porcentaje de casos con acuerdo total entre el modelo y los siete lectores expertos (es decir, "% de acuerdo total", de la Fig. 2 complementaria); (iii) el valor de pSim más bajo tal que PPV = 1 (graficado como "1-pSim", de las Figs. 2-4, c), y (iv) el valor de pSim más bajo tal que VPN = 1 (graficado como "1- pSim", de las Figs. 2–4, d). las etiquetas de resultados clínicos con valores más altos en el eje y (p. ej., cardiomegalia, derrame pleural) corresponden a aquellas con mayor eficiencia/confianza de autoetiquetado del modelo; las etiquetas de resultados clínicos con valores más bajos en el eje y (p. ej., neumonía, edema pulmonar) corresponden a aquellas con menor eficiencia/confianza de autoetiquetado del modelo. Cabe destacar que, en el gráfico de atelectasia, "1-pSim@PPV1" es más alto que "1-pSim@NPV1", lo que puede interpretarse como una mayor confianza en que el modelo es correcto al "recluir" la etiqueta de resultados clínicos ( es decir, autoetiquetar correctamente los verdaderos positivos) que en "descartar" la etiqueta de resultados clínicos (es decir, autoetiquetar correctamente los verdaderos negativos); esta relación se invierte para las otras cuatro etiquetas de resultados clínicos (p. ej., mayor confianza en que el modelo puede "descartar" correctamente que "descartar" neumonía o edema pulmonar).

Las estadísticas kappa por pares que estiman la variabilidad entre observadores entre los siete radiólogos expertos se muestran en la Fig. 7, para cada una de las cinco etiquetas de resultados clínicos autoetiquetados. Los rangos de estos valores son los siguientes: cardiomegalia 0,82–0,92, derrame pleural 0,78–0,94, edema pulmonar 0,57–0,86, neumonía 0,38–0,80 y atelectasia 0,47–0,78. La distribución de estos rangos se correlaciona bien con las métricas de confianza y eficiencia de autoetiquetado de etiqueta de salida clínica del modelo, que se muestran en la Fig. 6, con cardiomegalia y derrame pleural mostrando la mayor concordancia entre evaluadores, y neumonía, edema pulmonar y atelectasia mostrando El menos.

Para cada una de las cinco etiquetas de resultados clínicos con etiquetado automático (a cardiomegalia, b derrame pleural, c edema pulmonar, d neumonía y e atelectasia), las estadísticas kappa por pares que estiman la variabilidad entre observadores se muestran en las respectivas matrices codificadas por colores43.

En la Fig. 8, comparamos el rendimiento de etiquetado automático del modelo usando esa métrica pSim, con el uso de (1) similitud de parche (basada en cálculos CAM, relacionados con la localización espacial "focal") o (2) probabilidad de confianza (relacionada a la distribución de probabilidad "global" de las etiquetas de salida del modelo final), solo. Nuestro nuevo análisis sugiere que el uso de un umbral pSim cuantitativo puede tener beneficios sobre la similitud del parche o el cálculo de confianza por sí solo, lo que es especialmente notable para las etiquetas de salida de diagnóstico clínico (neumonía y edema pulmonar) que tienen el acuerdo entre evaluadores más bajo entre los expertos. (Figura 7). Estos resultados afectan la "explicabilidad" de nuestro modelo con respecto a los mapas de prominencia. Un artículo reciente concluyó que las técnicas de mapas de prominencia son muy variables y que su uso "en el dominio de alto riesgo de las imágenes médicas justifica un escrutinio adicional"; los autores recomendaron "que se utilicen modelos de detección o segmentación si la localización es el resultado deseado de la red". Sin embargo, una característica notable de nuestro enfoque es su explicabilidad basada en valores cuantitativos de pSim (calculados a partir de nuestro atlas derivado del modelo), que, como se discutió, pueden tener un valor agregado sobre los mapas de prominencia creados utilizando solo cálculos de confianza o similitud de parches9.

Comparamos el rendimiento de la tasa de captura positiva verdadera (TPCR) para cada una de las cinco etiquetas de resultados clínicos, utilizando solo la probabilidad de confianza (que refleja la distribución de probabilidad global de las etiquetas de resultados), solo la similitud de parches (que refleja la localización espacial focal de las etiquetas de resultados) , y pSim (que refleja la media armónica entre la probabilidad de confianza y la similitud del parche, según la Fig. 1). Estos resultados son dignos de mención porque las dos etiquetas de salida del modelo que reflejan un alto acuerdo entre evaluadores de los hallazgos de imágenes (a cardiomegalia y b derrame pleural, según la Fig. 7) muestran un buen acuerdo entre las tres métricas de nivel de confianza, con alto TPCR para cada. Para las dos etiquetas de salida que muestran un menor acuerdo entre evaluadores según la Fig. 7 (c edema pulmonar y d neumonía), el rendimiento de pSim supera significativamente el de la similitud del parche para ambos y el de la probabilidad de confianza para la neumonía pero no para el edema pulmonar. Esta diferencia probablemente se deba al hecho de que la similitud de parches es más sensible para la detección de hallazgos de imágenes regionales focales (p. ej., como se ve con el diagnóstico clínico de neumonía), mientras que la probabilidad de confianza es más sensible para la detección de hallazgos globales (p. ej., , como se ve con el diagnóstico clínico de edema pulmonar). Los resultados para la atelectasia e, típicamente un hallazgo más focal que global en la CXR, pueden explicarse de manera similar.

También estudiamos la relación entre la consistencia del rendimiento, la generalización, el tamaño del conjunto de datos y la arquitectura. Con respecto a la arquitectura, hubo una excelente consistencia entre nuestro modelo actual y tres arquitecturas de modelos diferentes adicionales, que incluyen ResNet-5010, MobileNet v211 y MnasNet12 (Figura 3 complementaria). Nuestros resultados sugieren de manera similar una generalización consistente y sólida con respecto al tamaño y la heterogeneidad del conjunto de datos (Tabla 1, Tablas complementarias 3 y 4).

Para demostrar la capacidad de nuestro sistema para generalizar a conjuntos de datos externos a un nivel de rendimiento designado por el usuario, ajustamos nuestro modelo original a través de un nuevo entrenamiento iterativo utilizando los exámenes CXR etiquetados automáticamente de los tres conjuntos de datos públicos (Tabla 1). Los exámenes de CXR seleccionados para el reentrenamiento (n = 31 020) tenían al menos una etiqueta positiva, un valor pSim mayor o igual al umbral óptimo para esa etiqueta (según las Figs. 2-4c, 2-4d y 5) , y se excluyeron si se habían utilizado previamente como parte del conjunto de prueba. Nuestros resultados que comparan el rendimiento del modelo original con el del modelo ajustado (Tabla 1 y Tabla complementaria 4), mostraron una precisión igual o mejorada del modelo ajustado, entrenado con datos locales y más generalizados de los tres conjuntos de datos públicos. —en comparación con el modelo original, que se entrenó solo con datos locales.

La anotación precisa y eficiente de grandes conjuntos de datos de imágenes médicas es una limitación importante en el entrenamiento y, por lo tanto, en la implementación generalizada de modelos de IA en el cuidado de la salud13,14,15,16,17,18,19,20,21,22. Sin embargo, hasta la fecha, se han descrito pocos intentos en la literatura para automatizar el etiquetado de bases de datos tan grandes y de acceso abierto2,3,4,5,6. Un enfoque, por ejemplo, se centró en desarrollar nuevos modelos de IA utilizando subconjuntos de conjuntos de datos externos que requieren mucha mano de obra y anotados manualmente, y aplicar estos modelos a la base de datos restante6. La precisión de dicho enfoque puede verse limitada no solo por: (1) el rendimiento de referencia del modelo, sino también por (2) las diferencias en la combinación de casos y la calidad de imagen de los conjuntos de datos externos. Además, como lo demuestran los resultados de nuestro estudio, (3) no se puede asumir que las etiquetas provistas con bases de datos públicas sean precisas o limpias; por ejemplo, en algunos conjuntos de datos públicos, dichas etiquetas pueden haberse generado a partir de anotaciones derivadas de NLP potencialmente ruidosas, sin validación por un estándar de referencia de nivel de platino apropiado.

En este estudio, demostramos un método para el etiquetado estandarizado y automatizado basado en la similitud con un modelo xAI previamente validado, utilizando un enfoque basado en un atlas derivado del modelo, para el cual el usuario puede especificar un umbral cuantitativo para un nivel deseado de precisión, el métrica pSim. Específicamente, aplicamos nuestro modelo de IA existente para la detección de cinco etiquetas de resultados clínicos diferentes de CXR (es decir, cardiomegalia, derrame pleural, edema pulmonar, neumonía y atelectasia), a tres grandes conjuntos de datos públicos de código abierto (es decir, CheXpert, MIMIC y NIH), y comparó las etiquetas resultantes con las de siete radiólogos expertos humanos.

Mostramos que nuestro modelo xAI, al calcular los valores de pSim para cada etiqueta en función de la comparación con su atlas de referencia derivado del conjunto de entrenamiento recuperado, podría etiquetar automáticamente un subconjunto de los datos externos con un nivel de precisión arbitrariamente alto seleccionado por el usuario, igualando o superando la de los expertos humanos (Fig. 5). Además, también demostramos que, al ajustar el modelo original utilizando los exámenes etiquetados automáticamente para el reentrenamiento, el rendimiento podría conservarse o mejorarse, lo que daría como resultado un modelo más generalizado y de alta precisión.

El valor de pSim utilizado para la anotación refleja una compensación entre la precisión del etiquetado de imágenes (es decir, cuanto mayor sea el valor de pSim, más precisas serán las etiquetas) y la eficiencia del etiquetado de imágenes (es decir, cuanto mayor sea el valor de pSim, menor será el número de exámenes). que el modelo selecciona para la anotación). Para determinar el umbral de pSim para cada etiqueta de salida tal que PPV, NPV = 1, seleccionamos aleatoriamente un subconjunto de exámenes "positivos" y "negativos" de las tres bases de datos de código abierto agrupadas, distribuidas por igual en cada uno de los diez rangos de valores de pSim ( 0–0,1, 0,1–0,2, 0,2–0,3, …, 0,9–1,0) según las Figs. 2–4 (10 exámenes por rango pSim para un total de 100). Cabe destacar que, al utilizar este enfoque para la selección de exámenes, pudimos lograr un nivel muy alto de precisión de etiquetado y rendimiento del modelo después del ajuste fino, a pesar de la cantidad relativamente pequeña de casos presentados para la revisión de expertos humanos (n = 100).

Para evaluar la eficiencia de nuestro enfoque de etiquetado automatizado, aplicamos nuestro modelo xAI a los tres conjuntos de datos públicos completos y comparamos las cinco etiquetas de resultados clínicos autoetiquetados de acuerdo con los siguientes parámetros: (i) el porcentaje de CXR autoetiquetados positivamente de los tres conjuntos de datos públicos agrupados (es decir, la tasa de captura), (ii) el porcentaje de casos con acuerdo total entre el modelo y los siete lectores expertos, (iii) el valor de pSim más bajo para la anotación de modo que todos los casos positivos capturados sean verdaderos positivo (es decir, pSim óptimo para PPV = 1), y (iv) el valor de pSim más bajo para la anotación de modo que todos los casos negativos capturados sean negativos verdaderos (es decir, pSim óptimo para NPV = 1). Encontramos una fuerte correlación entre la magnitud de estos parámetros para cada una de las etiquetas de resultados clínicos anotadas, como se muestra en la Fig. 6. Cabe destacar que las tasas de captura positivas de los tres conjuntos de datos públicos agrupados también se correlacionaron fuertemente con las tasas de captura graficadas en higos. 2–4b, para el subconjunto de exámenes (n = 90–100) etiquetados tanto por el modelo como por los radiólogos expertos. Además, los valores de los parámetros informados para cada etiqueta de resultado clínico se correspondían bien con los valores kappa para la variabilidad entre observadores que se muestran en la Fig. 7.

Juntos, nuestros resultados sugieren que la precisión y eficiencia generales del modelo de etiquetado automático, aplicado a los conjuntos de datos públicos completos en el pSim óptimo para cada etiqueta de salida clínica, pueden ser similares a la precisión y eficiencia del modelo aplicado al subconjunto de exámenes anotados por los siete radiólogos expertos. Estos resultados también sugieren una mayor eficiencia de etiquetado automático, con mayor confianza en la precisión de la etiqueta, para cardiomegalia y derrame pleural, dos de los hallazgos más objetivos en la interpretación de CXR, y menor eficiencia de etiquetado automático, con menor confianza en la precisión de la etiqueta, para neumonía y edema pulmonar: dos de las evaluaciones más subjetivas en la interpretación de CXR. De hecho, cuanto mayor sea la cantidad "1-pSimóptima" para una etiqueta de salida clínica dada (donde 0 ≤ pSim ≤ 1 y pSimóptima = el valor mínimo de pSim tal que PPV/NPV = 1), más confiable y sólida es la etiqueta para esa etiqueta. etiqueta de resultado clínico, basada en la similitud con el atlas de referencia "recordado" derivado del conjunto de entrenamiento de PNL del modelo.

Una característica importante que distingue nuestro enfoque del de otros modelos de clasificación de caja negra es la explicabilidad; la métrica pSim proporciona información de que el modelo está funcionando a un nivel predeterminado de precisión. Es probable que el etiquetado de conjuntos de datos externos mediante métodos de clasificación de caja negra requiera más trabajo que con nuestro enfoque, porque cada conjunto de datos distinto (por ejemplo, CheXpert, NIH y MIMIC) puede requerir una mayor cantidad de etiquetas manuales para garantizar que se realicen suficientes exámenes representativos. han sido muestreados. Sin embargo, el uso de pSim para estimar una probabilidad de similitud cuantitativa podría proporcionar una mayor confianza al usuario de que se han muestreado suficientes exámenes para un rendimiento preciso del modelo. En el futuro, tal anotación manual experta solo tendrá que realizarse una vez para una plataforma determinada en una institución determinada, lo que facilitará el ajuste y el reciclaje continuos y automatizados. De hecho, un artículo reciente encontró que "para un modelo de segmentación de lesiones cerebrales entrenado con los datos de una sola institución, el rendimiento fue menor cuando se aplicó en una segunda institución; sin embargo, la adición de una pequeña cantidad (10 %) de datos de entrenamiento de la segunda institución permitió que el modelo alcanzara su máximo nivel de rendimiento potencial en la segunda institución". Nuestro enfoque tiene el potencial de facilitar el ajuste fino o el reentrenamiento a un nivel de rendimiento similar o mayor, utilizando considerablemente menos datos que el 10 % del conjunto de entrenamiento inicial23.

Otro aspecto digno de mención de nuestro enfoque se relaciona con la implementación del sistema. Podemos aplicar el umbral de valor de pSim a cada clase de forma independiente, seleccionando un valor de pSim bajo para una etiqueta de resultados clínicos de alta visibilidad con un acuerdo entre evaluadores alto, y seleccionando un valor de pSim alto para una etiqueta de resultados clínicos no específicos más subjetivos y más ruidosos con un nivel de intercalación más bajo. -acuerdo de evaluadores, este último a costa de generar menos exámenes etiquetados (es decir, menor tasa de captura). El empleo de valores de pSim ayuda a cuantificar qué etiquetas de resultados clínicos del modelo de IA se anotan de manera más confiable y cuáles deben mejorarse, lo que permite medir la solidez del sistema. La implementación del sistema xAI también cumple con HIPAA, ya que no es necesario almacenar datos de origen identificables del paciente, ya que la selección de modo (Fig. 1) usa solo las distribuciones de probabilidad predichas codificadas para las categorías y la información comprimida de la transformación UMAP24 para el atlas.

Otros enfoques actuales del autoetiquetado han implicado aprendizaje semisupervisado6,25 y autosupervisado26,27,28,29. Sin embargo, debido a que estos enfoques asumen una baja correlación entre clases, su desempeño no ha sido validado para modelos de clasificación CXR de etiquetas múltiples con alta correlación entre clases. También se ha intentado transferir el aprendizaje y el ajuste para mejorar el rendimiento cuando se aplican modelos desarrollados de forma independiente a conjuntos de datos externos30,31,32; con etiquetas externas basadas incluso en definiciones ligeramente diferentes puede generar un ruido considerable cuando dichos datos se usan para entrenar o volver a entrenar nuevos modelos. Nuestro enfoque, sin embargo, permite la generación de etiquetas estandarizadas, con una probabilidad de similitud definida por el usuario a la de los modelos establecidos. Nuestro enfoque basado en atlas derivado de modelos, que simplifica los problemas computacionales al centrarse en regiones de parches pequeños con correlaciones entre clases más bajas y más altas, podría lograr una alta precisión y eficiencia para el etiquetado automático de tres grandes conjuntos de datos CXR públicos de código abierto, similares o superiores a la de los expertos humanos.

Nuestro modelo de IA de etiquetado automático refleja varias características de la inteligencia humana33 en general y del comportamiento de imitación del radiólogo en particular. Específicamente, nuestro sistema es "inteligente", en el sentido de que puede acceder a su "memoria" de etiquetas de resultados clínicos de exámenes presentes en el conjunto de entrenamiento y estimar cuantitativamente su similitud con las etiquetas de resultados clínicos en los nuevos datos de exámenes externos. La métrica "1-pSimoptimal" para cada etiqueta de salida clínica proporciona una medida de la "inteligencia" del sistema para un etiquetado preciso y eficiente, y su valor (entre 0 y 1) refleja la calidad (es decir, la precisión real) de la Conjunto de datos derivados de PNL utilizado para el entrenamiento inicial. El modelo también puede brindar retroalimentación a los usuarios a través de su funcionalidad de explicabilidad, al mostrar ejemplos de las etiquetas de resultados clínicos bajo consideración de su atlas de referencia junto con su valor pSim asociado; esta interacción ofrece al usuario un nivel adicional de confianza de que el modelo está haciendo lo que se supone que debe hacer. En este sentido, nuestro sistema puede verse como una herramienta de inteligencia aumentada para mejorar la precisión y la eficiencia de los lectores de imágenes médicas.

De hecho, una limitación de nuestro modelo es que su precisión y eficiencia de etiquetado es directamente proporcional a la calidad del conjunto de entrenamiento inicial. Esto puede ayudar a explicar por qué la cardiomegalia y el derrame pleural, dos etiquetas de resultados clínicos de alta visibilidad que se describen correctamente de forma rutinaria en los informes de radiología identificados por la PNL para el entrenamiento del modelo, tienen métricas de mayor eficiencia (Figs. 2 y 6) que el edema pulmonar y la neumonía (Fig. 3), que son más inespecíficos y evaluados de forma variable por diferentes radiólogos. Esto también puede ayudar a explicar por qué los valores 1-pSimoptimal para VPN = 1 en la Fig. 6 son más altos que los valores 1-pSimoptimal para PPV = 1, para todas las etiquetas de resultados clínicos excepto atelectasia (Fig. 4), ya que la atelectasia es un menor visibilidad, la etiqueta de resultados clínicos más inespecíficos generalmente se indica en los informes de radiología de CXR solo cuando está presente, pero no se menciona cuando está ausente (es decir, el modelo aprendió de su conjunto de entrenamiento derivado de NLP para tener un mayor nivel de certeza y, por lo tanto, un valor 1-pSimóptimo mayor, cuando hay atelectasia, que cuando no está). El edema pulmonar y la neumonía, por otro lado, generalmente se describen en los informes de CXR con un mayor nivel de certeza cuando están definitivamente ausentes (p. ej., sin evidencia de edema pulmonar o neumonía), que cuando posiblemente están presentes (p. ej., no puede excluir edema pulmonar o neumonía).

Además, debido a que la cardiomegalia y el derrame pleural son hallazgos radiológicos regionales focales de alta visibilidad, también demuestran un mayor rendimiento de TPCR con similitud de parche que con probabilidad de confianza (Fig. 8). De manera similar, para la atelectasia, típicamente un hallazgo de CXR regional, focal y más discreto que el edema pulmonar o la neumonía, tanto la similitud del parche como la pSim (Fig. 8) muestran un buen rendimiento de TPCR en relación con la probabilidad de confianza. Por el contrario, para el edema pulmonar, la única etiqueta para la que el rendimiento de TPCR es mejor con probabilidad de confianza que con similitud de parche (Fig. 8), este resultado es consistente con el hecho de que la probabilidad de confianza es más sensible para la detección de global, no localizado características, que se asocian habitualmente con hallazgos de edema pulmonar en la CXR (es decir, el edema pulmonar se visualiza de forma difusa en los campos pulmonares bilaterales).

Es de destacar que la explicación de estas diferencias en el rendimiento entre la probabilidad de confianza, la similitud del parche y pSim para las cinco etiquetas diferentes (Fig. 8), se corresponde tan estrechamente con el rendimiento del lector y la variabilidad del lector que se muestran en las Figs. 2–5 y 7. Esto no solo confirma nuestra percepción clínica de "sentido común" de que la cardiomegalia y el derrame pleural (así como la atelectasia) son hallazgos objetivos de alta visibilidad en la CXR, mientras que el edema pulmonar y la neumonía son evaluaciones subjetivas más inespecíficas, sino también subraya la explicabilidad de nuestro modelo (a través de la asignación de valores de pSim apropiados para cada etiqueta) al reflejar el desempeño humano, probablemente atribuible a la realidad del terreno basada en radiólogos utilizada para el entrenamiento del modelo.

Otra limitación de nuestro modelo es que nuestro sistema xAI propuesto requiere recursos computacionales y espacio de almacenamiento sustanciales para proporcionar la base de predicción y operar el módulo de selección de modo. Sin embargo, debido a que los módulos explicables han sido diseñados para operar de manera independiente, podemos implementar de manera diferencial el sistema xAI de capacidades ajustadas de acuerdo con la especificación de un servidor determinado.

En resumen, hemos: (i) desarrollado y demostrado un modelo de IA explicable para el etiquetado automatizado de cinco etiquetas de salida clínica de imágenes de CXR diferentes, en un nivel de confianza cuantitativo seleccionado por el usuario, basado en la similitud con el atlas derivado del modelo de un modelo existente modelo validado, y (ii) demostró que, mediante el ajuste fino de este modelo existente utilizando los exámenes etiquetados automáticamente para el reentrenamiento, el rendimiento podría conservarse o mejorarse, lo que daría como resultado un modelo más generalizado y de alta precisión. Cabe señalar que estos resultados se lograron mediante la anotación de expertos humanos de solo 100 exámenes, seleccionados de los tres grandes conjuntos de datos independientes, que representan una distribución equitativa de los valores de umbral de pSim de 0 a 1; esto sugiere que nuestro enfoque basado en la similitud cuantitativa con un atlas derivado de un modelo de IA explicable puede proporcionar un etiquetado altamente preciso y totalmente automatizado, independientemente del tamaño de la base de datos de código abierto que se esté estudiando.

En conclusión, la capacidad de anotar de forma automática, precisa y eficiente grandes bases de datos de imágenes médicas puede tener un valor considerable en el desarrollo de modelos de IA importantes y de alto impacto que aporten valor agregado y sean ampliamente aceptados por la comunidad de atención médica. Nuestro enfoque podría no solo ayudar a mejorar la precisión de los modelos de IA existentes a través de ajustes y reentrenamiento, sino también ayudar a estandarizar las etiquetas de los conjuntos de datos de código abierto (para los cuales las etiquetas proporcionadas pueden ser ruidosas, inexactas o inexistentes) en función de su similitud cuantitativa con los de los modelos validados existentes. El uso de la métrica pSim para el etiquetado automático tiene el potencial de reducir la cantidad de datos anotados necesarios para la creación de modelos precisos, lo que reduce la necesidad de etiquetado manual de conjuntos de datos muy grandes por parte de expertos humanos.

Este estudio cumplió con la Ley de Portabilidad y Responsabilidad del Seguro Médico y fue aprobado por la Junta de Revisión Institucional del Hospital General de Massachusetts para el análisis retrospectivo de los datos adquiridos clínicamente con una renuncia al consentimiento informado.

El conjunto de datos de desarrollo contenía imágenes CXR adquiridas entre febrero de 2015 y febrero de 2019. Todas las imágenes DICOM (imágenes digitales y comunicaciones en medicina) se desidentificaron antes de los análisis de datos. Para hacer un conjunto de datos consistente, elegimos solo exámenes que tenían informes de radiología asociados, ver información de posición (p. ej., proyecciones AP/PA, portátiles, etc.) e identificadores esenciales del paciente (incluidos, entre otros, el número de registro médico, la edad o género). Si un examen tenía múltiples imágenes de CXR, solo se incluía una única imagen de CXR. Seleccionamos aleatoriamente 1000 imágenes para cada posición de vista como conjunto de prueba; los exámenes restantes, de pacientes que no se superponen, se separaron en conjuntos de entrenamiento y validación (Figura 1 complementaria).

Las etiquetas para los conjuntos de entrenamiento y validación se determinaron exclusivamente a partir de las asignaciones de NLP automatizadas, mientras que las del conjunto de prueba se determinaron por consenso de tres radiólogos certificados por la junta de EE. -it" (https://markit.mgh.harvard.edu, MA, EE. UU.) para la anotación7.

La red convolucional densamente conectada (DenseNet-121)34, que conecta cada capa con todas las demás capas en un método de avance, fue seleccionada para desarrollar el sistema de detección y clasificación de 20 etiquetas patológicas. El modelo preentrenado, disponible en el repositorio oficial en Pytorch35,36, se ajustó mediante aprendizaje supervisado con nuestro conjunto de datos de entrenamiento y las etiquetas de NLP después de que la última capa totalmente conectada con 1000 salidas y la primera capa convolucional se reemplazaron con 21 salidas (es decir, , 20 etiquetas patológicas y posición de visualización) y con entradas de 1 canal de profundidad, respectivamente. La topología de la red se optimizó con AdamW37, donde usamos un tamaño de lote de 144, una tasa de aprendizaje de \(1\times 1{0}^{-4}\), beta-1 de 0,9, beta-2 de 0,999, épsilon de \(1\times 1{0}^{-8}\), y decaimiento de peso de \(1\times 1{0}^{-5}\). En el paso de entrenamiento, el aumento de datos en tiempo real se realizó mediante la aplicación de transformaciones geométricas: rotación de −10 a 10, escalado al 110 %, recorte aleatorio a 512 × 512, volteo horizontal aleatorio con 1 % de probabilidad. Todos los experimentos se realizaron en cuatro GPU de Tesla V100 SXM de 32 GB [NVIDIA DGX, CA, EE. UU.] y todos los modelos de aprendizaje profundo se implementaron con Pytorch (v.1.2.0).

La función de pérdida de entropía cruzada binaria (BCE) fue ponderada por las proporciones de muestras positivas y negativas para cada etiqueta de clase (\({\alpha }_{P}^{c}\) y \({\alpha }_{ N}^{c}\)), para clasificación multietiqueta4. Consideramos dos pesos adicionales: el primer peso tenía que reflejar la relación del número de muestras efectivas (\({\alpha }_{s}^{c}\), el número de suma máxima entre etiquetas positivas y negativas entre 20 muestras clínicas etiquetas de salida divididas por la de la c-ésima etiqueta) para entrenar debido a la consideración de ignorar etiquetas para cada etiqueta de salida clínica. Al entrenar el modelo de IA, descubrimos experimentalmente que usar muestras con la otra posición de vista, así como aquellas con una posición de vista específica, puede mejorar el rendimiento de generalización del modelo, por lo que agregamos el segundo peso (α(ν)) en la pérdida Función para controlar relativamente el impacto de las muestras con la posición de la vista de destino. La función de pérdida BCE ponderada viene dada por la ecuación. (1):

donde x denota imágenes CXR, la salida del modelo es \({{{{{\bf{y}}}}}}=\{{y}^{1},{y}^{2},..., {y}^{J}\}\) que indica la probabilidad predicha de J clases, v es una posición de vista de la imagen y \({{{{{\bf{t}}}}}}=\{ {t}^{1},{t}^{2},...,{t}^{J}\}\) significa las etiquetas de las etiquetas de resultados clínicos extraídas por NLP. Además, \({\alpha }_{s}^{c}\) se define como \((\left|{P}^{m}\right|+\left|{N}^{m}\ right|)/(\left|{P}^{c}\right|+\left|{N}^{c}\right|)\) para hacer justicia entre clases con diferentes números de muestras efectivas que consideran solo "0" y "1", no "−1". Aquí, \(\left|{P}^{c}\right|\) y \(\left|{N}^{c}\right|\) son los números totales de "1" y "0" s en etiquetas para la etiqueta c, y m significa el índice de clase que tiene el número total máximo de "1" y "0" (\(m={{\arg }}\mathop{{{\max }}} \nolimits_{c}(\left|{P}^{c}\right|+\left|{N}^{c}\right|)\)). También definimos \({\alpha }_{P}^{c}=\frac{\left|{P}^{c}\right|+\left|{N}^{c}\right|}{ \left|{P}^{c}\right|}\) y \({\alpha }_{N}^{c}=\frac{\left|{P}^{c}\right|+\ left|{N}^{c}\right|}{\left|{N}^{c}\right|}\) para resolver el desequilibrio entre positivo y negativo; α(ν) se establece en ω si ν es la vista de destino, 1 para las demás.

Nuestro etiquetado automatizado de conjuntos de datos, basado en la similitud con un modelo CXR AI validado, requiere el cálculo de dos parámetros cuantitativos basados ​​en atlas, las probabilidades de "similitud de parche" y "confianza" (valores entre 0 y 1), según la Fig. 1. Para el cálculo de "similitud de parches", se genera un atlas de parches basado en el mapeo de activación de clases (CAM)38,39; para el cálculo de "confianza" se genera un atlas de distribución basado en las probabilidades predichas (Fig. 1a, b). La media armónica entre la similitud del parche y los valores de confianza se utilizan luego para calcular un pSim para cada etiqueta de salida clínica (Fig. 1c).

Para mejorar la solidez de todo el sistema, se compone un conjunto de seis modelos DenseNet-121 utilizando un promedio no ponderado, de modo que la probabilidad final se determina como un promedio de las probabilidades predichas por los seis modelos40. Esos seis modelos se construyen entrenando de forma independiente con tres pesos (es decir, ω = 1,1, 1,5 y 2,0 en α(ν)) para la vista PA y luego seleccionando dos modelos maximizados por AUROC y precisión, respectivamente. Para crear el Atlas de distribución, hacemos inferencia con el modelo de IA entrenado en un conjunto de datos de entrenamiento completo, para obtener dos distribuciones de probabilidad de muestras positivas y negativas para el conjunto de datos de entrenamiento. Estas distribuciones de probabilidad se guardan como Atlas de distribución para cada etiqueta de salida clínica.

Para mejorar el rendimiento de localización de nuestro mapeo de activación de clase, desarrollamos un método de conjunto de la siguiente manera: eliminando los componentes de ruido de un solo CAM, agregando solo componentes significativos y normalizándolo en Eq. (2), el conjunto CAM pudo resaltar claramente las regiones superpuestas entre los CAM individuales.

donde \({{{{{{\bf{CAM}}}}}}}_{{{{{\bf{E}}}}}}}^{{{{{{\bf{c} }}}}}}\) significa la matriz CAM de conjunto, \({{{{{{\bf{CAM}}}}}}}_{{{{{\bf{s}}}}}} }^{{{{{{\bf{c}}}}}}}\) es una matriz CAM para la clase c generada a partir del modelo único s-th, y S denota el número de modelos. Uτ denota una matriz con el componente de \({u}_{i,j}={{{{\rm{u}}}}}}({{{{{{\bf{CAM}}}} }}}_{{{{{{\bf{s}}}}}}}^{{{{{\bf{c}}}}}}}(i,j)-\tau )\) determinar valores de CAM inferiores a τ como componentes de ruido y eliminarlos. u es una función escalón unitario, ⊙ significa el producto de Hadamard y Normalizar es una escala lineal para convertir a un rango estándar entre 0 y 1.

Para crear el atlas de parches, buscamos los contornos principales en un CAM de alta resolución (512 × 512) generado a partir de un CAM para cada clase, seleccionamos un cuadro delimitador para incluir el contorno, lo definimos como el parche y lo guardamos (uno o dos parches de una CAM se consideran en este estudio). Para cada etiqueta de salida clínica, los parches se guardan como patrones representativos típicos de solo las imágenes de CXR con la probabilidad prevista del modelo de IA de ser mayor o igual a 0,9. Entrenamos un modelo UMAP basado en métricas de coseno utilizando los parches para todas las etiquetas de resultados clínicos24. El modelo UMAP transforma los parches en coordenadas en un espacio de incrustación bidimensional, de modo que cuanto menor sea la distancia euclidiana en este espacio, mayor será la similitud del coseno. Por lo tanto, para el método de etiquetado automatizado, el atlas de parches consta de coordenadas para todos los parches en el espacio de incrustación bidimensional y el modelo UMAP (Fig. 1b). Además, el atlas de parches se puede crear utilizando esquemas más avanzados41,42.

Para calcular la similitud del parche como se muestra en la Fig. 1b, necesitamos extraer la base de predicción (\({{{{{{\boldsymbol{\Psi }}}}}}}_{{{{{\rm {pb}}}}}}^{{{{{{\rm{c}}}}}}}\)) para la c-ésima etiqueta calculando la distancia euclidiana entre la coordenada transformada UMAP de la imagen de entrada y el Patch-atlas, y luego seleccionando K-base con la distancia mínima como Eq. (3):

donde \({{{{{{\boldsymbol{\Omega }}}}}}}_{{{{{{\rm{pb}}}}}}}^{{{{{\rm{c }}}}}}}(k)\) denota el parche con la k-ésima distancia euclidiana mínima entre el Patch-atlas, y la distancia euclidiana se calcula mediante \({\left|\left|{{{{{ {\rm{f}}}}}}}_{{{{{\rm{UMAP}}}}}}}^{{{{{\rm{c}}}}}}}({ {{{{{\bf{y}}}}}}}_{{{{{{\rm{p}}}}}}^{{{{{{\rm{c}}}}} }})-{{{{{{\rm{A}}}}}}}_{{{{{\rm{P}}}}}}-{{{{{\rm{UMAP}} }}}}}^{{{{{\rm{c}}}}}}}(i)\right|\right|}_{2}{for\;i}=1,\ldots ,{ n}({{{{{{\rm{A}}}}}}}_{{{{{\rm{P}}}}}}-{{{{{\rm{UMAP}}} }}}}^{{{{{{\rm{c}}}}}}})\). Además, \({{{{{{\rm{f}}}}}}}_{{{{{\rm{UMAP}}}}}}}^{{{{{{\rm{c }}}}}}}\) es el modelo UMAP entrenado para la clase c, \({{{{{\bf{y}}}}}}}_{{{{{{\rm{p} }}}}}}^{{{{{\rm{c}}}}}}}\) es un vector de parche de 1024 dimensiones calculado por una imagen de entrada, \({{{{{{\rm{ A}}}}}}}_{{{{{{\rm{P}}}}}}-{{{{{\rm{UMAP}}}}}}}^{{{{{\ rm{c}}}}}}}\) es el Patch-atlas, y \(n({{{{{{\rm{A}}}}}}}_{{{{{{\rm{ P}}}}}}-{{{{{\rm{UMAP}}}}}}}^{{{{{{\rm{c}}}}}}})\) es el tamaño de la Parche-atlas. Se propone la similitud del parche para permitir que el modelo de IA interprete el nuevo parche en función de la base de predicción (\({{{{{{\boldsymbol{\Psi }}}}}}}_{{{{{{\ rm{pb}}}}}}}^{{{{{\rm{c}}}}}}}\)), como una métrica cuantitativa. La métrica se calcula mediante un percentil de qué tan cerca está un parche de una imagen de entrada sobre una base de predicción de K parches en el espacio de incrustación.

donde \({{{{{{\rm{f}}}}}}}_{{{{{\rm{D}}}}}}}^{{{{{\rm{c} }}}}}}\) indica una función que calcula un percentil para la distancia euclidiana media de los K parches más cercanos para la imagen de entrada, en función de una distribución de la distancia euclidiana media para todos los parches del Patch-atlas.

Según la Fig. 1b, proponemos la métrica de confianza, basada en el atlas de distribución, como una medida del nivel de confianza entre las probabilidades positivas y negativas previstas para una etiqueta de resultados clínicos. Esta métrica cuantitativa se define simplemente con las ecuaciones. (5) y (6) para muestras predichas positivas y negativas, como sigue:

Suponiendo que una probabilidad pronosticada es \({y}^{c}\) para la clase c, calculamos un percentil (\({{{{{\rm{f}}}}}}}_{{{ {{{\rm{P}}}}}}}^{{{{{\rm{c}}}}}}}({y}^{c})\)) en el Atlas de distribución positivo y un percentil (\({1-{{{{{\rm{f}}}}}}}_{{{{{{\rm{N}}}}}}}^{{{{{{ \rm{c}}}}}}}({y}^{c})\)) en el Atlas de distribución negativo. Luego, la diferencia entre dos percentiles se calcula como la confianza. Debido a que la capacidad predictiva del modelo xAI para cada etiqueta de resultado clínico está relacionada con la forma y el grado de intersección de las dos curvas de densidad de probabilidad (positiva y negativa) en el atlas de distribución, la métrica de confianza, definida en base a las ecuaciones. (5) y (6), proporciona una medida cuantitativa análoga al valor p entre diferentes distribuciones estadísticas. En otras palabras, cuanto mayor sea el valor de confianza de una etiqueta, mayor será la probabilidad de que la imagen de entrada se asigne a la etiqueta correcta y menor la probabilidad de una asignación incorrecta. Además, esta métrica tiene la capacidad de cuantificar diferentes niveles de confianza de acuerdo con diferentes distribuciones de características de etiquetas de resultados clínicos en el atlas de distribución para cada clase del modelo, incluso con las mismas probabilidades previstas.

Nuestro método automatizado de etiquetado de conjuntos de datos calcula el valor de pSim utilizando una media armónica entre la confianza y la similitud de parches (pSimilaridad en la ecuación (7)) para cada imagen de entrada.

El umbral de pSim para cada etiqueta de salida clínica se elige según los valores de pSim más bajos que pueden alcanzar el 100 % de VPP y VPN, según las Figs. 2–4.

La funcionalidad adicional de nuestro diseño de modelo incluye un algoritmo de "selección de modo" que, utilizando el valor umbral de pSim seleccionado, se puede usar para: (1) determinar la etiqueta de la imagen (positiva, negativa o sin etiquetar) dentro de un nivel determinado de -confianza si el valor pSim para una clase es mayor que el umbral seleccionado ("modo de autoanotación"), o (2) alertar al usuario humano si el pSim cae por debajo del umbral seleccionado para el nivel de confianza ("re- modo de anotación"). Aunque el "modo de nueva anotación" no se aplicó a nuestro estudio actual, tiene el potencial de ser valioso en futuras aplicaciones y despliegues de nuestro modelo, como parte de su funcionalidad de explicabilidad (se proporcionan más detalles sobre la "selección de modo" de pSim en Métodos Caja 1).

Entrada: probabilidad predicha para la clase c (yc), ConfidenceP, ConfidenceN y similitud de parche

%[paso-1] Para dividir en dos grupos por yc y THpos: candidatos positivos o negativos

Si \({y}^{c}\ge T{H}_{{pos}}\): entonces

%[paso-2] Para decidir el modo y la anotación para los candidatos positivos

% de probabilidad de similitud, pSim

pSim = 2 Confianza P p Similitud / (Confianza P + p Similitud)

Si pSim > = valor umbral de pSim (PPV, VPN = 1): entonces

Modo = modo de autoanotación

Etiqueta = 1% Etiqueta positiva

Demás

Modo = Modo de re-anotación

Etiqueta = -1% sin etiqueta

Demás

%[paso-2] Para decidir el modo y la anotación para los candidatos negativos

pSim = ConfianzaN

Si pSim > = valor umbral de pSim (PPV, VPN = 1): entonces

Modo = modo de autoanotación

Etiqueta = 0 % Etiqueta negativa

Demás

Modo = Modo de re-anotación

Anotación = −1% sin etiquetar

Para evaluar la importancia estadística de los AUROC, calculamos los IC del 95 % utilizando un enfoque de arranque no paramétrico a través del siguiente proceso: primero, se tomaron muestras aleatorias de 1000 casos del conjunto de datos de prueba de 1000 casos con reemplazo, y los modelos DCNN se evaluaron en la muestra. equipo de prueba. Después de ejecutar este proceso 2000 veces, se obtuvieron IC del 95 % utilizando el intervalo entre los percentiles 2,5 y 97,5 de la distribución de AUROC. Los IC del 95 % de precisión porcentual, sensibilidad y especificidad de los modelos en el punto de operación seleccionado se calcularon utilizando IC de proporción binomial.

Aunque los conjuntos de datos externos contenían vistas AP y PA, nuestro estudio se realizó solo con vistas PA, tanto por coherencia/conveniencia como para minimizar posibles variables de confusión. Específicamente, de los conjuntos de datos CheXpert v1 (n = 223 414) y NIH (n = 112 120), que contienen etiquetas PA en sus archivos de metadatos, recopilamos 29 420 y 67 310 PA CXR respectivamente. A partir del conjunto de datos MIMIC v1 (n = 369 188), que no tenía etiquetas claras, aplicamos un modelo interno para distinguir entre las proyecciones PA y AP, que arrojó 71 223 PA CXR (especificidad 0,999, sensibilidad = 0,998).

Más información sobre el diseño de la investigación está disponible en el Resumen de informes de investigación de Nature vinculado a este artículo.

Se puede acceder a las etiquetas para las cinco categorías aplicadas a los tres conjuntos de datos abiertos por los siete lectores expertos en: https://github.com/MGH-LMIC/AutoLabels-PublicData-CXR-PA. Los conjuntos de datos de entrenamiento, validación y prueba generados para este estudio son anónimos; el formato de imagen no DICOM de estos datos puede estar disponible en 15 días hábiles para fines de investigación del autor correspondiente ([email protected]) con una solicitud oficial.

Se puede acceder a los códigos para el desarrollo de modelos en: https://github.com/MGH-LMIC/CXR-autolabeling.

Lee, H. et al. Un algoritmo explicable de aprendizaje profundo para la detección de hemorragia intracraneal aguda a partir de pequeños conjuntos de datos. Nat. biomedicina Ing. 3, 173–182 (2019).

Artículo Google Académico

Irvin, J. et al. Chexpert: un gran conjunto de datos de radiografías de tórax con etiquetas de incertidumbre y comparación de expertos. En Actas de la Conferencia AAAI sobre Inteligencia Artificial 33, 590–597 (2019).

Johnson, A., et al. MIMIC-CXR-JPG - radiografías de tórax con etiquetas estructuradas (versión 2.0.0). PhysioNet https://doi.org/10.13026/8360-t248 (2019).

Wang, X., et al. Chestx-ray8: base de datos de radiografías de tórax a escala hospitalaria y puntos de referencia sobre clasificación y localización con supervisión débil de enfermedades comunes del tórax. En Actas de la Conferencia IEEE sobre visión artificial y reconocimiento de patrones, 2097–2106 (2017).

Bustos, A., Pertusa, A., Salinas, JM & de la Iglesia-Vayá, M. Padchest: un gran conjunto de datos de imágenes de rayos X de tórax con informes anotados de etiquetas múltiples. Medicina. Anal de imagen. 66, 101797 (2020).

Artículo Google Académico

Kim, TK, Paul, HY, Hager, GD y Lin, CT Refinación de métodos de conservación de conjuntos de datos para la detección automatizada de tuberculosis basada en aprendizaje profundo. J. Thorac. Dis. 12, 5078–5085 (2020).

Artículo Google Académico

Witowski, J., et al. MarkIt: una plataforma de anotación de inteligencia artificial colaborativa que aprovecha blockchain para la investigación de imágenes médicas. Blockchain en la atención médica hoy (2021).

Powers, D. Evaluación: desde precisión, recuperación y factor F hasta ROC, información, marcado y correlación. J. Mach. Aprender. Tecnología 2, 37–63 (2008).

Google Académico

Arun, N. et al. Evaluación de la confiabilidad de los mapas de prominencia para localizar anomalías en imágenes médicas. Radiol. Artefacto Intel. 3, e200267 (2021).

Artículo Google Académico

He, K., Zhang, X., Ren, S. y Sun, J. Aprendizaje residual profundo para el reconocimiento de imágenes. En Actas de la Conferencia IEEE sobre visión artificial y reconocimiento de patrones, 770–778, (2016).

Sandler, M., Howard, A., Zhu, M., Zhmoginov, A. y Chen, LC Mobilenetv2: residuos invertidos y cuellos de botella lineales. En Actas de la Conferencia IEEE sobre visión artificial y reconocimiento de patrones, 4510–4520, (2018).

Tan, M., et al Mnasnet: Búsqueda de arquitectura neuronal consciente de la plataforma para dispositivos móviles. En Actas de la Conferencia IEEE/CVF sobre visión artificial y reconocimiento de patrones, 2820–2828, (2019).

Lakhani, P. & Sundaram, B. Aprendizaje profundo en radiografía de tórax: clasificación automatizada de tuberculosis pulmonar mediante el uso de redes neuronales convolucionales. Radiología 284, 574–582 (2017).

Artículo Google Académico

Baltruschat, IM, Nickisch, H., Grass, M., Knopp, T. & Saalbach, A. Comparación de enfoques de aprendizaje profundo para la clasificación de rayos X de tórax de etiquetas múltiples. ciencia Rep. 9, 1–10 (2019).

Artículo CAS Google Académico

Pasa, F., Golkov, V., Pfeiffer, F., Cremers, D. y Pfeiffer, D. Arquitecturas de redes profundas eficientes para la detección y visualización rápidas de tuberculosis por rayos X de tórax. ciencia Rep. 9, 1–9 (2019).

Artículo CAS Google Académico

Wang, L., Lin, ZQ y Wong, A. Covid-net: un diseño de red neuronal convolucional profundo personalizado para la detección de casos de covid-19 a partir de imágenes de rayos X de tórax. ciencia Rep. 10, 1–12 (2020).

Artículo Google Académico

Rajpurkar, P. et al. CheXaid: asistencia de aprendizaje profundo para el diagnóstico médico de tuberculosis mediante radiografías de tórax en pacientes con VIH. Dígito NPJ. Medicina. 3, 1–8 (2020).

Artículo Google Académico

Oh, Y., Park, S. & Ye, JC Funciones de aprendizaje profundo de covid-19 en cxr usando conjuntos de datos de entrenamiento limitados. Trans. IEEE. Medicina. Imágenes 39, 2688–2700 (2020).

Artículo Google Académico

Nam, JG et al. Desarrollo y validación de un algoritmo de detección automática basado en aprendizaje profundo para nódulos pulmonares malignos en radiografías de tórax. Radiología 290, 218–228 (2019).

Artículo Google Académico

Sim, Y. et al. El software basado en redes neuronales convolucionales profundas mejora la detección por radiólogos de nódulos pulmonares malignos en radiografías de tórax. Radiología 294, 199–209 (2020).

Artículo Google Académico

Cantado, J., et al. Valor agregado del sistema de detección basado en aprendizaje profundo para múltiples hallazgos importantes en radiografías de tórax: un estudio cruzado aleatorizado. Radiología 202818, (2021).

Zech, JR et al. Rendimiento de generalización variable de un modelo de aprendizaje profundo para detectar neumonía en radiografías de tórax: un estudio transversal. PLoS Med. 15, e1002683 (2018).

Artículo Google Académico

Rauschecker, AM et al. Portabilidad interinstitucional de un algoritmo de segmentación de lesiones de resonancia magnética cerebral de aprendizaje profundo. Radiol. Artefacto Intel. 4, e200152 (2021).

Artículo Google Académico

McInnes, L. et al. UMAP: Aproximación y Proyección de Múltiples Uniformes. Revista de software de código abierto, 3, 861 https://doi.org/10.21105/joss.00861 (2018).

Berthelot, D., et al. Mixmatch: un enfoque holístico para el aprendizaje semisupervisado. En Avances en sistemas de procesamiento de información neuronal, 5050–5060 (2019).

He, K., Fan, H., Wu, Y., Xie, S. y Girshick, R. Momentum contrast para el aprendizaje de representaciones visuales sin supervisión. En Actas de la Conferencia IEEE/CVF sobre visión artificial y reconocimiento de patrones, 9729–9738, (2020).

Chen, T., Kornblith, S., Norouzi, M. y Hinton, G. Un marco simple para el aprendizaje contrastivo de representaciones visuales. En Actas de la Conferencia Internacional sobre Aprendizaje Automático, 1597–1607, (2020).

Carón, M., et al. Aprendizaje no supervisado de características visuales contrastando asignaciones de grupos. En Procedimientos de avances en sistemas de procesamiento de información neuronal (NeurIPS), (2020).

Hadsell, R., Chopra, S. y LeCun, Y. Reducción de la dimensionalidad mediante el aprendizaje de un mapeo invariante. En Actas de la Conferencia IEEE sobre visión por computadora y reconocimiento de patrones, 1735–1742, (2006).

Apostolopoulos, ID & Mpesiana, TA Covid-19: detección automática a partir de imágenes de rayos X utilizando aprendizaje de transferencia con redes neuronales convolucionales. física Ing. ciencia Medicina. 43, 635–640 (2020).

Artículo Google Académico

Shin, HC et al. Redes neuronales convolucionales profundas para detección asistida por computadora: arquitecturas CNN, características de conjuntos de datos y aprendizaje de transferencia. Trans. IEEE. Medicina. Imágenes 35, 1285–1298 (2016).

Artículo Google Académico

Yosinski, J. et al. ¿Qué tan transferibles son las características en las redes neuronales profundas? Avances en los sistemas de procesamiento de información neuronal 27 (2014).

Kolb, DA Aprendizaje experiencial: la experiencia como fuente de aprendizaje y desarrollo (FT press, 2014).

Huang, G., Liu, Z., Van Der Maaten, L. y Weinberger, KQ Redes convolucionales densamente conectadas. En Actas de la Conferencia IEEE sobre visión por computadora y reconocimiento de patrones, 4700–4708, (2017).

Deng, J., et al. Imagenet: una base de datos de imágenes jerárquicas a gran escala. En Actas de la Conferencia IEEE sobre visión artificial y reconocimiento de patrones, 248–255, (2009).

Paszke, A. et al. Pytorch: una biblioteca de aprendizaje profundo de estilo imperativo y alto rendimiento. Avances en los sistemas de procesamiento de información neuronal 32 (2019).

Loshchilov, I. y Hutter, F. Regularización de la disminución del peso desacoplada. En Conferencia Internacional sobre Representaciones de Aprendizaje, (2019).

Zhou, B., Khosla, A., Lapedriza, A., Oliva, A. and Torralba, A. Learning deep features for discriminative localization. En Actas de la Conferencia IEEE sobre visión artificial y reconocimiento de patrones, 2921–2929, (2016).

Selvaraju, RR, et al. Grad-CAM: explicaciones visuales de redes profundas mediante localización basada en gradientes. En Actas de la Conferencia internacional IEEE sobre visión por computadora, 618–626, (2017).

Ju, C., Bibaut, A. y van der Laan, M. El rendimiento relativo de los métodos de conjunto con redes neuronales convolucionales profundas para la clasificación de imágenes. Aplicación J. Estadística 45, 2800–2818 (2018).

Artículo MathSciNet Google Académico

Ahn, J., Cho, S. y Kwak, S. Aprendizaje débilmente supervisado de segmentación de instancias con relaciones entre píxeles. En Actas de la Conferencia IEEE/CVF sobre visión artificial y reconocimiento de patrones, 2209–2218, (2019).

Jo, S. & Yu, IJ Puzzle-CAM: localización mejorada mediante la combinación de funciones parciales y completas. Conferencia internacional IEEE 2021 sobre procesamiento de imágenes, (2021).

Stehman, SV Selección e interpretación de medidas de precisión de clasificación temática. Sensores Remotos Entorno. 62, 77–89 (1997).

Artículo ANUNCIOS Google Académico

Descargar referencias

Nuestra investigación proporciona un método para hacer un uso práctico de conjuntos de datos abiertos. Agradecemos a CheXpert, MIMIC y NIH, que ya dedicaron mucho tiempo y esfuerzo a compartir imágenes de radiografías de tórax. También nos gustaría agradecer a Thomas J. Schultz y Eric Michael L'Italien del equipo Enterprise Medical Imaging (EMI) y a Sehyo Yune, Myeongchan Kim y Jan Sylwester Witowski del Departamento de Radiología del Hospital General de Massachusetts por su asistencia en la selección de datos. Y gracias a Nvidia y al Center for Clinical Data Science (CCDS) por hacer que el sistema DGX esté disponible para nuestra investigación.

Estos autores contribuyeron igualmente: Doyun Kim, Joowon Chung.

Departamento de Radiología, Massachusetts General Brigham and Harvard Medical School, Boston, MA, EE. UU.

Doyun Kim, Joowon Chung, Jongmun Choi, Marc D. Succi, John Conklin, Maria Gabriela Figueiro Longo, Jeanne B. Ackman, Brent P. Little, Milena Petranovic, Mannudeep K. Kalra, Michael H. Lev y Synho Do

También puede buscar este autor en PubMed Google Scholar

También puede buscar este autor en PubMed Google Scholar

También puede buscar este autor en PubMed Google Scholar

También puede buscar este autor en PubMed Google Scholar

También puede buscar este autor en PubMed Google Scholar

También puede buscar este autor en PubMed Google Scholar

También puede buscar este autor en PubMed Google Scholar

También puede buscar este autor en PubMed Google Scholar

También puede buscar este autor en PubMed Google Scholar

También puede buscar este autor en PubMed Google Scholar

También puede buscar este autor en PubMed Google Scholar

También puede buscar este autor en PubMed Google Scholar

DK, JJ, MHL y SD iniciaron y diseñaron la investigación. Datos seleccionados de DK, JC, JMC y SD. MDS, JC, MGFL, JBA, BPL, MP y MKK interpretaron y anotaron los datos. DK, JJ, MHL y SD analizaron los datos y los resultados. DK, JJ, JBA, MP, BPL, MHL y SD escribieron el manuscrito.

Correspondencia a Synho Do.

MHL es consultor de GE Healthcare y de las empresas farmacéuticas Takeda, Roche y Seagen, y ha recibido apoyo de investigación institucional de Siemens Healthcare. BPL y JBA reciben regalías de Elsevier, Inc. como editor y autor asociado de libros de texto académicos. SD es consultor de Doai y recibió apoyo para la investigación de Tplus y Medibloc. MKK ha recibido apoyo de investigación institucional de Siemens Healthineers, Coreline Inc. y Riverain Tech Inc. JMC fue apoyado parcialmente por una subvención del Proyecto de I + D de Tecnología de la Salud de Corea a través del Instituto de Desarrollo de la Industria de la Salud de Corea (KHIDI) financiado por el Ministerio de Salud y Bienestar, República de Corea (HI19C1057). Los autores restantes declaran no tener intereses contrapuestos.

Nature Communications agradece a Chang Min Park, Eric Oermann y los otros revisores anónimos por su contribución a la revisión por pares de este trabajo. Los informes de los revisores están disponibles.

Nota del editor Springer Nature se mantiene neutral con respecto a los reclamos jurisdiccionales en mapas publicados y afiliaciones institucionales.

Acceso abierto Este artículo tiene una licencia internacional Creative Commons Attribution 4.0, que permite el uso, el intercambio, la adaptación, la distribución y la reproducción en cualquier medio o formato, siempre que se otorgue el crédito correspondiente al autor o autores originales y a la fuente. proporcionar un enlace a la licencia Creative Commons e indicar si se realizaron cambios. Las imágenes u otro material de terceros en este artículo están incluidos en la licencia Creative Commons del artículo, a menos que se indique lo contrario en una línea de crédito al material. Si el material no está incluido en la licencia Creative Commons del artículo y su uso previsto no está permitido por la regulación legal o excede el uso permitido, deberá obtener el permiso directamente del titular de los derechos de autor. Para ver una copia de esta licencia, visite http://creativecommons.org/licenses/by/4.0/.

Reimpresiones y permisos

Kim, D., Chung, J., Choi, J. et al. Etiquetado automático preciso de imágenes de rayos X de tórax basado en la similitud cuantitativa con un modelo de IA explicable. Nat Comun 13, 1867 (2022). https://doi.org/10.1038/s41467-022-29437-8

Descargar cita

Recibido: 20 Agosto 2021

Aceptado: 14 de marzo de 2022

Publicado: 06 abril 2022

DOI: https://doi.org/10.1038/s41467-022-29437-8

Cualquier persona con la que compartas el siguiente enlace podrá leer este contenido:

Lo sentimos, un enlace para compartir no está disponible actualmente para este artículo.

Proporcionado por la iniciativa de intercambio de contenido Springer Nature SharedIt

Medicina BMC (2023)

Naturaleza Ingeniería Biomédica (2022)

Informes científicos (2022)

Al enviar un comentario, acepta cumplir con nuestros Términos y Pautas de la comunidad. Si encuentra algo abusivo o que no cumple con nuestros términos o pautas, márquelo como inapropiado.