VinDr

Blog

HogarHogar / Blog / VinDr

Nov 18, 2023

VinDr

Volumen de datos científicos 9,

Scientific Data volumen 9, Número de artículo: 429 (2022) Citar este artículo

8653 Accesos

23 citas

2 Altmetric

Detalles de métricas

La mayoría de los conjuntos de datos de rayos X de tórax existentes incluyen etiquetas de una lista de hallazgos sin especificar sus ubicaciones en las radiografías. Esto limita el desarrollo de algoritmos de aprendizaje automático para la detección y localización de anomalías torácicas. En este trabajo, describimos un conjunto de datos de más de 100 000 radiografías de tórax que se recolectaron retrospectivamente en dos hospitales importantes de Vietnam. A partir de estos datos sin procesar, publicamos 18 000 imágenes que fueron anotadas manualmente por un total de 17 radiólogos experimentados con 22 etiquetas locales de rectángulos que rodean anomalías y 6 etiquetas globales de enfermedades sospechosas. El conjunto de datos publicado se divide en un conjunto de entrenamiento de 15 000 y un conjunto de prueba de 3000. Cada escaneo en el conjunto de entrenamiento fue etiquetado de forma independiente por 3 radiólogos, mientras que cada escaneo en el conjunto de prueba fue etiquetado por consenso de 5 radiólogos. Diseñamos y construimos una plataforma de etiquetado de imágenes DICOM para facilitar estos procedimientos de anotación. Todas las imágenes se ponen a disposición del público en formato DICOM junto con las etiquetas tanto del conjunto de entrenamiento como del conjunto de prueba.

Mediciones)

enfermedades y hallazgos anormales de las exploraciones de rayos X de tórax

Tipos de tecnología

La IA se utiliza para detectar enfermedades y hallazgos anormales.

Muestra Característica - Ubicación

Vietnam

Los sistemas de diagnóstico asistido por computadora (CAD) para radiografías de tórax (también conocidas como rayos X de tórax o CXR) han logrado recientemente un gran éxito gracias a la disponibilidad de grandes conjuntos de datos etiquetados y los avances recientes de algoritmos de aprendizaje supervisado de alto rendimiento1,2, 3,4,5. Aprovechando las redes neuronales convolucionales profundas (CNN)6, estos sistemas pueden alcanzar el rendimiento de nivel experto en la clasificación de enfermedades pulmonares comunes y hallazgos relacionados. El entrenamiento de una CNN depende en gran medida de conjuntos de datos de alta calidad de imágenes anotadas. Sin embargo, es costoso y lleva mucho tiempo construir dichos conjuntos de datos debido a varias limitaciones: (1) los datos médicos son difíciles de recuperar de hospitales o centros médicos; (2) la anotación manual por parte de los médicos es costosa; (3) la anotación de imágenes médicas requiere el consenso de varios lectores expertos para superar el sesgo humano7; y (4) carece de un marco de etiquetado eficiente para administrar y anotar conjuntos de datos médicos a gran escala.

Los conjuntos de datos públicos notables de CXR incluyen ChestX-ray8, ChestX-ray148, Padchest9, CheXpert2 y MIMIC-CXR10. ChestX-ray14, una versión extendida de ChestX-ray8, fue lanzada por los Institutos Nacionales de Salud (NIH) de EE. UU. y contiene más de 112 000 tomografías computarizadas de más de 30 000 pacientes. Sin ser anotado manualmente, este conjunto de datos plantea problemas importantes relacionados con la calidad de sus etiquetas11. Padchest consta de más de 160 000 imágenes de CXR, el 27 % de las cuales fueron etiquetadas a mano por radiólogos con 174 hallazgos diferentes y 19 diagnósticos. El resto del conjunto de datos se etiquetó utilizando una herramienta de procesamiento de lenguaje natural (NLP). CheXpert, lanzado recientemente, proporciona más de 200 000 CXR de 65 240 pacientes, que se etiquetaron por la presencia de 14 observaciones utilizando un etiquetador automático basado en reglas que extrae palabras clave de informes médicos. Adoptando el mismo mecanismo de etiquetado, MIMIC-CXR contiene 377.110 imágenes en formato DICOM junto con informes de radiología de texto libre. La Tabla 1 proporciona un resumen de los conjuntos de datos mencionados junto con otros de tamaño moderado, incluidos JSRT12, Indiana13, MC14 y SH14.

La mayoría de los conjuntos de datos de CXR existentes dependen de etiquetadores automatizados basados ​​en reglas que usan coincidencia de palabras clave (por ejemplo, CheXpert2 y etiquetadores NIH8) o un modelo NLP para extraer etiquetas de enfermedades de informes de radiología de texto libre. Estas herramientas pueden producir etiquetas a gran escala pero, al mismo tiempo, introducen una alta tasa de inconsistencia, incertidumbre y errores11,15. Estas etiquetas ruidosas pueden conducir a la desviación de los algoritmos basados ​​en el aprendizaje profundo de los rendimientos informados cuando se evalúan en un entorno del mundo real16. Además, los enfoques basados ​​en informes solo asocian una imagen de CXR con una o varias etiquetas en una lista predefinida de hallazgos y diagnósticos sin identificar sus ubicaciones. Hay algunos conjuntos de datos de CXR que incluyen ubicaciones anotadas de anomalías, pero son demasiado pequeños para entrenar modelos de aprendizaje profundo (JSRT) o no son lo suficientemente detallados (PadChest). La interpretación de una CXR no se trata solo de la clasificación a nivel de imagen; es aún más importante, desde la perspectiva de un radiólogo, localizar las anomalías en la imagen. Esto explica en parte por qué las aplicaciones de los sistemas CAD para CXR en la práctica clínica son todavía muy limitadas.

En un esfuerzo por proporcionar un gran conjunto de datos CXR con etiquetas de alta calidad para la comunidad de investigación, hemos creado el conjunto de datos VinDr-CXR a partir de más de 100 000 imágenes sin procesar en formato DICOM que se recolectaron retrospectivamente del Hospital 108 (H108) y el Hanoi. Medical University Hospital (HMUH), dos de los hospitales más grandes de Vietnam. El conjunto de datos publicado consta de 18 000 exploraciones de CXR de vista posteroanterior (PA) que vienen con la localización de hallazgos críticos y la clasificación de enfermedades torácicas comunes. Estas imágenes fueron anotadas por un grupo de 17 radiólogos con al menos 8 años de experiencia para la presencia de 22 hallazgos críticos (etiquetas locales) y 6 diagnósticos (etiquetas globales); cada hallazgo se localiza con un cuadro delimitador. Las etiquetas locales y globales corresponden a las secciones "Hallazgos" e "Impresiones", respectivamente, de un informe radiológico estándar. Dividimos el conjunto de datos en dos partes: el conjunto de entrenamiento de 15 000 escaneos y el conjunto de prueba de 3000 escaneos. Cada imagen en el conjunto de entrenamiento fue etiquetada de forma independiente por 3 radiólogos, mientras que la anotación de cada imagen en el conjunto de prueba se trató con más cuidado y se obtuvo del consenso de 5 radiólogos. El proceso de etiquetado se realizó a través de un sistema interno llamado VinDr Lab17, que se construyó sobre un sistema de archivo y comunicación de imágenes (PACS). Se publican todas las imágenes DICOM y las etiquetas tanto del conjunto de entrenamiento como del conjunto de prueba. Se utilizó una versión ligeramente modificada de este conjunto de datos para organizar el Desafío de detección de anomalías de rayos X de tórax VinBigData en la plataforma Kaggle (https://www.kaggle.com/c/vinbigdata-chest-xray-abnormalities-detection/).

VinDr-CXR, hasta donde sabemos, es actualmente el conjunto de datos de CXR público más grande con anotaciones generadas por radiólogos tanto en conjuntos de entrenamiento como de prueba. Creemos que el conjunto de datos acelerará el desarrollo y la evaluación de nuevos modelos de aprendizaje automático para la localización y clasificación de lesiones y enfermedades torácicas en exploraciones CXR.

La creación del conjunto de datos VinDr-CXR, como se muestra en la figura 1, se divide en tres pasos principales: (1) recopilación de datos, (2) filtrado de datos y (3) etiquetado de datos. Entre 2018 y 2020, recopilamos retrospectivamente más de 100 000 CXR en formato DICOM de servidores PACS locales de dos hospitales en Vietnam, HMUH y H108. Los datos de imágenes se adquirieron de una amplia diversidad de escáneres de fabricantes de equipos médicos conocidos, incluidos Phillips, GE, Fujifilm, Siemens, Toshiba, Canon, Samsung y Carestream. La autorización ética de este estudio fue aprobada por las Juntas de Revisión Institucional (IRB) de HMUH y H108 antes de que comenzara el estudio. Se eliminó la necesidad de obtener el consentimiento informado del paciente porque este estudio retrospectivo no afectó la atención clínica ni el flujo de trabajo en estos dos hospitales y se eliminó toda la información identificable del paciente en los datos.

El flujo de creación del conjunto de datos VinDr-CXR: (1) las imágenes sin procesar en formato DICOM se recopilaron retrospectivamente del PACS del hospital y se anonimizaron para proteger la privacidad del paciente; (2) los archivos no válidos, como imágenes de otras modalidades, otras partes del cuerpo, de baja calidad o con una orientación incorrecta, fueron filtrados automáticamente por un clasificador basado en CNN; (3) Se desarrolló una herramienta de etiquetado basada en la web, VinDr Lab, para almacenar, administrar y anotar datos DICOM de forma remota: un grupo de 3 radiólogos etiquetó de forma independiente cada imagen en el conjunto de entrenamiento de 15,000 imágenes y cada imagen en la prueba conjunto de 3.000 imágenes fue etiquetado por el consenso de 5 radiólogos.

Para proteger la privacidad del paciente18, toda la información de identificación personal asociada con las imágenes se eliminó o reemplazó con valores aleatorios. Específicamente, ejecutamos un script de Python que elimina todas las etiquetas DICOM de información de salud protegida (PHI)19 como: nombre del paciente, fecha de nacimiento del paciente, identificación del paciente o fecha y hora de adquisición, etc. Solo retuvimos un número limitado de DICOM atributos que son necesarios para procesar imágenes en bruto. La lista completa de atributos retenidos se muestra en la Tabla 1 (materiales complementarios). A continuación, se implementó un algoritmo simple para eliminar automáticamente la información textual que aparece en los datos de la imagen (es decir, anotaciones de píxeles que podrían incluir información identificable del paciente). Luego, las imágenes resultantes se verificaron manualmente para asegurarse de que se eliminaron todos los textos antes de enviarlos digitalmente fuera de los sistemas de los hospitales.

Los datos sin procesar recopilados fueron principalmente de CXR con vista PA para adultos, pero también incluyeron una cantidad significativa de valores atípicos, como imágenes de partes del cuerpo distintas del tórax (debido a etiquetas DICOM no coincidentes), exploraciones pediátricas, imágenes de baja calidad o CXR laterales. En la Fig. 2 se muestran ejemplos de estas imágenes. Todos los valores atípicos se excluyeron automáticamente del conjunto de datos mediante un clasificador binario, que es una red neuronal convolucional (CNN) liviana. El procedimiento de entrenamiento de este clasificador está fuera del alcance de este documento.

Ejemplos de exploraciones de CXR válidas (izquierda) e inválidas (derecha). Se entrenó y usó un clasificador basado en CNN para filtrar automáticamente los valores atípicos; solo se conservaron para el etiquetado las radiografías de tórax con vista PA válidas de adultos.

El conjunto de datos VinDr-CXR se etiquetó para un total de 28 hallazgos y diagnósticos en casos de adultos: (1) Agrandamiento aórtico, (2) Atelectasia, (3) Cardiomegalia, (4) Calcificación, (5) Fractura de clavícula, (6) Consolidación , (7) Edema, (8) Enfisema, (9) PA agrandada, (10) Enfermedad pulmonar intersticial (EPI), (11) Infiltración, (12) Cavidad pulmonar, (13) Quiste pulmonar, (14) Opacidad pulmonar, (15) desplazamiento mediastínico, (16) nódulo/masa, (17) fibrosis pulmonar, (18) neumotórax, (19) engrosamiento pleural, (20) derrame pleural, (21) fractura de costilla, (22) otra lesión, (23) ) Tumor de pulmón, (24) Neumonía, (25) Tuberculosis, (26) Otras enfermedades, (27) Enfermedad pulmonar obstructiva crónica (EPOC) y (28) Sin hallazgo. Estas etiquetas se dividieron en 2 categorías: etiquetas locales (1–22) y etiquetas globales (23–28). Las etiquetas locales deben marcarse con cuadros delimitadores que localicen los hallazgos, mientras que las etiquetas globales deben reflejar la impresión diagnóstica del radiólogo. La definición de cada etiqueta se detalla en la Tabla 2 (materiales complementarios). Esta lista de etiquetas fue sugerida por un comité de los radiólogos más experimentados de los dos hospitales. La selección de estas etiquetas tuvo en cuenta dos factores: primero, son predominantes y segundo, se pueden diferenciar en los CXR. La figura 3 ilustra varias muestras con etiquetas locales y globales anotadas por radiólogos.

Ejemplos de CXR con anotaciones del radiólogo. Los hallazgos anormales (etiquetas locales) marcados por los radiólogos se trazan en las imágenes originales para fines de visualización. Las etiquetas globales están en negrita y se enumeran en la parte inferior de cada ejemplo. Se ve mejor en una computadora y se amplía para ver los detalles.

Para facilitar el proceso de etiquetado, diseñamos y construimos un marco basado en la web llamado VinDr Lab y contamos con un equipo de 17 radiólogos experimentados que anotaron los datos de forma remota. Todos los radiólogos que participaron en el proceso de etiquetado estaban certificados en radiología de diagnóstico y recibieron certificados de profesión sanitaria del Ministerio de Salud de Vietnam. Se eligió aleatoriamente un conjunto de 18 000 CXR de los datos filtrados, de los cuales 15 000 escaneos (normal: 10 606 estudios, anormal: 4394 estudios) sirven como conjunto de entrenamiento y los 3000 restantes (normal: 2052 estudios, anormal: 948 estudios) forman el equipo de prueba. Cada muestra en el conjunto de entrenamiento se asignó a 3 radiólogos para anotar a ciegas. Además, todos los radiólogos participantes desconocían la información clínica relevante. Para el conjunto de prueba, 5 radiólogos participaron en un proceso de etiquetado de dos etapas. Durante la primera etapa, cada imagen fue anotada de forma independiente por 3 radiólogos. En la segunda etapa, otros 2 radiólogos, que tienen un mayor nivel de experiencia, revisaron las anotaciones de los 3 anotadores anteriores y se comunicaron entre ellos para decidir las etiquetas finales. Los desacuerdos entre los anotadores iniciales, como se muestra en la Fig. 3 (materiales complementarios), fueron cuidadosamente discutidos y resueltos por los 2 revisores. Finalmente, el consenso de sus opiniones servirá como campo de referencia-verdad.

Una vez que se completó el etiquetado, las etiquetas de 18 000 CXR se exportaron en formato de notación de objetos JavaScript (JSON). Luego analizamos su contenido y organizamos las anotaciones en forma de un único archivo de valores separados por comas (CSV). Como resultado, proporcionamos un solo archivo CSV que contiene etiquetas, coordenadas de cuadro delimitador y sus ID de imagen correspondientes. Para el conjunto de entrenamiento, cada muestra viene con las anotaciones de tres radiólogos diferentes. Para el conjunto de prueba, solo proporcionamos las etiquetas de consenso de los cinco radiólogos. Las características de los datos, incluidos los datos demográficos del paciente y la prevalencia de cada hallazgo o patología, se resumen en la Tabla 2. La distribución de todas las etiquetas en el conjunto de entrenamiento se dibuja en la Fig. 4. Hemos publicado todas las imágenes junto con las etiquetas del entrenamiento. conjunto y el conjunto de prueba.

Distribución de hallazgos y patologías en el conjunto de entrenamiento de VinDr-CXR.

El conjunto de datos VinDr-CXR se envió a PhysioNet para su descarga pública20. Proporcionamos todos los datos de imágenes y las etiquetas de verdad de campo correspondientes para los conjuntos de entrenamiento y prueba. Las imágenes se organizaron en dos carpetas, una para entrenamiento y otra para prueba. Cada imagen tiene un identificador anónimo único que se codificó a partir del valor del UID de instancia SOP proporcionado por la etiqueta DICOM (0008,0018). El proceso de codificación fue compatible con el módulo hashlib de Python (ver [sec:code]Disponibilidad de código). Las anotaciones locales de los radiólogos del conjunto de entrenamiento se proporcionaron en un archivo CSV, annotations_train.csv. Cada fila de la tabla representa un cuadro delimitador con los siguientes atributos: ID de imagen (image_id), ID de radiólogo (rad_id), nombre de la etiqueta (class_name) y coordenadas del cuadro delimitador (x_min, y_min, x_max, y_max). Aquí, rad_id codifica las identidades de los 17 radiólogos, (x_min, y_min) son las coordenadas de la esquina superior izquierda del cuadro y (x_max, y_max) son las coordenadas de la esquina inferior derecha. Mientras tanto, las etiquetas de nivel de imagen del conjunto de entrenamiento se almacenaron en un archivo CSV diferente, image_labels_train.csv, con los siguientes campos: ID de imagen (image_id), ID de radiólogo (rad_ID) y etiquetas (labels) tanto para los hallazgos como para los diagnósticos. . En concreto, cada ID de imagen va con un vector de múltiples etiquetas correspondientes a diferentes patologías, en las que las positivas se codificaron con "1" y las negativas con "0". De manera similar, las anotaciones del cuadro delimitador y las etiquetas de nivel de imagen del conjunto de prueba se registraron en annotations_test.csv e image_labels_test.csv, respectivamente. La única diferencia es que cada fila en los archivos CSV del conjunto de prueba no estaba asociada con una ID de radiólogo.

Se controló la desidentificación de los datos. En particular, todos los metadatos de DICOM se analizaron y revisaron manualmente para garantizar que toda la información de salud identificable individualmente de los pacientes se eliminó para cumplir con la HIPAA de EE. UU. (https://www.hhs.gov/hipaa/for-professionals/privacy /laws-regulations/index.html), el RGPD europeo (https://gdpr-info.eu/), así como las leyes de privacidad locales. Los valores de píxel de todos los escaneos CXR también se examinaron cuidadosamente. Todas las imágenes fueron revisadas manualmente caso por caso por un equipo de 10 lectores humanos. Durante este proceso de revisión, se excluyó del conjunto de datos una pequeña cantidad de imágenes que contenían información textual privada que no había sido eliminada por nuestro algoritmo. El proceso de revisión manual también ayudó a identificar y descartar muestras atípicas que el clasificador basado en CNN no pudo detectar. Para controlar la calidad del proceso de etiquetado, desarrollamos un conjunto de reglas subyacentes a VinDr Lab para la verificación automática de etiquetas generadas por radiólogos. Estas reglas evitan que los anotadores cometan errores mecánicos, como olvidar elegir etiquetas globales o marcar lesiones en la imagen al elegir "No encontrar" como etiqueta global. Para asegurar la ceguera total entre los anotadores, las imágenes se barajaron aleatoriamente antes de asignarlas a cada uno de ellos.

Para descargar el conjunto de datos, los usuarios deben aceptar un Acuerdo de uso de fecha (DUA) llamado Licencia de datos de salud acreditados de PhysioNet 1.5.0 (https://physionet.org/content/vindr-cxr/view-license/1.0.0/) . Al aceptar el DUA, los usuarios aceptan que no compartirán los datos y que el conjunto de datos se puede usar solo con fines educativos y de investigación científica y no intentarán volver a identificar a ningún paciente, institución u hospital. Para cualquier publicación que explore este recurso, los autores deben citar este artículo original. También alentamos a dichos autores a que publiquen su código y sus modelos, lo que ayudará a la comunidad a reproducir experimentos y a impulsar la investigación en el campo de las imágenes médicas.

El código utilizado para cargar y procesar imágenes DICOM se basa en los siguientes repositorios de código abierto: Python 3.7.0 (https://www.python.org/); Pydicom 1.2.0 (https://pydicom.github.io/); OpenCV-Python 4.2.0.34 (https://pypi.org/project/opencv-python/); y Python hashlib (https://docs.python.org/3/library/hashlib.html). El código para la desidentificación de datos y la detección de valores atípicos se puso a disposición del público en https://github.com/vinbigdata-medical/vindr-cxr.

Rajpurkar, P. et al. Aprendizaje profundo para el diagnóstico de radiografía de tórax: una comparación retrospectiva del algoritmo CheXNeXt con radiólogos en ejercicio. PLoS Medicine 15, e1002686, https://doi.org/10.1371/journal.pmed.1002686 (2018).

Artículo PubMed PubMed Central Google Académico

Irvin, J. et al. CheXpert: un gran conjunto de datos de radiografías de tórax con etiquetas de incertidumbre y comparación de expertos. En Actas de la Conferencia AAAI sobre Inteligencia Artificial 33, 590–597 (2019).

Artículo Google Académico

Majkowska, A. et al. Interpretación de radiografías de tórax con modelos de aprendizaje profundo: evaluación con estándares de referencia adjudicados por radiólogos y evaluación ajustada a la población. Radiología 294, 421–431, https://doi.org/10.1148/radiol.2019191293 (2020).

Artículo PubMed Google Académico

Tang, Y.-X. et al. Clasificación automatizada de anomalías de radiografías de tórax utilizando redes neuronales convolucionales profundas. npj Medicina digital 3, 1–8, https://doi.org/10.1038/s41746-020-0273-z (2020).

Artículo Google Académico

Pham, HH, Le, TT, Tran, DQ, Ngo, DT & Nguyen, HQ Interpretación de radiografías de tórax a través de cnns que explotan dependencias jerárquicas de enfermedades y etiquetas de incertidumbre. Neurocomputación 437, 186–194 (2021).

Artículo Google Académico

LeCun, Y., Bengio, Y. & Hinton, G. Aprendizaje profundo. Nature 512, 436–444, https://doi.org/10.1038/nature14539 (2015).

Artículo ADS CAS Google Académico

Razzak, MI, Naz, S. y Zaib, A. Aprendizaje profundo para el procesamiento de imágenes médicas: descripción general, desafíos y el futuro. En Clasificación en BioApps, 323–350, https://doi.org/10.1007/978-3-319-65981-7_12 (Springer, 2018).

Wang, X. et al. ChestX-ray8: base de datos de radiografías de tórax a escala hospitalaria y puntos de referencia sobre clasificación y localización de enfermedades comunes del tórax con supervisión débil. En Actas de la Conferencia IEEE sobre visión artificial y reconocimiento de patrones (CVPR), 2097–2106, https://doi.org/10.1109/CVPR.2017.369 (2017).

Bustos, A., Pertusa, A., Salinas, J.-M. & de la Iglesia-Vayá, M. Padchest: Un gran conjunto de datos de imágenes de rayos X de tórax con informes anotados de etiquetas múltiples. Análisis de imágenes médicas 66, 101797 (2020).

Artículo Google Académico

Johnson, AE et al. MIMIC-CXR, una base de datos anónima disponible públicamente de radiografías de tórax con informes de texto libre. Datos científicos 6, 317, https://doi.org/10.1038/s41597-019-0322-0 (2019).

Artículo PubMed PubMed Central Google Académico

Oakden-Rayner, L. Explorando el conjunto de datos ChestXray14: problemas. https://lukeoakdenrayner.wordpress.com/2017/12/18/the-chestxray14-dataset-problems/ (2017). (En línea; consultado el 4 de mayo de 2020).

Shiraishi, J. et al. Desarrollo de una base de datos de imágenes digitales para radiografías de tórax con y sin nódulo pulmonar: análisis de las características operativas del receptor de la detección de nódulos pulmonares por parte de los radiólogos. American Journal of Roentgenology 174, 71–74, https://doi.org/10.2214/ajr.174.1.1740071 (2000).

Artículo CAS PubMed Google Académico

Demner-Fushman, D. et al. Preparar una colección de exámenes de radiología para su distribución y recuperación. Revista de la Asociación Estadounidense de Informática Médica 23, 304–310, https://doi.org/10.1093/jamia/ocv080 (2016).

Artículo PubMed Google Académico

Jaeger, S. et al. Dos conjuntos de datos públicos de rayos X de tórax para la detección asistida por computadora de enfermedades pulmonares. Imágenes cuantitativas en medicina y cirugía 4, 475–477 https://doi.org/10.3978/j.issn.2223-4292.2014.11.20 (2014).

PubMed PubMed Central Google Académico

Oakden-Rayner, L. Exploración de conjuntos de datos de imágenes médicas públicas a gran escala. Radiología académica 27, 106–112, https://doi.org/10.1016/j.acra.2019.10.006. Número especial: Inteligencia artificial (2020).

Nagendran, M. et al. Inteligencia artificial versus médicos: revisión sistemática del diseño, estándares de informes y afirmaciones de estudios de aprendizaje profundo. BMJ 368, https://doi.org/10.1136/bmj.m689 (2020).

Nguyen, NT et al. VinDr Lab: una plataforma de datos para IA médica. https://github.com/vinbigdata-medical/vindr-lab (2021).

Asamblea Nacional Vietnamita. Reglamento 40/2009/QH12 (Ley de Examen y Tratamiento Médico). http://vbpl.vn/hanoi/Pages/vbpqen-toanvan.aspx?ItemID=10482. (En línea; consultado el 11 de diciembre de 2020) (2009).

Isola, S. & Al Khalili, Y. Información de salud protegida (PHI). https://www.ncbi.nlm.nih.gov/books/NBK553131/ (2019).

Nguyen, HQ, Pham, HH, Le, LT, Dao, M. & Lam, K. VinDr-CXR: un conjunto de datos abierto de radiografías de tórax con anotaciones de radiólogos. PhysioNet https://doi.org/10.13026/3akn-b287 (2021).

Descargar referencias

Los autores desean agradecer al Hospital de la Universidad Médica de Hanoi y al Hospital 108 por brindarnos acceso a sus bases de datos de imágenes y por acceder a poner a disposición del público el conjunto de datos VinDr-CXR. Agradecemos especialmente a todos nuestros colaboradores, incluidos radiólogos, médicos y técnicos, que participaron en el proceso de recolección y etiquetado de datos.

Estos autores contribuyeron igualmente: Ha Q. Nguyen, Khanh Lam, Linh T. Le.

Estos autores contribuyeron por igual: Dung D. Le, Chi M. Pham, Hang TT Tong, Diep H. Dinh, Cuong D. Do, Luu T. Doan, Cuong N. Nguyen, Binh T. Nguyen, Que V. Nguyen, Au D. Hoang, Hien N. Phan, Anh T. Nguyen, Phuong H. Ho.

Instituto Vingroup Big Data, Hanoi, Vietnam

Ha Q. Nguyen, Hieu H. Pham, Dat Q. Tran, Dung B. Nguyen, Minh Dao y Van Vu

Centro de salud inteligente, VinBigData JSC, Hanoi, Vietnam

Ha Q. Nguyen, Hieu H. Pham, Dat T. Ngo, Nghia T. Nguyen y Nhan T. Nguyen

Hospital 108, Departamento de Radiología, Hanoi, Vietnam

Khanh Lam, Dung D. Le, Chi M. Pham, Hang TT Tong, Diep H. Dinh y Cuong D. Do

Hospital de la Universidad Médica de Hanoi, Departamento de Radiología, Hanoi, Vietnam

Linh T. Le, Luu T. Doan, Cuong N. Nguyen, Binh T. Nguyen, Que V. Nguyen, Au D. Hoang, Hien N. Phan y Anh T. Nguyen

Facultad de Ingeniería y Ciencias de la Computación, VinUniversity, Hanoi, Vietnam

Hola H. Pham

Centro de Salud Inteligente VinUni-Illinois, Universidad Vin, Hanoi, Vietnam

Hola H. Pham

Hospital General Tam Anh, Departamento de Radiología, Ciudad Ho Chi Minh, Vietnam

Phuong H Hoa

Universidad de Yale, Departamento de Matemáticas, New Heaven, CT, 06511, EE. UU.

de vu

También puede buscar este autor en PubMed Google Scholar

También puede buscar este autor en PubMed Google Scholar

También puede buscar este autor en PubMed Google Scholar

También puede buscar este autor en PubMed Google Scholar

También puede buscar este autor en PubMed Google Scholar

También puede buscar este autor en PubMed Google Scholar

También puede buscar este autor en PubMed Google Scholar

También puede buscar este autor en PubMed Google Scholar

También puede buscar este autor en PubMed Google Scholar

También puede buscar este autor en PubMed Google Scholar

También puede buscar este autor en PubMed Google Scholar

También puede buscar este autor en PubMed Google Scholar

También puede buscar este autor en PubMed Google Scholar

También puede buscar este autor en PubMed Google Scholar

También puede buscar este autor en PubMed Google Scholar

También puede buscar este autor en PubMed Google Scholar

También puede buscar este autor en PubMed Google Scholar

También puede buscar este autor en PubMed Google Scholar

También puede buscar este autor en PubMed Google Scholar

También puede buscar este autor en PubMed Google Scholar

También puede buscar este autor en PubMed Google Scholar

También puede buscar este autor en PubMed Google Scholar

También puede buscar este autor en PubMed Google Scholar

También puede buscar este autor en PubMed Google Scholar

HQN, KL y LL diseñaron el estudio; HQN, Nghia T. Nguyen, MD y VV diseñaron el marco de etiquetado; HHP y DBN realizaron la desidentificación de datos; HHP desarrolló el algoritmo para el filtrado de valores atípicos; DT, DBN, DTN y Nhan T. Nguyen realizaron la adquisición y el análisis de datos; KL, LL, DL, CP, HT, DD, CD, LD, CN, BN, QN, AH, HNP, AN y PH anotaron datos e hicieron comentarios para mejorar las herramientas de etiquetado; HQN y HHP escribieron el artículo; Todos los autores revisaron el manuscrito.

Correspondencia a Hieu H. Pham.

Este trabajo fue financiado por Vingroup JSC. El financiador no participó en el diseño del estudio, la recopilación y el análisis de datos, la decisión de publicar o la preparación del manuscrito.

Nota del editor Springer Nature se mantiene neutral con respecto a los reclamos jurisdiccionales en mapas publicados y afiliaciones institucionales.

Acceso abierto Este artículo tiene una licencia internacional Creative Commons Attribution 4.0, que permite el uso, el intercambio, la adaptación, la distribución y la reproducción en cualquier medio o formato, siempre que se otorgue el crédito correspondiente al autor o autores originales y a la fuente. proporcionar un enlace a la licencia Creative Commons e indicar si se realizaron cambios. Las imágenes u otro material de terceros en este artículo están incluidos en la licencia Creative Commons del artículo, a menos que se indique lo contrario en una línea de crédito al material. Si el material no está incluido en la licencia Creative Commons del artículo y su uso previsto no está permitido por la regulación legal o excede el uso permitido, deberá obtener el permiso directamente del titular de los derechos de autor. Para ver una copia de esta licencia, visite http://creativecommons.org/licenses/by/4.0/.

Reimpresiones y permisos

Nguyen, HQ, Lam, K., Le, LT et al. VinDr-CXR: un conjunto de datos abierto de radiografías de tórax con anotaciones del radiólogo. Datos científicos 9, 429 (2022). https://doi.org/10.1038/s41597-022-01498-w

Descargar cita

Recibido: 04 Agosto 2021

Aceptado: 23 junio 2022

Publicado: 20 julio 2022

DOI: https://doi.org/10.1038/s41597-022-01498-w

Cualquier persona con la que compartas el siguiente enlace podrá leer este contenido:

Lo sentimos, un enlace para compartir no está disponible actualmente para este artículo.

Proporcionado por la iniciativa de intercambio de contenido Springer Nature SharedIt

Informes científicos (2023)

Datos científicos (2023)

SN Informática (2023)

Inteligencia artificial de la naturaleza (2022)