Segmentación automática y medición de lesiones por presión utilizando modelos de aprendizaje profundo y una cámara LiDAR

Noticias

HogarHogar / Noticias / Segmentación automática y medición de lesiones por presión utilizando modelos de aprendizaje profundo y una cámara LiDAR

Nov 22, 2023

Segmentación automática y medición de lesiones por presión utilizando modelos de aprendizaje profundo y una cámara LiDAR

Informes científicos volumen 13,

Scientific Reports volumen 13, Número de artículo: 680 (2023) Citar este artículo

1221 Accesos

1 Citas

3 Altmetric

Detalles de métricas

Las lesiones por presión son un problema común que resulta en un mal pronóstico, hospitalización a largo plazo y mayores costos médicos en una sociedad que envejece. Este estudio desarrolló un método para realizar la segmentación automática y la medición del área de las lesiones por presión utilizando modelos de aprendizaje profundo y una cámara de detección y medición de luz (LiDAR). Seleccionamos las mejores fotos de pacientes con lesiones por presión, 528 en total, en el Hospital Universitario Nacional de Taiwán de 2016 a 2020. Los márgenes de las lesiones por presión fueron etiquetados por tres cirujanos plásticos certificados por la junta. Las fotos etiquetadas fueron entrenadas por Mask R-CNN y U-Net para la segmentación. Después de construir el modelo de segmentación, realizamos una medición automática del área de la herida a través de una cámara LiDAR. Realizamos un estudio clínico prospectivo para probar la precisión de este sistema. Para la segmentación automática de heridas, el rendimiento de U-Net (coeficiente de Dice (DC): 0,8448) fue mejor que el de Mask R-CNN (DC: 0,5006) en la validación externa. En el estudio clínico prospectivo, incorporamos U-Net en nuestro sistema automático de medición del área de la herida y obtuvimos un error relativo medio del 26,2 % en comparación con el método manual tradicional. Nuestro modelo de segmentación, U-Net y el sistema de medición de área lograron una precisión aceptable, lo que los hace aplicables en circunstancias clínicas.

Las lesiones por presión, causadas por la compresión prolongada de los tejidos blandos, representan una pesada carga para los sistemas sanitarios y afectan a millones de pacientes en todo el mundo. El cuidado de las úlceras por presión cuesta más de $11 mil millones anuales en los Estados Unidos. El costo de la atención de cada paciente oscila entre $20 900 y $151 700 por lesión por presión1.

En esta era de la pandemia de COVID-19, el transporte de pacientes para recibir tratamiento en centros médicos aumenta el riesgo de contraer COVID-19. La telemedicina para el cuidado de heridas de estos pacientes puede ser útil para reducir los costos médicos, evitar fuentes de infección y hacer que el tratamiento sea más eficiente. En telemedicina, la medición precisa del área de la herida es fundamental para la evaluación y el tratamiento de las heridas crónicas para controlar la trayectoria de curación de la herida y determinar futuras intervenciones. Sin embargo, la medición manual requiere mucho tiempo y es inconveniente para los cuidadores de primera línea. Para construir un sistema que pueda medir automáticamente el área de la herida, primero debemos segmentar la herida.

Los estudios previos sobre la segmentación de heridas se pueden clasificar aproximadamente en dos grupos: métodos tradicionales y métodos de aprendizaje profundo. Los estudios del primer grupo aplican la extracción manual de características con algoritmos tradicionales, como el agrupamiento de K-means, la detección de bordes, el umbral, el crecimiento de regiones, etc.2,3,4,5,6. Estos métodos adolecen de las siguientes limitaciones: (1) como en muchos sistemas de visión por computadora, las características artesanales se ven afectadas por el entorno y la resolución de la imagen; (2) no son inmunes a patologías graves y casos raros, que son muy poco prácticos para una circunstancia clínica.

A diferencia de los métodos tradicionales, los métodos de aprendizaje profundo basados ​​en la estructura de las redes neuronales del cerebro humano han mostrado un rendimiento prometedor en el procesamiento de imágenes médicas7. Desde los éxitos que logró AlexNet8 en el desafío de reconocimiento visual a gran escala ImageNet de 2012, el desarrollo de aplicaciones de aprendizaje profundo en el dominio de la visión artificial ha comenzado utilizando redes neuronales convolucionales profundas (CNN). Las CNN extraen las características y determinan su importancia a la hora de entrenar. Una arquitectura exitosa de CNN para la segmentación son las redes neuronales totalmente convolucionales (FCN)9. Un FCN comprende solo capas convolucionales sin una capa completamente conectada. Se han propuesto varios modelos basados ​​en FCN para resolver el problema de la segmentación de heridas. Por ejemplo, Wang et al. propuso la arquitectura FCN de vanilla para la segmentación de heridas10. Sin embargo, el coeficiente de Dice de la segmentación fue solo del 64,2%. Goyal et al. propuso la arquitectura FCN-16 sobre imágenes de heridas11. Pudieron lograr un coeficiente de Dice del 79,4 % en su conjunto de datos. Sin embargo, la precisión de segmentación de la red es limitada cuando se distinguen heridas pequeñas y heridas con bordes irregulares, ya que tiende a dibujar contornos suaves. Liu et al. propuso una nueva arquitectura FCN que reemplaza el decodificador del FCN vainilla con una concatenación de salto de capa muestreada con interpolación bilineal12. Se logró una precisión de Dice del 91,6 % en su conjunto de datos de 950 imágenes tomadas en un entorno de iluminación no controlado con un fondo complejo. Sin embargo, las imágenes en su conjunto de datos se anotaron de forma semiautomática utilizando un algoritmo de cuenca hidrográfica. Wang et al. propuso un marco convolucional novedoso basado en MobileNetV2 y el etiquetado de componentes conectados para segmentar regiones heridas a partir de imágenes naturales y logró un coeficiente Dice del 90,47 %13. Chang et al. probó cinco modelos de aprendizaje profundo, U-Net, DeeplabV3, PsPNet, FPN y Mask R-CNN, basados ​​en el etiquetado asistido por segmentación de superpíxeles para segmentar las úlceras por presión y DeeplabV3 obtuvo el mejor rendimiento con una precisión de 0,992514. Sin embargo, no se realizó ninguna validación externa. El aprendizaje profundo para la segmentación de heridas es ahora una técnica confiable y algunos estudios han logrado resultados integrales.

Después de realizar la segmentación automática de la herida, se necesita otro dispositivo de hardware para obtener información de profundidad a fin de calcular la longitud y el área de la herida. LiDAR (detección y rango de luz) es una técnica para determinar rangos (distancia variable) apuntando a un objeto con un láser y midiendo el tiempo que tarda la luz reflejada en regresar al receptor. Usando cámaras y dispositivos LiDAR juntos, podemos obtener información 3D y 2D, y teóricamente obtener la longitud y el área de los objetos en el mundo real.

El objetivo de nuestro estudio se centró en: (1) realizar un modelo de segmentación completamente automático con alta precisión y (2) realizar una medición automática del área de la herida con una cámara con LiDAR.

Para entrenar el modelo de segmentación, necesitábamos una gran muestra de fotos clínicas etiquetadas. Revisamos retrospectivamente los registros médicos de pacientes a los que se les diagnosticaron lesiones por presión de 2016 a 2020 en el Hospital Universitario Nacional de Taiwán. De las 1038 fotos recopiladas de los registros, eliminamos aquellas que estaban borrosas, sobreexpuestas, subexpuestas, oscurecidas o que contenían demasiados objetos o características identificables además de la herida. Finalmente, seleccionamos un total de 528 fotos de lesiones por presión para su inclusión. Utilizamos las 327 fotos de 2016 a 2019 para capacitación y validación interna y las 201 fotos de 2019 a 2020 para validación externa. Luego de construido el sistema de medición automática de áreas, realizamos un estudio prospectivo para validar su precisión. Los detalles se describirán en la sección posterior. Confirmamos que todos los métodos en nuestro estudio se realizaron de acuerdo con las pautas y regulaciones pertinentes y que el estudio fue aprobado por el comité de ética del Hospital Universitario Nacional de Taiwán (202005032RINB). Todo el nombre del paciente y cualquier otra información de identificación se eliminaron antes del análisis.

Se contrataron tres cirujanos plásticos certificados por la junta para etiquetar los márgenes de las lesiones por presión sin tener en cuenta la estadificación utilizando la herramienta de etiquetado "LabelMe" y guardarlos como archivos json. La herramienta de anotación LabelMe, un programa de código abierto de Kentaro Wada, se puede utilizar para anotar formas poligonales, rectangulares, circulares y puntiagudas15. Todas las fotos se etiquetaron conjuntamente para producir un único resultado de consenso.

Dado que las fotos de las lesiones por presión se recopilaron de varios registros médicos, sus tamaños no eran uniformes. Todas las imágenes etiquetadas se redimensionaron a 512 x 512 píxeles. Aplicamos dos arquitecturas de aprendizaje profundo, U-Net y Mask R-CNN, en combinación con una red troncal ResNet101 para segmentar estas imágenes.

U-Net16, propuesta por Olaf et al., es un tipo de red convolucional con arquitectura en forma de U para extraer y preservar características para la tarea de segmentación de objetos. Diseñado inicialmente para procesar imágenes biomédicas, U-Net tiene la capacidad de localizar y distinguir la segmentación clasificando cada píxel en cada clase para que el tamaño de los resultados de entrada y salida sea idéntico.

Las partes principales de la arquitectura U-Net son el camino izquierdo llamado camino de contracción (muestreo descendente), y el camino derecho, que está constituido por la convolución 2D transpuesta de capas en expansión (muestreo ascendente) y las conexiones de salto que compartir mapas de funciones desde la ruta de muestreo descendente hasta la ruta de muestreo ascendente. La ruta de muestreo descendente, la aplicación repetida de CNN, cada una consta de dos convoluciones de 3 × 3, seguidas de una activación de unidad lineal rectificada (RELU) y una agrupación máxima de 2 × 2 de canales de características, especialmente utilizados para extraer características de una imagen como la información espacial disminuye. Por otro lado, la ruta de muestreo ascendente, cada paso que consta de una convolución de 2 × 2 ("convolución ascendente"), combina las características y la información espacial a través de una secuencia de convoluciones ascendentes que reduce a la mitad el número de canales de características y fusiona con los mapas de características de la ruta de muestreo descendente para clasificar cada píxel. Además, para abordar la pérdida de información espacial que se produce en la ruta de muestreo descendente, los autores introdujeron conexiones de salto. La función principal de una conexión de salto es entregar los mapas de características de mayor resolución desde la ruta de muestreo descendente a la ruta de muestreo ascendente para que la ruta de muestreo ascendente pueda reconstruir la información que disminuyó durante la ruta de muestreo descendente y aprender mejores representaciones de características. con las siguientes circunvoluciones.

En nuestro estudio, entrenamos nuestro modelo usando aumento estándar como rotaciones, cambios, escala, desenfoque gaussiano y normalización de contraste. Capacitamos a nuestra U-Net con el reemplazo de la ruta de circunvoluciones con una red troncal ResNet-10117, que puede explorar y aprender más funciones de los datos. Luego, las redes se pueden inicializar utilizando pesos de modelo previamente entrenados derivados de conjuntos de datos de subtítulos, segmentación y detección de objetos a gran escala como ImageNet18, en el que hay más de 14 millones de fotos etiquetadas. La pérdida de dados estándar se eligió como la función de pérdida. La fórmula está dada por:

El término ∈ se usa para evitar el problema de dividir por 0 cuando la precisión y la recuperación están vacías.

Mask R-CNN19 es un modelo de aprendizaje profundo de última generación desarrollado por el equipo de investigación de IA de Facebook (FAIR) en abril de 2017. Mask R-CNN es una versión extendida de Faster R-CNN, que resuelve problemas de segmentación de instancias y es capaz de distinguir objetos dentro de la misma clase como una instancia individual.

Mask R-CNN separa las predicciones de máscara de forma independiente a otra rama en paralelo con una combinación de ramas de predicción de cuadro delimitador. Consiste en dos etapas. En la primera etapa la Red de Propuestas Regionales (RPN) genera una propuesta regional de los objetos en una imagen. En la segunda etapa, el clasificador de máscara binaria, cuya función es clasificar, mejora el cuadro delimitador propuesto por RPN y agrega predicción de máscara al objeto.

En nuestra implementación de Mask R-CNN, entrenamos nuestro modelo utilizando una red troncal ResNet-101 con pesos de la base de datos COCO (objetos comunes en contexto) de Microsoft previamente entrenada20, que es un conjunto de datos de subtítulos, segmentación y detección de objetos a gran escala. . Mask R-CNN utiliza una función de pérdida multitarea dada por L = Lclass + Lbox + Lmask. El componente Lclass contiene la pérdida de clase RPN (falla de la Red de propuesta de región para separar la predicción de objetos del fondo) agregada a la pérdida de clase Máscara R-CNN (falla de la clasificación de objetos Máscara R-CNN). El componente Lbox contiene la pérdida del cuadro delimitador de RPN (fallo de localización de objetos o delimitación por RPN) añadida a la pérdida del cuadro delimitador de Máscara R-CNN (fallo de localización de objetos o delimitación por Máscara R-CNN). El último componente Lmask loss constituye el fallo de la segmentación de la máscara del objeto Mask R-CNN.

La tecnología LiDAR (detección de luz y rango), implantada en un teléfono inteligente o tableta de alto nivel como un iPhone 12 Pro o iPad Pro o un tipo más avanzado, es un método para determinar rangos (distancia variable) apuntando a un objeto con un láser y medir el tiempo que tarda la luz reflejada en volver al receptor.

Inicialmente, la cámara toma una imagen bidimensional (2D) y el sensor LiDAR toma información de profundidad de las lesiones por presión en la escena que queremos detectar. Aunque el punto central de la cámara y el módulo LiDAR es diferente y la distancia entre estos dos puntos es de aproximadamente 1,5 cm, Apple Inc. ya realizó la calibración de coincidencia de puntos entre la cámara y el LiDAR para los usuarios. Por lo tanto, los usuarios no tienen que preocuparse por la coincidencia de puntos de la imagen 2D de la cámara y la imagen de profundidad del sensor LiDAR.

Por lo tanto, analizamos la imagen 2D usando modelos de segmentación que construimos previamente y obtenemos el borde de la herida en coordenadas 2D. Usando la imagen 2D y la información de profundidad, podemos convertir las coordenadas 2D en coordenadas tridimensionales (3D) usando las matrices intrínseca y extrínseca de la cámara. Finalmente, usamos las coordenadas 3D del contorno de la herida para hacer la medición del área de la herida (Fig. 1).

El algoritmo para la medición automática del área de las lesiones por presión.

Con las imágenes 2D de la cámara y los datos de profundidad de LiDAR, podemos convertir la información en coordenadas 3D del mundo real usando (2), donde mimage es el vector de coordenadas 2D [uvl]T de la imagen y Mworld es el vector de coordenadas 3D [xyzl]T de la herida del mundo real, K es la matriz intrínseca de la cámara y [R|t] es la matriz extrínseca de la cámara.

La matriz intrínseca de la cámara le permite transformar las coordenadas de la cámara 3D en coordenadas de imagen 2D en un plano de imagen utilizando el modelo de cámara estenopeica utilizando (3). Los valores fx y fy son las distancias focales de los píxeles; ox y oy son desplazamientos del punto principal desde la esquina superior izquierda del marco de la imagen. Como se conoce mimage y el valor z de Mcamera se puede reemplazar por la información de profundidad adquirida por LiDAR, los valores x, y restantes de Mcamera se pueden resolver.

La matriz extrínseca de la cámara [R|t] es una matriz relacionada con la posición y la orientación de una cámara en un sistema de coordenadas mundial o de escena, que es una concatenación matricial de una matriz de rotación R de 3*3 y una traducción de vector de columna t de 3*1. Una vez que obtengamos Mcamera, podemos usar la matriz extrínseca de la cámara para transferir las coordenadas de la cámara 3D a las coordenadas del mundo real 3D usando (4)

Todas las coordenadas 3D del borde de la herida se pueden proyectar en un Plano A con la distancia promedio más corta con la fórmula:

Dadas múltiples coordenadas (xi, yi, zi) del borde de la herida, las variables a, b, c se pueden encontrar siguiendo los siguientes pasos:

a. Suponga que todas las coordenadas x, y forman las dos primeras columnas de la Matriz A:

b. Supongamos que las variables a, b, c que queremos resolver constituyen el vector x:

C. Suponga que todas las coordenadas z forman el vector B:

Como la Matriz A y el vector B están dados, combinando (6), (7), (8), obtenemos:

Resolver el vector x, es decir los coeficientes, se reduce a resolver las ecuaciones de regresión lineal múltiple, o el plano de regresión en nuestro caso.

Después de encontrar el Plano A, los puntos de proyección en el Plano A de todas las coordenadas del borde de la herida (x'i, y'i, z'i) se pueden encontrar fácilmente. Luego, los puntos de proyección se pueden usar para estimar el área de la herida mediante la fórmula de Heron21 y las funciones trigonométricas. la ecuacion es:

donde a significa la estimación del área, las coordenadas (x'1, y'1), …, (x'n-2, y'n-2), (x'n-1, y'n-1), ( x'n, y'n) son los puntos de proyección en el Plano A de todos los puntos del borde de la herida. θ es el ángulo entre el plano A y el plano x–y.

Para validar la precisión y confiabilidad de la medición automática del área de la herida, realizamos una prueba clínica prospectiva. Desde junio de 2021 hasta enero de 2022, medimos el área de las lesiones por presión de los pacientes que visitaron nuestro departamento ambulatorio (OPD) en el Hospital Universitario Nacional de Taiwán (NTUH) utilizando el método manual tradicional, así como nuestro sistema automático de medición de área. Se obtuvo el consentimiento informado de todos los pacientes antes de realizar la medición del área de la herida. Cuando se habían recogido 20 lesiones por presión, se completó el estudio y se inició el análisis estadístico. Para cada paciente se tomó una foto lo suficientemente clara para que el sistema funcionara y había una herida por imagen. Todo el nombre del paciente y cualquier otra información de identificación se eliminaron antes del análisis.

El método tradicional consiste en utilizar una película transparente escalada para cubrir la herida y luego un rotulador para delinear el borde. El área y el ancho en el contorno delineado fueron verificados por dos cirujanos plásticos certificados por la junta y luego medidos por el software ImageJ (Institutos Nacionales de Salud, EE. UU.), que es una herramienta de imágenes confiable de código abierto basada en Java22 (Fig. 2).

El método manual tradicional para la medición del área de la herida. (Superior derecha) Medición final por el software ImageJ.

El coeficiente de dados (DC) y la intersección sobre la unión (IoU) son dos métricas comunes que se utilizan para evaluar el rendimiento de la segmentación, mientras que la precisión, el recuerdo y la exactitud son las métricas comunes para evaluar el rendimiento de la clasificación. DC es el doble del área de la intersección de la verdad fundamental y la predicción dividida por la suma de sus áreas. Está dado por:

donde TP (verdadero positivo) denota el número de píxeles de lesión por presión (PI) clasificados correctamente; FP (falso positivo) denota el número de píxeles PI clasificados erróneamente; FN (falso negativo) indica el número de píxeles no PI clasificados por error.

La intersección sobre la unión (IoU) denota el área de la intersección de la verdad básica y la predicción dividida por el área de su unión. Está dado por:

La precisión se define como la relación entre el número de píxeles PI correctamente clasificados y el número de todos los píxeles predichos. También se le llama valor predictivo positivo y viene dado por:

La recuperación se define como la relación entre el número de píxeles PI que se clasifican correctamente y el número total de píxeles PI. También se denomina sensibilidad y viene dada por:

La precisión indica el porcentaje de píxeles clasificados correctamente. Está dado por:

donde TN (verdadero negativo) denota el número de píxeles no PI correctamente clasificados.

Para evaluar el rendimiento de la medición automática del área de la herida, calculamos el error relativo medio (MRE) y la desviación estándar (SD,\(\sigma \)) de MRE de cada uno de los dos modelos, U-Net y Mask R- CNN. El MRE está dado por:

donde Ai denota la medición del área por el método tradicional y A*i denota la medición del área por el método automático. La desviación estándar (SD,\(\sigma \)) viene dada por:

donde xi denota el RE de la i-ésima (i = 1 ~ 20) medición automática, y \(\overline{x }\) denota el MRE.

La mayoría de las fotos contenían una herida por imagen en nuestro conjunto de entrenamiento. El promedio de heridas por imagen fue de 1,14. Tanto U-Net como Mask R-CNN con una red troncal ResNet101 se desempeñaron bien en la validación interna. Entrenamos a nuestros dos modelos durante 1000 épocas con una tasa de aprendizaje de 0,0001. En la tarea de validación interna, Mask R-CNN funcionó mejor que U-Net (DC: 0,9464 frente a 0,9441; IoU: 0,9337 frente a 0,8982). Otras estadísticas se detallan en la Tabla 1.

La validación externa es la prueba del modelo original en un conjunto de datos nuevos para determinar si el modelo funciona en un grado satisfactorio y si se ha producido un sobreajuste. Descubrimos que U-Net y Mask R-CNN tuvieron peor desempeño en la validación externa y que el rendimiento de U-Net fue mejor que el de Mask R-CNN (DC: 0,8448 frente a 0,5006; IoU: 0,7773 frente a 0,4604). Otras estadísticas se detallan en la Tabla 1.

La comparación de las mediciones automáticas del área de la herida por parte de U-Net y Mask R-CNN con respecto al método manual tradicional se muestra en la Tabla 2 y la Fig. 3. Notamos que había dos valores atípicos: herida n.° 16 y n.° 20. Verificamos los procesos de segmentación para determinar qué causó estos valores atípicos. La discusión adicional de los valores atípicos se detalla en la sección de discusión.

Comparación de mediciones manuales y automáticas del área de la herida. * Los valores atípicos.

Los MRE de U-Net y Mask R-CNN fueron 31,8 % y 566 %, respectivamente. Después de excluir los valores atípicos, los MRE de U-Net y Mask R-CNN fueron 26,2 % y 53 %. Las SD del error relativo de U-Net y Mask R-CNN fueron 0,23 y 0,75. El desempeño de U-Net fue mejor que el de Mask R-CNN y fue consistente con el resultado de la validación externa de la segmentación automática.

U-Net y Mask R-CNN fueron elegidos como nuestros modelos para la segmentación de las lesiones por presión porque ambos son los modelos clásicos de CNN para la segmentación. U-Net proporciona segmentación semántica y es el modelo más popular para la segmentación de imágenes biomédicas23. U-Net se ha utilizado para diferentes tipos de imágenes médicas, como CT24, MRI25, PET26 exploraciones de lesiones de diferentes órganos e imágenes microscópicas27,28. Mask R-CNN proporciona segmentación de instancias19 y también se ha utilizado para diferentes tipos de imágenes médicas, como resonancias magnéticas de rodilla29, tomografías PET de pulmón30, ultrasonografía de mama31 e imágenes de microscopía28.

En nuestro estudio, Mask R-CNN, en validación interna, fue un poco mejor que U-Net en la segmentación de lesiones por presión (IoU: 0,9337 frente a 0,8982). Sin embargo, en la validación externa, Mask R-CNN tuvo un rendimiento muy bajo (IoU: 0,4604), mientras que el rendimiento de U-Net fue relativamente aceptable (IoU: 0,7773).

Una explicación plausible para esto, respaldada por las siguientes consideraciones, es que Mask R-CNN estaba sobreajustado en el conjunto de entrenamiento mientras que U-Net no. Primero, U-Net es conocido por lograr un buen desempeño en la segmentación de imágenes biomédicas cuando se entrena con conjuntos de datos limitados. En un estudio de los inventores de U-Net, Ronneberger et al. U-Net entrenó con un conjunto de datos de solo 30 imágenes, combinado con aumento de datos, por lo que ganó la competencia del Simposio internacional sobre imágenes biomédicas (ISBI) en 201516. En segundo lugar, las lesiones por presión (PI) se clasifican en cuatro tipos, según el color. , tonalidad y textura, y son de forma irregular y de diferentes tamaños. Se requieren modelos de segmentación de instancias como Mask R-CNN para realizar primero la detección de objetos y luego la segmentación de máscaras. Deben tener en cuenta los componentes de la función de pérdida al estimar el cuadro delimitador y la clase, no solo la máscara. Los pesos del cuadro delimitador y los componentes de clase se calculan antes que el peso del componente de máscara para obtener una ubicación precisa de la instancia. En otras palabras, no solo están capacitados para distinguir los PI del fondo, sino también para distinguir algunas clases de PI de otras. Esta intención, combinada con la naturaleza de un PI individual, puede hacer que el modelo encuentre otros PI en algún PI específico o pase por alto alguna parte de un PI individual, especialmente cuando el conjunto de datos de entrenamiento es limitado. Estos dos fenómenos, que llamamos "objeto en objeto" y "cabeza cortada", se describen en las Figs. 4 y 5. Por otro lado, U-Net, una especie de aumento semántico, no tiene este tipo de problema. Sin embargo, estos dos fenómenos pueden ser causados ​​por un conjunto de entrenamiento limitado. Podemos concluir que cuando se trata de un conjunto limitado de imágenes biomédicas de entrenamiento, U-Net es mejor que Mask R-CNN.

El fenómeno del "objeto en objeto". (A) La segmentación de instancias es buena para la discriminación de diferentes personas que se superponen entre sí. (Esta imagen de muestra fue la predicción de Mask R-CNN en el conjunto de datos COCO20). (B) Sin embargo, una herida puede contener múltiples texturas. (C) En el conjunto de entrenamiento, pudimos identificar diferentes texturas en estas dos heridas solitarias. (D) Máscara-RCNN realizó una segmentación incorrecta e identificó una segunda "herida" más pequeña con una textura diferente (azul) dentro de la herida más grande (roja). Sin embargo, en realidad, solo había una herida.

El fenómeno de la "cabeza cortada". (A) Debido a la arquitectura de Mask R-CNN, la segmentación de instancias está sujeta a quedar "atrapada" por un ROI (región de interés) identificado anteriormente. Los círculos de puntos rojos indican que las patas de las ovejas no estaban segmentadas con precisión. (Esta imagen de muestra fue la predicción de Mask R-CNN en el conjunto de datos COCO20). (B) Una sola herida puede tener diferentes texturas con una forma irregular, lo que la hace vulnerable a ser segmentada incorrectamente como múltiples heridas. (C) En el conjunto de entrenamiento, encontramos algunas heridas de una sola textura con formas circulares regulares. (D) Máscara-RCNN segmentó incorrectamente la herida más compleja al "perder" la parte superior de la herida.

U-Net se desempeñó mejor en la medición automática del área de la herida que Mask R-CNN (MRE: 19,14 % frente a 565,98 %), de acuerdo con los resultados de la validación externa de la segmentación. Notamos que había dos valores atípicos: heridas no. 16 y núm. 20 (Figs. 6 y 7). En el proceso de segmentación de la herida n.° 16, encontramos que la proporción de la herida con respecto a la imagen completa era demasiado pequeña para realizar la segmentación con éxito. Por lo tanto, hemos agregado una instrucción a nuestro sistema de que la herida debe estar centrada y llenar al menos el 20 % de toda la imagen e instruye al usuario a centrar la cámara y acercarla a la herida cuando no lo esté.

El proceso de segmentación de la herida No. 16.

El proceso de segmentación de la herida No. 20.

En el proceso de segmentación de la herida núm. 20 (Fig. 7), encontramos dos problemas de segmentación diferentes. La foto original mostraba dos tipos de textura de la herida: una es rosada y poco profunda, y la otra es de color rojo oscuro y profunda. Como se definió, todos se consideraron como una sola herida, pero Mask R-CNN solo segmentó el rojo oscuro. U-Net segmentó con éxito estos dos tipos de textura de herida como una sola herida; sin embargo, debido a demasiada sangre y gasa en la imagen, una condición que puede deberse a que la foto se tomó justo después de la cirugía, U-Net segmentó incorrectamente parte del área con la sangre y la gasa como parte del área de la herida. En consecuencia, Mask R-CNN subestimó el área mientras que U-Net la sobreestimó. Consideramos esta situación como un caso atípico porque si la imagen hubiera estado limpia con solo contenido de herida en la imagen, U-Net no habría sobreestimado el área. Por lo tanto, hemos agregado una instrucción para los usuarios de nuestro sistema de que la foto debe tomarse con un fondo limpio y sin elementos que distraigan en la imagen. Otro enfoque para mejorar el resultado de nuestro sistema en el trabajo futuro es recolectar más fotos en el conjunto de entrenamiento con un fondo desordenado para entrenar al modelo para distinguir mejor la herida de otras características.

Otro problema es por qué usamos el "área" de la herida en lugar de su "volumen". La razón es que en realidad no pudimos obtener la verdad básica del volumen por el método tradicional, aunque el volumen de la herida refleja mejor la gravedad de la herida porque la profundidad de la herida también es importante. Si podemos demostrar que la tecnología LiDAR puede obtener coordenadas 3D precisas al verificar el área de las heridas en comparación con el método manual tradicional, podemos demostrar indirectamente que podemos obtener la profundidad y el volumen precisos de la herida a través de las matemáticas mediante la tecnología LiDAR.

Hay algunos estudios publicados previamente que proponen diferentes algoritmos de aprendizaje profundo para hacer la segmentación de heridas como mencionamos antes10,11,12,13,14,32,33,34. Los tipos de aprendizaje profundo, su desempeño y otros detalles se enumeran en la Tabla 3. Aunque algunos de ellos lograron un buen desempeño en la segmentación, estos estudios no propusieron métodos para la medición del área de la herida.

Estudios previos también han abordado la medición del área de la herida. Ahmad Fauzi et al.3 propusieron medir el área de la herida mediante una "tarjeta de etiqueta" al lado de la herida con un modelo de segmentación tradicional basado en un mapa de probabilidad Rojo-Amarillo-Negro-Blanco (RYKW) combinado con un valor de saturación de tono modificado (HSV). ) modelo. Lograron una precisión de alrededor del 75,1%. Wang et al.35 propusieron un método utilizando un "marcador de referencia" junto a la herida con un proceso de segmentación realizado por su aplicación Swift Wound, basado en un modelo de aprendizaje profundo no revelado. Obtuvieron una alta confiabilidad entre evaluadores (ICC = 0.97–1.00). Kompalliy et al.36 propusieron un método utilizando una "escala" al lado de la herida y un software de segmentación mediante el cual el usuario marca el exterior y el interior de la herida. En el artículo de revisión de Lucas et al.37, el autor sugirió combinar un sensor espacial adicional y el aprendizaje automático para la segmentación como direcciones futuras.

En nuestro estudio, la medición automática de área por tecnología LiDAR y el modelo U-Net, después de eliminar los dos valores atípicos, tuvo una exactitud y precisión aceptables, con un 17,7% MRE y 0,125 SD. Lo que es más importante, nuestro sistema fue construido con tecnología LiDAR y un modelo de segmentación de aprendizaje profundo de última generación, de modo que todo lo que se necesita para usarlo es un teléfono inteligente o tableta de alto nivel (iPhone 12 Pro o iPad Pro o tipos más avanzados) con la aplicación que construimos, no hay ningún dispositivo adicional, como un sensor 3D infrarrojo adicional, ni movimiento adicional de las yemas de los dedos para marcar el contorno de la herida. Es una herramienta de medición de área totalmente "automática" que ofrece conveniencia y eficiencia. Hasta donde sabemos, nuestro estudio es el primero que utiliza la tecnología LiDAR para la medición de heridas.

La principal limitación de este estudio es con fotos limitadas. En la tarea de segmentación y medición automática del área, los datos de entrenamiento limitados resultaron en un ajuste excesivo por parte de Mask-RCNN, pero para U-Net, la cantidad limitada de fotos de entrenamiento fue adecuada. Estos resultados nos informaron que necesitamos más fotos de entrenamiento para Mask R-CNN que para U-Net. Sería necesario un gran estudio clínico prospectivo y los comentarios de los usuarios para verificar aún más la eficacia.

Otro problema es que nuestras fotos no pudieron revelar el drenaje del seno ni el espacio muerto profundo, especialmente cuando fueron tomadas por cuidadores de primera línea no profesionales. En una herida profunda, algunas partes de la herida pueden aparecer oscuras en la imagen. Por lo tanto, puede ser recomendable anotar en nuestro sistema que las heridas profundas, especialmente con senos paranasales que drenan o tunelización, pueden medirse incorrectamente.

Aunque este no es el primer estudio que utiliza el aprendizaje profundo para la segmentación de lesiones por presión, es el primer estudio que combina tecnología de imágenes 3D y un modelo de segmentación de aprendizaje profundo. Lo que es más importante, nuestra tecnología LiDAR de imágenes 3D aplicada, que se implanta en teléfonos inteligentes y tabletas de alto nivel como el iPhone 12 Pro, iPad Pro y tipos más avanzados, sin necesidad de dispositivos adicionales como una tarjeta de etiquetas o una regla al lado de la herida o un sensor 3D infrarrojo adicional montado en la cámara. Tal conveniencia y eficiencia harían más factible la aplicación clínica.

Para la segmentación automática de heridas, el rendimiento del modelo U-Net con una red troncal ResNet-101 fue mejor que el de Mask R-CNN con una red troncal ResNet-101. Para conjuntos de datos pequeños y limitados, U-Net es un modelo apropiado para la segmentación de imágenes biomédicas.

Para la medición automática del área de la herida, combinamos la tecnología LiDAR y un modelo de segmentación previamente entrenado, U-Net con una red troncal ResNet-101, y obtuvimos resultados aceptables en nuestro estudio clínico prospectivo.

Los conjuntos de datos generados o analizados durante el estudio actual están disponibles en https://drive.google.com/drive/folders/15T2BBlxdYPpUKhXE7lrRdnIffYM0Nj_9. Los datos que respaldan los hallazgos de este estudio están disponibles en la Universidad Nacional de Taiwán, pero se aplican restricciones a la disponibilidad de estos datos, que se usaron bajo licencia para el estudio actual y, por lo tanto, no están disponibles públicamente. Sin embargo, los datos están disponibles de los autores previa solicitud razonable y con el permiso de la Universidad Nacional de Taiwán.

Sen, CK Heridas humanas y su carga: un compendio actualizado de estimaciones. Adv Wound Care (Nueva Rochelle) 8, 39–48. https://doi.org/10.1089/wound.2019.0946 (2019).

Artículo Google Académico

Song, B. & Sacan, A. en la Conferencia Internacional IEEE de 2012 sobre Bioinformática y Biomedicina. 1–4.

Ahmad Fauzi, MF et al. Segmentación computarizada y medición de imágenes de heridas crónicas. computar Biol. Medicina. 60, 74–85. https://doi.org/10.1016/j.compbiomed.2015.02.015 (2015).

Hettiarachchi, NDJ, Mahindaratne, RBH, Mendis, GDC, Nanayakkara, HT y Nanayakkara, ND en 2013 IEEE Point-of-Care Healthcare Technologies (PHT). 298–301.

Hani, AFM, Arshad, L., Malik, AS, Jamil, A. & Bin, FYB en 2012 4th International Conference on Intelligent and Advanced Systems (ICIAS2012). 362–367.

Wantanajittikul, K., Auephanwiriyakul, S., Theera-Umpon, N. y Koanantakool, T. en la 4ª Conferencia Internacional de Ingeniería Biomédica de 2011. 169–173.

LeCun, Y., Bengio, Y. & Hinton, G. Aprendizaje profundo. Naturaleza 521, 436–444. https://doi.org/10.1038/nature14539 (2015).

Artículo ADS CAS Google Académico

Krizhevsky, A., Sutskever, I. & Hinton, G. Clasificación de ImageNet con redes neuronales convolucionales profundas. Información neuronal Proceso. sist. https://doi.org/10.1145/3065386 (2012).

Long, J., Shelhamer, E. y Darrell, T. en la Conferencia IEEE de 2015 sobre visión artificial y reconocimiento de patrones (CVPR). 3431–3440.

Wang, C. et al. en 2015 37a Conferencia Internacional Anual de la Sociedad de Ingeniería en Medicina y Biología del IEEE (EMBC). 2415–2418.

Goyal, M., Yap, MH, Reeves, ND, Rajbhandari, S. & Spragg, J. en la Conferencia Internacional IEEE sobre Sistemas, Hombre y Cibernética (SMC) de 2017. 618–623.

Liu, X. et al. en 2017 10º Congreso Internacional de Procesamiento de Imágenes y Señales, Ingeniería Biomédica e Informática (CISP-BMEI). 1–7.

Wang, C. et al. Segmentación de heridas totalmente automática con redes neuronales convolucionales profundas. ciencia Rep. 10, 21897. https://doi.org/10.1038/s41598-020-78799-w (2020).

Artículo ADS CAS Google Académico

Chang, CW et al. Enfoque de aprendizaje profundo basado en el etiquetado asistido por segmentación de superpíxeles para el diagnóstico automático de úlceras por presión. PLoS ONE 17, e0264139, https://doi.org/10.1371/journal.pone.0264139 (2022).

Wada, K. Labelme: Anotación poligonal de imagen con Python, https://github.com/wkentaro/labelme (2018).

Ronneberger, O., Fischer, P. y Brox, T. en MICCAI.

He, K., Zhang, X., Ren, S. y Sun, J. en la Conferencia IEEE de 2016 sobre visión artificial y reconocimiento de patrones (CVPR). 770–778.

Deng, J. et al. en la Conferencia IEEE de 2009 sobre visión artificial y reconocimiento de patrones. 248–255.

He, K., Gkioxari, G., Dollár, P. y Girshick, R. en la Conferencia internacional IEEE sobre visión artificial (ICCV) de 2017. 2980–2988.

Lin, T.-Y. et al. Microsoft COCO: objetos comunes en contexto. arXiv:1405.0312 (2014).

Peterson, D. Coordenadas y áreas de polígonos, https://www.themathdoctors.org/polygon-coordinates-and-areas/ (2019).

Schneider, CA, Rasband, WS & Eliceiri, KW NIH Image to ImageJ: 25 años de análisis de imágenes. Nat. Métodos 9, 671–675. https://doi.org/10.1038/nmeth.2089 (2012).

Artículo CAS Google Académico

Ronneberger, O., Fischer, P. & Brox, T. en Medical Image Computing and Computer-Assisted Intervention—MICCAI 2015. (eds Nassir Navab, Joachim Hornegger, William M. Wells, & Alejandro F. Frangi) 234–241 ( Saltador).

Dong, X. et al. Segmentación multiorgánica automática en imágenes de TC de tórax mediante U-net-GAN. Medicina. física 46, 2157–2168. https://doi.org/10.1002/mp.13458 (2019).

Artículo Google Académico

Zhang, Y. et al. Segmentación automática de mama y tejido fibroglandular en resonancia magnética de mama mediante aprendizaje profundo mediante una red neuronal residual totalmente convolucional U-Net. Academia Radiol. 26, 1526-1535. https://doi.org/10.1016/j.acra.2019.01.012 (2019).

Artículo Google Académico

Blanc-Durand, P., Van Der Gucht, A., Schaefer, N., Itti, E. & Prior, JO Detección automática de lesiones y segmentación de 18F-FET PET en gliomas: un estudio completo de red neuronal convolucional 3D U-Net . PLoS ONE 13, e0195798. https://doi.org/10.1371/journal.pone.0195798 (2018).

Fabijanska, A. Segmentación de imágenes de endotelio corneal utilizando una red neuronal convolucional basada en U-Net. Artefacto Intel. Medicina. 88, 1–13. https://doi.org/10.1016/j.artmed.2018.04.004 (2018).

Artículo Google Académico

Vuola, AO, Akram, SU y Kannala, J. en 2019 IEEE 16th International Symposium on Biomedical Imaging (ISBI 2019). 208–212.

Couteaux, V. et al. Detección automática de rotura de menisco de rodilla y clasificación de orientación con Mask-RCNN. Diagnóstico interv. Imágenes 100, 235–242. https://doi.org/10.1016/j.diii.2019.03.002 (2019).

Artículo CAS Google Académico

Zhang, R., Cheng, C., Zhao, X. y Li, X. Detección de tumores de pulmón basada en R-CNN con máscara multiescala mediante imágenes PET. mol. Imágenes 18, 1536012119863531. https://doi.org/10.1177/1536012119863531 (2019).

Artículo Google Académico

Chiao, JY et al. Detección y clasificación de los tumores de mama mediante máscara R-CNN en ecografías. Medicina (Baltimore) 98, e15200. https://doi.org/10.1097/MD.0000000000015200 (2019).

Garcia-Zapirain, B., Elmogy, M., El-Baz, A. & Elmaghraby, AS Clasificación de tejidos de úlceras por presión con red neuronal convolucional 3D. Medicina. Biol. Ing. computar 56, 2245–2258. https://doi.org/10.1007/s11517-018-1835-y (2018).

Artículo Google Académico

Ohura, N. et al. Redes neuronales convolucionales para la detección de heridas: el papel de la inteligencia artificial en el cuidado de heridas. J. Cuidado de heridas 28, S13–S24. https://doi.org/10.12968/jowc.2019.28.Sup10.S13 (2019).

Artículo Google Académico

Zahia, S., Sierra-Sosa, D., Garcia-Zapirain, B. & Elmaghraby, A. Clasificación de tejidos y segmentación de lesiones por presión mediante redes neuronales convolucionales. computar Métodos Programas Biomed. 159, 51–58. https://doi.org/10.1016/j.cmpb.2018.02.018 (2018).

Artículo Google Académico

Wang, SC y col. Tecnología de visualización de heridas en el punto de atención: reproducibilidad y precisión de una aplicación de medición de heridas. PLoS ONE 12, e0183139. https://doi.org/10.1371/journal.pone.0183139 (2017).

Kompalliy, S., Bakarajuy, V. & Gogia, SB Aplicación basada en la nube para medir el tamaño de la herida. Semental. Tecnología de la salud. Informar. 264, 1639–1640. https://doi.org/10.3233/SHTI190573 (2019).

Artículo Google Académico

Lucas, Y., Niri, R., Treuillet, S., Douzi, H. & Castaneda, B. Imágenes del tamaño de la herida: Listo para evaluación y monitoreo inteligente. Adv. Cuidado de heridas (Nueva Rochelle) 10, 641–661. https://doi.org/10.1089/wound.2018.0937 (2021).

Artículo Google Académico

Descargar referencias

Nos gustaría agradecer a todos los investigadores que nos brindaron ideas y sugerencias útiles en el Laboratorio de Informática Médica de la Universidad Nacional de Taiwán. Este estudio fue apoyado por el Ministerio de Ciencia y Tecnología (MOST), Taiwán, proyecto no. 110-2634-F-002-032.

Instituto de Graduados en Electrónica Biomédica y Bioinformática, Universidad Nacional de Taiwán, Taipei, Taiwán

Tom J. Liu, Mesakh Christian, Che-Wei Chang y Feipei Lai

División de Cirugía Plástica, Departamento de Cirugía, Hospital Universitario Católico Fu Jen, Universidad Católica Fu Jen, Nueva Ciudad de Taipei, Taiwán

tom j liu

Departamento de Ingeniería Eléctrica, Universidad Nacional de Taiwán, Taipei, Taiwán

HanweiWang

División de Cirugía Estética y Reconstructiva Plástica, Departamento de Cirugía, Far Eastern Memorial Hospital, New Taipei City, Taiwán

Che Wei Chang

Hospital y Facultad de Medicina de la Universidad Nacional de Taiwán, Universidad Nacional de Taiwán, Taipei, Taiwán

Hao Chih Tai

También puede buscar este autor en PubMed Google Scholar

También puede buscar este autor en PubMed Google Scholar

También puede buscar este autor en PubMed Google Scholar

También puede buscar este autor en PubMed Google Scholar

También puede buscar este autor en PubMed Google Scholar

También puede buscar este autor en PubMed Google Scholar

TJL: Propuesta del sistema de evaluación, diseño del estudio, redacción del manuscrito, rotulación de las fotos, análisis e interpretación de datos; sirviendo como primer autor. HW: Propuesta del sistema de evaluación, diseño del estudio, desarrollo de la aplicación, App builder y revisión del manuscrito. MC: análisis de datos, codificadores de aprendizaje profundo y creador de aplicaciones. C.-WC: Adquisición y proveedor de fotografías, rotulación de las fotografías. FL: Diseño del estudio, ejecución del procedimiento, revisión crítica del manuscrito. H.-CT: Diseño del estudio, adquisición y suministro de fotografías, rotulación de las fotografías, revisión crítica del manuscrito; sirviendo como autor correspondiente.

Correspondencia a Hao-Chih Tai.

Los autores declaran no tener conflictos de intereses.

Springer Nature se mantiene neutral con respecto a los reclamos jurisdiccionales en mapas publicados y afiliaciones institucionales.

Vídeo complementario 1.

Acceso abierto Este artículo tiene una licencia internacional Creative Commons Attribution 4.0, que permite el uso, el intercambio, la adaptación, la distribución y la reproducción en cualquier medio o formato, siempre que se otorgue el crédito correspondiente al autor o autores originales y a la fuente. proporcionar un enlace a la licencia Creative Commons e indicar si se realizaron cambios. Las imágenes u otro material de terceros en este artículo están incluidos en la licencia Creative Commons del artículo, a menos que se indique lo contrario en una línea de crédito al material. Si el material no está incluido en la licencia Creative Commons del artículo y su uso previsto no está permitido por la regulación legal o excede el uso permitido, deberá obtener el permiso directamente del titular de los derechos de autor. Para ver una copia de esta licencia, visite http://creativecommons.org/licenses/by/4.0/.

Reimpresiones y permisos

Liu, TJ, Wang, H., Christian, M. et al. Segmentación automática y medición de lesiones por presión utilizando modelos de aprendizaje profundo y una cámara LiDAR. Informe científico 13, 680 (2023). https://doi.org/10.1038/s41598-022-26812-9

Descargar cita

Recibido: 25 junio 2022

Aceptado: 20 de diciembre de 2022

Publicado: 13 enero 2023

DOI: https://doi.org/10.1038/s41598-022-26812-9

Cualquier persona con la que compartas el siguiente enlace podrá leer este contenido:

Lo sentimos, un enlace para compartir no está disponible actualmente para este artículo.

Proporcionado por la iniciativa de intercambio de contenido Springer Nature SharedIt

Al enviar un comentario, acepta cumplir con nuestros Términos y Pautas de la comunidad. Si encuentra algo abusivo o que no cumple con nuestros términos o pautas, márquelo como inapropiado.