Nov 02, 2023
Introducción al etiquetado de datos automatizado
Nota: Gracias a Superb AI por el liderazgo intelectual/artículo educativo anterior.
Nota: Gracias a Superb AI por el liderazgo intelectual/artículo educativo anterior. Superb AI ha apoyado y patrocinado este Contenido.
La inteligencia artificial ha hecho olas durante la última década, donde los avances están apareciendo en las aplicaciones cotidianas. Pero llegar allí requiere una tonelada de datos, y curar esos datos y ponerlos en acción requiere mucho trabajo. Los profesionales de ML han centrado su atención en el etiquetado de datos automatizado para implementar modelos de ML en aplicaciones del mundo real más rápido, y es fácil entender por qué. Todos los practicantes de ML saben que un modelo exitoso requiere miles de etiquetas de datos. Hacer eso manualmente significa dedicar miles de horas de trabajo, optimizar la estrategia y supervisar cada paso del proceso. Para la mayoría de los profesionales, el etiquetado de datos automatizado es una obviedad.
El etiquetado de datos en la tubería de aprendizaje automático es conocido por tener grandes cuellos de botella y ralentizaciones. Se requiere un equipo extenso para anotar individualmente los objetos importantes en cada imagen, lo que a veces puede ser muy detallado y consumir mucho tiempo. Liderar un equipo de etiquetadores a menudo implica asegurarse de que cada persona siga el mismo patrón uniforme para cada imagen porque cualquier diferencia puede confundir al modelo. Además, la contratación de un equipo de etiquetadores de datos internos es muy costosa y la subcontratación genera problemas de comunicación y errores. Si aún no se ha reunido, el etiquetado manual de datos es tedioso. Y en cada paso, la anotación de datos debe ser supervisada por profesionales de control de calidad y los errores deben corregirse.
Agregar automatización a su proyecto de aprendizaje automático contrarresta muchos de los problemas descritos anteriormente. Si bien ningún proyecto carece por completo de la influencia humana en el circuito, minimizar esa necesidad reduce el costo, minimiza el error, niega la necesidad de subcontratar y garantiza una operación más rápida de un extremo a otro. La introducción de la automatización en su flujo de trabajo aborda el cuello de botella que ha estado afectando a los profesionales de ML desde la introducción de la inteligencia artificial.
La automatización tiene más sentido para ciertos proyectos más que para otros. Cuando se entrena un modelo que depende de miles y miles de imágenes de datos, es casi imposible no automatizar. Usar solo humanos es una receta para la ralentización y los errores, por lo que cuanto más detalles contenga su proyecto, más útil será la automatización. Además, ciertos tipos de proyectos de etiquetado van de la mano con la automatización, y la implementación de esta estrategia simplemente funciona.
En el aprendizaje automático, sus modelos son tan buenos como sus aplicaciones del mundo real. En muchos casos, eso significa adaptarse a un entorno cambiante y tener en cuenta las innovaciones más recientes. Con esto en mente, los profesionales de ML deben seguir actualizando sus modelos para que continúen brindando resultados precisos. Los automóviles autónomos son un excelente ejemplo de una aplicación que necesita una revisión continua. Los modelos de automóviles cambian, los letreros de las calles se actualizan y el entorno general rara vez permanece igual. No actualizar su modelo puede provocar errores peligrosos o provocar accidentes en un concepto conocido como deterioro del modelo.
Por el contrario, hay ejemplos en los que la revisión frecuente del modelo mejora poco o nada el rendimiento del modelo. Agregar más datos a un modelo requiere más control de calidad y supervisión, así como capacitación adicional. A veces simplemente no vale la pena. Por otro lado, si su modelo se degrada con el tiempo, ajustar un cronograma de reentrenamiento es parte de asegurarse de que el rendimiento siga siendo óptimo. Si el reciclaje frecuente es parte de su proyecto, entonces el etiquetado automatizado es esencial.
Además, el etiquetado automatizado se puede programar para identificar casos límite y calcular niveles de confianza. Cuando su modelo etiqueta automáticamente las imágenes, identificar aquellas de las que no está tan seguro puede eliminar mucho tiempo en el proceso de control de calidad. La herramienta de estimación de incertidumbre de Superb AI, por ejemplo, hace exactamente esto. Identifica casos extremos propensos a errores y los marca para que un humano los inspeccione. Esto reduce la cantidad de participación humana requerida sin eliminarla por completo.
El etiquetado automatizado puede parecer la mejor opción si está disponible para su tipo de proyecto, y la buena noticia es que probablemente lo sea. Hay una plétora de técnicas de anotación que van de la mano con un enfoque programático, que desglosaremos:
La forma de etiquetado menos complicada para muchas iniciativas es la clasificación de imágenes. Los anotadores configurarán sus proyectos para que puedan elegir entre una variedad de etiquetas para describir sus datos. La clasificación en sí implica seleccionar una etiqueta de una lista desplegable; no hay dibujo o delineado de objetos con un mouse. La clasificación se puede utilizar como un complemento de otros proyectos de anotación, o puede ser independiente. Una vez que se crea la realidad básica de un modelo, se puede agregar automatización para identificar los objetos en datos no clasificados.
Los cuadros delimitadores también son un tipo de anotación simple, pero eso no significa que no sea muy efectivo para muchas aplicaciones. Aquí, un anotador simplemente hace clic y arrastra el mouse hasta que se forma una caja alrededor de los objetos que se etiquetan. Los anotadores deben tener cuidado de incluir todos los aspectos de sus objetos etiquetados y evitar incluir espacio adicional. Seguir estas dos reglas por sí solo hace que la formación de un conjunto de datos de verdad del terreno sea una tarea sencilla.
Segmentar una imagen es un enfoque complicado, aunque necesario, para muchos proyectos de etiquetado de datos. Una combinación de localización y clasificación, la segmentación busca crear un contorno preciso de objetos específicos. Y hay una serie de enfoques para hacerlo. Los puntos clave, por ejemplo, buscan conectar los puntos principales de un objeto para formar un contorno esquelético. Por otro lado, la anotación de polígonos perfila la imagen como un todo. Las polilíneas trazan contornos lineales de un objeto, como un paso de peatones, y la segmentación semántica traza la forma de cada objeto y los divide en clases. Para obtener más detalles, la segmentación de instancias distingue entre diferentes tipos del mismo objeto, como diferentes personas, en lugar de agruparlos como uno solo. Cada una de estas estrategias de etiquetado implica mucho tiempo, lo que significa que encontrar una manera más rápida es fundamental para impulsar su modelo al mercado de manera rápida y eficiente.
Para muchas aplicaciones de visión por computadora, el video es un componente importante. La vigilancia, por ejemplo, ahora tiene la capacidad de identificar actividades sospechosas como el robo. Aprender a comprender cómo es robar implica un algoritmo de visión por computadora bien entrenado. ¿El problema? Las secuencias de video contienen muchos más detalles e información que las imágenes, por lo que el etiquetado es mucho más laborioso. Desglosar cada archivo por marcos individuales es tedioso, y aislarlos por aplicabilidad puede llevar incontables horas. Establecer la realidad del terreno y luego entrenarlo para etiquetar rápidamente ciertos objetos y personas puede, por lo tanto, ser un salvavidas.
La automatización es ideal para muchos escenarios y equipos por igual, ya que agiliza el proceso de creación de modelos y reduce el tiempo total que lleva. Sin embargo, hay algunos casos en los que la implementación programática es menos eficiente.
La parte inicial del etiquetado de datos implica anotar un pequeño subconjunto de datos en el que entrenar su modelo. Esta parte se basa completamente en la intervención humana en el circuito para garantizar que los datos iniciales se anoten correctamente. He aquí por qué: saltar a la automatización se basa en conjuntos de datos pre-entrenados. La mayoría de las veces, los datos externos son útiles pero no perfectos para todos los casos de uso. La implementación de un conjunto de datos externo en su modelo puede ser como colocar una clavija cuadrada en un orificio redondo, por lo que es mejor trabajar con sus propios datos y que los humanos hagan el primer tramo del trabajo.
Además, la creación de un conjunto de datos reales también implica que cada error en esta fase se corrija y se guíe hacia la siguiente fase de etiquetado. Al armar un modelo, uno debe revisar cada imagen y asegurarse de que los límites de etiquetado sean ajustados y que las etiquetas estén hechas correctamente. Si se deja a la automatización en la fase inicial, su modelo perderá algunas de las etiquetas importantes y preparará el escenario para un modelo ineficaz e inexacto.
Además, trabajar con información patentada presenta sus propios obstáculos. Las industrias reguladas como la medicina, las finanzas y la seguridad representan un mayor riesgo si no son supervisadas por humanos al menos en la etapa inicial. El entrenamiento de un modelo para detectar ciertos tipos de cáncer es mejor dejarlo en manos de los profesionales médicos durante la etapa inicial de construir una realidad básica. Con las finanzas, una brecha en su modelo puede resultar desastrosa, especialmente para las cuentas que contienen una gran cantidad de riqueza. Lo mismo es cierto para los modelos de gobierno. Sin una supervisión cuidadosa de estos modelos, el potencial de daño es mucho mayor.
Algunos conjuntos de datos y modelos son más complejos que otros, lo que significa que es probable que un modelo automatizado pierda la marca en algunas de las etiquetas. Cuando un modelo es principalmente casos extremos, es probable que necesite intervención humana. Automatizar un modelo que requiere más supervisión es altamente ineficiente y anula cualquiera de sus ventajas. En otros casos, el uso de personas para el control de calidad de las imágenes con niveles de confianza más bajos reemplaza las predicciones iniciales de un modelo. Trabajar con casos extremos requiere un peine de dientes finos que a menudo no se puede reemplazar con máquinas.
En una respuesta corta: probablemente. Se ha demostrado que la automatización acelera el proceso de etiquetado y ayuda a los profesionales del aprendizaje automático a agilizar sus proyectos. Las aplicaciones que implican actualizaciones frecuentes son más fáciles de supervisar cuando la anotación manual se deja fuera de la ecuación. En algunos casos, como en el campo de la medicina, el etiquetado manual les quita un tiempo precioso a los médicos y profesionales que son los únicos calificados para identificar y, por lo tanto, etiquetar adecuadamente crecimientos anormales o enfermedades. Esto solo debería ser necesario al crear su conjunto de datos reales y durante el proceso de control de calidad. El mismo principio se aplica también a otros escenarios: pedir prestados recursos valiosos como ingenieros para supervisar el proceso de etiquetado manual simplemente no tiene sentido.
Decidir qué enfoque tomar al etiquetar depende completamente de su proyecto y en qué etapa se encuentra. Si se establece la verdad sobre el terreno, entonces la automatización es fácil al principio, pero los resultados no son útiles al final. Tomar ese atajo no hace nada para ahorrarle tiempo al final y solo produce un modelo inexacto. Por otro lado, las tareas de segmentación complicadas solo generan dolores de cabeza si se realizan manualmente, y es una solución fácil para proyectos menos complejos, como cuadros delimitadores. La automatización, entonces, es clave para acelerar y actualizar los proyectos de aprendizaje automático.
En Superb AI, nos especializamos en llevar la automatización a sus proyectos de aprendizaje automático y visión por computadora. A medida que continuamos ampliando nuestras capacidades, encontrará una combinación bien integrada de funciones que humaniza el proceso de etiquetado de datos y, al mismo tiempo, lo hace transparente y automático. Programe una llamada con nuestro equipo de ventas hoy para comenzar. Además, suscríbase a nuestro boletín para mantenerse actualizado sobre las últimas noticias y lanzamientos de productos de visión artificial. Este artículo se publicó originalmente en el blog Superb AI.
Caroline Lasorsa es una profesional de marketing de productos en Superb AI y reside en Boston, Massachusetts. Es una ávida lectora y aprendiz y tiene un gran interés en la inteligencia artificial para casos de uso médico y sanitario.