Etiquetado de datos y revolución de la IA (2023)

Blog

HogarHogar / Blog / Etiquetado de datos y revolución de la IA (2023)

Oct 30, 2023

Etiquetado de datos y revolución de la IA (2023)

¿Qué es el etiquetado de datos? El etiquetado de datos se emplea para algoritmos de aprendizaje automático.

¿Qué es el etiquetado de datos?

El etiquetado de datos se emplea para que los algoritmos de aprendizaje automático identifiquen y comprendan los objetos correctamente. El reconocimiento facial, la conducción autónoma, los drones aéreos, la robótica, etc., son áreas en las que ML ha demostrado ser esencial. Los datos visuales (fotográficos y cinematográficos), auditivos y de texto son ahora las principales categorías utilizadas en la recopilación y el etiquetado de datos. Dos factores principales determinan la eficacia de un sistema de IA:

El etiquetado de datos, en su forma más simple, le enseña al sistema a reconocer vehículos proporcionando ejemplos de varios automóviles para que pueda aprender las características compartidas de cada uno e identificar correctamente los automóviles en fotografías sin etiquetar.

¿Cómo funciona el etiquetado de datos?

El aprendizaje automático (ML) y el aprendizaje profundo generalmente requieren volúmenes masivos de datos para proporcionar la base para patrones de aprendizaje confiables. Los datos que recopilan para sus sistemas de entrenamiento deben estar etiquetados para obtener el resultado deseado.

Las etiquetas utilizadas para el reconocimiento de características deben ser descriptivas, discriminatorias y únicas para que el algoritmo resultante sea confiable. Un conjunto de datos bien etiquetado ofrece verificabilidad que el modelo ML puede utilizar para comprobar la precisión de sus predicciones y refinar su método.

La exactitud y la precisión son los sellos distintivos de un algoritmo de primer nivel. Un conjunto de datos preciso es aquel en el que las etiquetas específicas se pueden recuperar directamente de los datos originales. En ciencia de datos, la calidad se define como el grado en que un conjunto de datos es verdadero en general.

Clave para ganar

Los sistemas o la maquinaria que pueden reconocer patrones o funcionar de forma autónoma requieren una amplia formación en forma de abundantes datos de alta calidad. El CDAO, donde trabaja Martell, se fundó en diciembre de 2021 para acelerar y ampliar el uso de la IA y el análisis de datos por parte del Departamento de Defensa. Después de meses de consolidar el Centro Conjunto de IA, el Servicio Digital de Defensa, Advana y el cargo de director de datos, la oficina finalmente comenzó a operar a plena capacidad en junio.

Durante mucho tiempo, las Fuerzas Armadas se han interesado en la inteligencia artificial para tomar mejores decisiones más rápidamente y abrir áreas previamente inaccesibles a una investigación que ningún soldado, marinero o ser humano se atrevería a explorar.

A principios de 2021, el Departamento de Defensa estaba trabajando en más de 685 proyectos de IA, según un estudio de la Oficina de Responsabilidad Gubernamental. Algunos de estos programas involucraron importantes sistemas militares. El mes pasado, la Fuerza Aérea seleccionó a la Universidad de Howard para dirigir la investigación sobre la autonomía táctica, incluida la formación de equipos tripulados y no tripulados, como parte de un contrato de cinco años y 90 millones de dólares.

El método centrado en datos tiene sus inconvenientes. En particular, la estrategia centrada en el modelo es la única opción si el equipo no tiene dinero en efectivo y uno está tratando de evitar el etiquetado manipulado por humanos por completo utilizando un conjunto de datos preexistente. Mientras tanto, hay dos opciones de etiquetado: hacerlo internamente, lo que puede ser muy costoso y llevar mucho tiempo, o subcontratarlo, lo que a veces puede ser una apuesta y, por lo general, cuesta mucho. El etiquetado sintético es otro enfoque que implica la producción de datos falsos para ML, pero requiere muchos recursos y, por lo tanto, está fuera del alcance de muchas empresas más pequeñas. Por lo tanto, muchos grupos concluyen que la estrategia centrada en datos no vale la pena el esfuerzo requerido, cuando, en realidad, necesitan estar más informados.

La estrategia centrada en los datos es efectiva, pero solo si uno se esfuerza por trabajar con los datos. La buena noticia es que el etiquetado de datos no tiene por qué ser caro ni llevar meses, gracias a las técnicas de crowdsourcing. El problema, sin embargo, es que más personas deben ser conscientes de tales procedimientos, y mucho menos que han evolucionado para tener éxito. A pesar de los inconvenientes, más del 80 % de los profesionales de ML eligen la ruta interna, según la investigación. Y una encuesta reciente muestra que estos médicos no utilizan esta técnica porque la prefieren a otras; lo usan porque no saben nada mejor.

En resumen

El acceso a grandes volúmenes de datos etiquetados de alta calidad sigue siendo un obstáculo importante en el avance de la inteligencia artificial. Un aumento en la necesidad de datos debidamente etiquetados es virtualmente inevitable a medida que el movimiento con Ng como su líder cobra fuerza. Por lo tanto, los profesionales progresistas de IA están reconsiderando cómo clasifican sus datos. Debido al alto costo y la escalabilidad limitada del etiquetado interno, es posible que pronto lo superen y que el precio del uso de fuentes externas como datos preempaquetados, extracción de datos o establecimiento de vínculos con entidades ricas en datos sea demasiado alto. La conclusión final es que la información de alta calidad es esencial para el éxito real de las iniciativas de IA. Y se requiere precisión, es decir, un etiquetado correcto, para mejorar la calidad de los datos y, por extensión, los modelos que alimenta.

Dhanshree Shenwai es ingeniero en informática y tiene una buena experiencia en empresas FinTech que cubren el dominio financiero, de tarjetas y pagos y bancario con un gran interés en las aplicaciones de IA. Está entusiasmada con la exploración de nuevas tecnologías y avances en el mundo cambiante de hoy en día, haciendo que la vida de todos sea más fácil.

¿Qué es el etiquetado de datos? ¿Cómo funciona el etiquetado de datos? Clave para ganar Para resumir