que abierto

Noticias

HogarHogar / Noticias / que abierto

Nov 01, 2023

que abierto

Únase a altos ejecutivos en San Francisco el 11 y 12 de julio para escuchar cómo son los líderes

Únase a los principales ejecutivos en San Francisco el 11 y 12 de julio para escuchar cómo los líderes están integrando y optimizando las inversiones en IA para el éxito. Aprende más

El etiquetado de datos es uno de los aspectos más fundamentales del aprendizaje automático. También suele ser un área en la que las organizaciones luchan, tanto para categorizar con precisión los datos como para reducir el sesgo potencial.

Con la tecnología de etiquetado de datos, primero se analiza un conjunto de datos utilizado para entrenar un modelo de aprendizaje automático y se le asigna una etiqueta que proporciona una categoría y una definición de lo que realmente son los datos. Si bien el etiquetado de datos es un componente crítico del proceso de aprendizaje automático, recientemente también ha demostrado ser altamente inconsistente, según múltiples estudios. La necesidad de un etiquetado de datos preciso ha impulsado un mercado bullicioso de proveedores de etiquetado de datos.

Entre las tecnologías de etiquetado de datos más populares se encuentra Label Studio de código abierto, que cuenta con el respaldo de la empresa emergente Heartex, con sede en San Francisco. La nueva actualización de Label Studio 1.6 que se lanzará hoy brindará a los usuarios nuevas funciones para ayudarlos a analizar y etiquetar mejor los datos dentro de los videos.

Según Michael Malyuk, cofundador y director ejecutivo de Heartex, el desafío para la mayoría de las empresas con inteligencia artificial (IA) es tener buenos datos con los que trabajar.

Transformar 2023

Únase a nosotros en San Francisco los días 11 y 12 de julio, donde los altos ejecutivos compartirán cómo han integrado y optimizado las inversiones en IA para lograr el éxito y evitar errores comunes.

"Pensamos en el etiquetado como una categoría más amplia de desarrollos de conjuntos de datos y Label Studio es una solución que, en última instancia, le permite realizar cualquier tipo de desarrollo de conjuntos de datos", dijo Malyuk.

Si bien la versión 1.6 de Label Studio tiene una capacidad de reproducción de video como característica nueva principal, Malyuk enfatizó que la tecnología es útil para cualquier tipo de datos, incluidos texto, audio, series temporales y video.

Uno de los mayores problemas con cualquier enfoque de etiquetado para todo tipo de datos es definir las categorías utilizadas para las etiquetas de datos.

"Algunas personas pueden nombrar las cosas de una manera, algunas personas pueden nombrar las cosas de una manera diferente, pero esencialmente significan lo mismo", dijo Malyuk.

Explicó que Label Studio proporciona taxonomías para las etiquetas que los usuarios pueden elegir para describir un dato, ya sea un archivo de texto, audio o imagen. Si dos o más personas en la misma organización etiquetan los mismos datos de manera diferente, el sistema Label Studio identificará el conflicto para que pueda analizarse y remediarse. Label Studio proporciona un sistema de resolución de conflictos manual y un enfoque automatizado.

El proceso de etiquetado de datos a menudo puede implicar trabajo manual, con humanos asignando una etiqueta o validando que una etiqueta sea precisa.

Hay una serie de enfoques para automatizar el proceso, la startup Lightly AI está utilizando un modelo de aprendizaje automático autosupervisado que puede integrarse con Label Studio. Luego, hay proveedores que utilizarán una base de datos vectorial para convertir los datos en matemáticas, en lugar de utilizar el etiquetado de datos para identificar los datos y sus relaciones.

Malyuk dijo que las bases de datos vectoriales tienen sus usos y pueden ser efectivas para realizar tareas como búsquedas de similitud. El problema, en su opinión, es que el enfoque vectorial no es tan efectivo con tipos de datos no estructurados como audio y video. Señaló que una base de datos vectorial puede hacer uso de tipos de identificación para objetos comunes.

"Tan pronto como comience a desviarse de ese conocimiento común a algo que es un poco diferente, se volverá muy complicado sin el etiquetado manual", dijo Malyuk.

El sesgo en la IA es un desafío continuo que muchos en la industria están tratando de combatir. En la raíz del aprendizaje automático se encuentran los datos reales, y la forma en que se etiquetan los datos también puede generar sesgos. El sesgo puede ser intencional y también puede ser circunstancial.

"Si está etiquetando un conjunto de datos muy subjetivo en la mañana antes del café y luego nuevamente después del café, puede obtener respuestas muy diferentes", dijo Malyuk.

Si bien no siempre es posible asegurarse de que los procesos de etiquetado de datos solo sean ejecutados por aquellos que están completamente cafeinados, existen procesos que pueden ayudar. Malyuk dijo que lo que hace Label Studio en el lado del software es que proporciona una manera de construir un proceso para que todos contribuyan individualmente. El sistema identifica y construye todas las matrices donde empareja a las personas entre sí y cómo etiquetan los mismos elementos. Es un enfoque que, según Malyuk, puede identificar potencialmente el sesgo de una etiqueta específica.

La tecnología de código abierto Label Studio está diseñada para ser utilizada por individuos y grupos pequeños, mientras que el proyecto comercial proporciona funciones empresariales para equipos más grandes en torno a la seguridad, la colaboración y la escalabilidad.

"Con el código abierto, nos enfocamos en el usuario y estamos tratando de hacer que la vida del usuario individual sea lo más fácil posible desde la perspectiva del etiquetado", dijo Malyuk. "Con la empresa, nos enfocamos en la organización y cualquiera que sea la necesidad del negocio, la hay".

La misión de VentureBeat es ser una plaza pública digital para que los responsables de la toma de decisiones técnicas adquieran conocimientos sobre tecnología empresarial transformadora y realicen transacciones. Descubre nuestras sesiones informativas.

La misión de VentureBeat