Por qué los datos siguen siendo el mayor desafío para los proyectos de aprendizaje automático

Noticias

HogarHogar / Noticias / Por qué los datos siguen siendo el mayor desafío para los proyectos de aprendizaje automático

Nov 04, 2023

Por qué los datos siguen siendo el mayor desafío para los proyectos de aprendizaje automático

Únase a altos ejecutivos en San Francisco el 11 y 12 de julio para escuchar cómo son los líderes

Únase a los principales ejecutivos en San Francisco el 11 y 12 de julio para escuchar cómo los líderes están integrando y optimizando las inversiones en IA para el éxito. Aprende más

Los datos de calidad están en el centro del éxito de la inteligencia artificial (IA) empresarial. Y en consecuencia, sigue siendo la principal fuente de desafíos para las empresas que desean aplicar el aprendizaje automático (ML) en sus aplicaciones y operaciones.

La industria ha logrado avances impresionantes para ayudar a las empresas a superar las barreras para obtener y preparar sus datos, según el último Informe sobre el estado de la IA de Appen. Pero aún queda mucho por hacer a diferentes niveles, incluida la estructura organizativa y las políticas de la empresa.

El ciclo de vida de la IA empresarial se puede dividir en cuatro etapas: obtención de datos, preparación de datos, prueba e implementación de modelos y evaluación de modelos.

Los avances en las herramientas informáticas y de ML han ayudado a automatizar y acelerar tareas como la capacitación y la prueba de diferentes modelos de ML. Las plataformas de computación en la nube permiten entrenar y probar docenas de modelos diferentes de diferentes tamaños y estructuras simultáneamente. Pero a medida que los modelos de aprendizaje automático crezcan en número y tamaño, requerirán más datos de entrenamiento.

Transformar 2023

Únase a nosotros en San Francisco los días 11 y 12 de julio, donde los altos ejecutivos compartirán cómo han integrado y optimizado las inversiones en IA para lograr el éxito y evitar errores comunes.

Desafortunadamente, obtener datos de entrenamiento y anotar aún requiere un esfuerzo manual considerable y es en gran medida específico de la aplicación. Según el informe de Appen, "falta de datos suficientes para un caso de uso específico, nuevas técnicas de aprendizaje automático que requieren mayores volúmenes de datos o equipos que no cuentan con los procesos adecuados para obtener de manera fácil y eficiente los datos que necesitan".

"Se requieren datos de entrenamiento de alta calidad para un rendimiento preciso del modelo; y los conjuntos de datos grandes e inclusivos son costosos", dijo a VentureBeat la directora de productos de Appen, Sujatha Sagiraju. "Sin embargo, es importante tener en cuenta que los valiosos datos de IA pueden aumentar las posibilidades de que su proyecto pase de piloto a producción; por lo tanto, el gasto es necesario".

Los equipos de ML pueden comenzar con conjuntos de datos preetiquetados, pero eventualmente necesitarán recopilar y etiquetar sus propios datos personalizados para escalar sus esfuerzos. Dependiendo de la aplicación, el etiquetado puede volverse extremadamente costoso y laborioso.

En muchos casos, las empresas tienen suficientes datos, pero no pueden lidiar con los problemas de calidad. Los datos sesgados, mal etiquetados, inconsistentes o incompletos reducen la calidad de los modelos de ML, lo que a su vez perjudica el ROI de las iniciativas de IA.

"Si entrena modelos ML con datos incorrectos, las predicciones del modelo serán inexactas", dijo Sagiraju. "Para garantizar que su IA funcione bien en escenarios del mundo real, los equipos deben tener una combinación de conjuntos de datos de alta calidad, datos sintéticos y evaluación humana en el circuito en su kit de capacitación".

Según Appen, es mucho menos probable que los líderes empresariales consideren el abastecimiento y la preparación de datos como los principales desafíos de sus iniciativas de IA que el personal técnico. "Todavía hay brechas entre los tecnólogos y los líderes empresariales al comprender los mayores cuellos de botella en la implementación de datos para el ciclo de vida de la IA. Esto da como resultado una desalineación en las prioridades y el presupuesto dentro de la organización", según el informe de Appen.

"Lo que sabemos es que algunos de los mayores cuellos de botella para las iniciativas de IA se encuentran en la falta de recursos técnicos y la aceptación ejecutiva", dijo Sagiraju. "Si echa un vistazo a estas categorías, verá que los científicos de datos, los ingenieros de aprendizaje automático, los desarrolladores de software y los ejecutivos están dispersos en diferentes áreas, por lo que no es difícil imaginar una falta de estrategia alineada debido a las prioridades en conflicto entre los distintos equipos. dentro de la organización".

La variedad de personas y roles involucrados en las iniciativas de IA dificulta lograr esta alineación. Desde los desarrolladores que gestionan los datos hasta los científicos de datos que se ocupan de los problemas sobre el terreno y los ejecutivos que toman decisiones comerciales estratégicas, todos tienen diferentes objetivos en mente y, por lo tanto, diferentes prioridades y presupuestos.

Sin embargo, Sagiraju ve que la brecha se reduce lentamente año tras año cuando se trata de comprender los desafíos de la IA. Y esto se debe a que las organizaciones comprenden mejor la importancia de los datos de alta calidad para el éxito de las iniciativas de IA.

"El énfasis en la importancia de los datos, especialmente los datos de alta calidad que coinciden con los escenarios de las aplicaciones, es para el éxito de un modelo de IA ha unido a los equipos para resolver estos desafíos", dijo Sagiraju.

Los desafíos de datos no son nuevos en el campo del ML aplicado. Pero a medida que los modelos de ML se hacen más grandes y los datos están más disponibles, existe la necesidad de encontrar soluciones escalables para reunir datos de entrenamiento de calidad.

Afortunadamente, algunas tendencias están ayudando a las empresas a superar algunos de estos desafíos, y el Informe de IA de Appen muestra que el tiempo promedio dedicado a administrar y preparar datos está disminuyendo.

Un ejemplo es el etiquetado automatizado. Por ejemplo, los modelos de detección de objetos requieren que se especifiquen los cuadros delimitadores de cada objeto en los ejemplos de entrenamiento, lo que requiere un esfuerzo manual considerable. Las herramientas de etiquetado automatizadas y semiautomatizadas utilizan un modelo de aprendizaje profundo para procesar los ejemplos de entrenamiento y predecir los cuadros delimitadores. Las etiquetas automatizadas no son perfectas y un etiquetador humano debe revisarlas y ajustarlas, pero aceleran significativamente el proceso. Además, el sistema de etiquetado automatizado se puede capacitar y mejorar aún más a medida que recibe comentarios de los etiquetadores humanos.

"Si bien muchos equipos comienzan etiquetando manualmente sus conjuntos de datos, más están recurriendo a métodos que ahorran tiempo para automatizar parcialmente el proceso", dijo Sagiraju.

Al mismo tiempo, existe un mercado creciente de datos sintéticos. Las empresas utilizan datos generados artificialmente para complementar los datos que recopilan del mundo real. Los datos sintéticos son especialmente útiles en aplicaciones donde la obtención de datos del mundo real es costosa o peligrosa. Un ejemplo son las empresas de automóviles autónomos, que enfrentan desafíos regulatorios, de seguridad y legales para obtener datos de carreteras reales.

"Los automóviles autónomos requieren cantidades increíbles de datos para estar seguros y preparados para cualquier cosa una vez que salen a la carretera, pero algunos de los datos más complejos no están disponibles", dijo Sagiraju. "Los datos sintéticos permiten a los profesionales dar cuenta de casos extremos o escenarios peligrosos como accidentes, peatones que cruzan y vehículos de emergencia para entrenar de manera efectiva sus modelos de IA. Los datos sintéticos pueden crear instancias para entrenar datos cuando no hay suficientes datos de origen humano. Es fundamental en llenando los huecos".

Al mismo tiempo, la evolución del mercado de MLops está ayudando a las empresas a enfrentar muchos desafíos de la tubería de aprendizaje automático, incluido el etiquetado y el control de versiones de conjuntos de datos; entrenar, probar y comparar diferentes modelos de ML; implementar modelos a escala y realizar un seguimiento de su rendimiento; y la recopilación de datos nuevos y la actualización de los modelos a lo largo del tiempo.

Pero a medida que ML juega un papel más importante en las empresas, una cosa que se volverá más importante es el control humano.

"Las evaluaciones Human-in-the-loop (HITL) son imprescindibles para brindar información precisa y relevante y evitar sesgos", dijo Sagiraju. "A pesar de lo que muchos creen acerca de que los humanos realmente ocupan un segundo plano en el entrenamiento de IA, creo que veremos una tendencia hacia más evaluaciones HITL en un esfuerzo por empoderar a la IA responsable y tener más transparencia sobre lo que las organizaciones están poniendo en sus modelos para garantizar que los modelos desempeñarse bien en el mundo real".

La misión de VentureBeat es ser una plaza pública digital para que los responsables de la toma de decisiones técnicas adquieran conocimientos sobre tecnología empresarial transformadora y realicen transacciones. Descubre nuestras sesiones informativas.

La misión de VentureBeat