Laboratorio limpio abierto

Noticias

HogarHogar / Noticias / Laboratorio limpio abierto

Oct 27, 2023

Laboratorio limpio abierto

Los datos etiquetados son esenciales para entrenar modelos de aprendizaje automático supervisado, pero

Los datos etiquetados son esenciales para entrenar modelos de aprendizaje automático supervisado, pero los errores cometidos por los anotadores de datos pueden afectar la precisión del modelo. Es común recopilar múltiples anotaciones por punto de datos para reducir los errores de anotación y establecer una etiqueta de consenso más confiable, pero este enfoque puede ser costoso. Para optimizar el modelo de ML con un mínimo de etiquetado de datos, es fundamental determinar qué nuevos datos requieren etiquetado o qué etiquetas actuales deben verificarse nuevamente.

ActiveLab, un método de aprendizaje activo publicado recientemente, está disponible como una herramienta de código abierto para ayudar con este proceso de toma de decisiones. ActiveLab ayuda a identificar los datos que requieren etiquetado o reetiquetado para lograr la máxima mejora en el modelo ML mientras se adhiere a un presupuesto de anotación limitado. Los conjuntos de datos de entrenamiento generados con ActiveLab han producido modelos de ML superiores en comparación con otras técnicas de aprendizaje activo cuando se trabaja con un número fijo de anotaciones.

ActiveLab aborda la consulta crucial de determinar si obtener una anotación adicional para un punto de datos previamente etiquetado es más ventajoso o etiquetar una instancia completamente nueva del grupo sin etiquetar. La respuesta a esta pregunta depende del grado de confianza en las anotaciones actuales. En casos con solo una anotación de un anotador poco confiable o dos anotaciones con resultados contradictorios, es crucial obtener otra opinión a través del reetiquetado. Este proceso se vuelve particularmente significativo cuando las consecuencias negativas de entrenar un modelo con datos mal etiquetados no pueden remediarse simplemente etiquetando nuevos puntos de datos del grupo sin etiquetar.

Los investigadores comenzaron con un conjunto de entrenamiento inicial de 500 ejemplos etiquetados y entrenaron un modelo clasificador para múltiples rondas, trazando la precisión de la prueba después de cada iteración. Se recopilaron anotaciones adicionales para 100 ejemplos en cada ronda, elegidos de este conjunto de 500 o de un grupo separado de 1500 ejemplos inicialmente sin etiquetar. Se utilizaron varios métodos de aprendizaje activo para decidir qué datos etiquetar/reetiquetar a continuación. La selección aleatoria se comparó con Good Random, que prioriza primero los datos sin etiquetar, así como con Entropy e Uncertainty, métodos populares de aprendizaje activo basados ​​en modelos. También se utilizó ActiveLab, que se basa en las predicciones del modelo para estimar qué tan informativa será otra etiqueta para cada ejemplo, al mismo tiempo que se tiene en cuenta cuántas anotaciones ha recibido un ejemplo hasta el momento y su concordancia, así como qué tan confiable es cada anotador en general en relación con el capacitado. modelo. Se encontraron resultados similares para otros modelos y conjuntos de datos de clasificación de imágenes, como se detalla en el artículo de los investigadores sobre el desarrollo de este método.

Revisar laPapelyGithub. Todo el crédito de esta investigación es para los investigadores de este proyecto. Además, no olvides unirtenuestro SubReddit de 15k+ ML,Canal de discordia, yBoletín electrónico, donde compartimos las últimas noticias de investigación de IA, interesantes proyectos de IA y más.

Niharika es pasante de consultoría técnica en Marktechpost. Ella es una estudiante de tercer año, actualmente cursando su B.Tech del Instituto Indio de Tecnología (IIT), Kharagpur. Es una persona muy entusiasta con un gran interés en el aprendizaje automático, la ciencia de datos y la inteligencia artificial y una ávida lectora de los últimos desarrollos en estos campos.

Github de papel. nuestro boletín informativo por correo electrónico de 15k+ ML SubReddit Discord Channel