Modelos de IA que juzgan mal las infracciones de las reglas: Decisiones humanas versus decisiones de máquinas

Blog

HogarHogar / Blog / Modelos de IA que juzgan mal las infracciones de las reglas: Decisiones humanas versus decisiones de máquinas

Oct 20, 2023

Modelos de IA que juzgan mal las infracciones de las reglas: Decisiones humanas versus decisiones de máquinas

Resumen: Los investigadores encontraron que los modelos de IA a menudo no logran replicar con precisión los humanos

Resumen: Los investigadores encontraron que los modelos de IA a menudo no replican con precisión las decisiones humanas con respecto a las violaciones de las reglas, lo que tiende a emitir juicios más duros. Esto se atribuye al tipo de datos con los que se entrenan estos modelos; a menudo etiquetados de manera descriptiva en lugar de normativamente, lo que conduce a diferentes interpretaciones de las violaciones de las reglas.

La discrepancia podría tener consecuencias graves en el mundo real, como sentencias judiciales más estrictas. Por lo tanto, los investigadores sugieren mejorar la transparencia del conjunto de datos y hacer coincidir el contexto de entrenamiento con el contexto de implementación para obtener modelos más precisos.

Hechos clave:

Fuente:CON

En un esfuerzo por mejorar la equidad o reducir los retrasos, los modelos de aprendizaje automático a veces se diseñan para imitar la toma de decisiones humana, como decidir si las publicaciones en las redes sociales violan las políticas de contenido tóxico.

Pero los investigadores del MIT y otros lugares han descubierto que estos modelos a menudo no replican las decisiones humanas sobre las violaciones de las reglas. Si los modelos no están entrenados con los datos correctos, es probable que emitan juicios diferentes, a menudo más duros que los humanos.

En este caso, los datos "correctos" son aquellos que han sido etiquetados por humanos a quienes se les preguntó explícitamente si los elementos desafían una determinada regla. El entrenamiento implica mostrarle a un modelo de aprendizaje automático millones de ejemplos de estos "datos normativos" para que pueda aprender una tarea.

Pero los datos utilizados para entrenar modelos de aprendizaje automático generalmente se etiquetan de forma descriptiva, lo que significa que se les pide a los humanos que identifiquen características fácticas, como, por ejemplo, la presencia de comida frita en una foto.

Si se utilizan "datos descriptivos" para entrenar modelos que juzgan las infracciones de las reglas, como si una comida infringe una política escolar que prohíbe los alimentos fritos, los modelos tienden a predecir en exceso las infracciones de las reglas.

Esta caída en la precisión podría tener serias implicaciones en el mundo real. Por ejemplo, si se usa un modelo descriptivo para tomar decisiones sobre si es probable que un individuo reincida, los hallazgos de los investigadores sugieren que puede emitir juicios más estrictos que los que haría un ser humano, lo que podría conducir a montos de fianza más altos o sentencias penales más largas.

"Creo que la mayoría de los investigadores de inteligencia artificial/aprendizaje automático asumen que los juicios humanos en los datos y las etiquetas están sesgados, pero este resultado dice algo peor.

"Estos modelos ni siquiera reproducen juicios humanos ya sesgados porque los datos con los que están siendo entrenados tienen un defecto: los humanos etiquetarían las características de las imágenes y el texto de manera diferente si supieran que esas características se usarían para un juicio.

"Esto tiene enormes ramificaciones para los sistemas de aprendizaje automático en los procesos humanos", dice Marzyeh Ghassemi, profesora asistente y directora del Grupo de Aprendizaje Automático Saludable en el Laboratorio de Ciencias de la Computación e Inteligencia Artificial (CSAIL).

Ghassemi es el autor principal de un nuevo artículo que detalla estos hallazgos, que se publicó hoy en Science Advances. Junto a ella en el artículo están la autora principal Aparna Balagopalan, estudiante de posgrado en ingeniería eléctrica e informática; David Madras, estudiante de posgrado de la Universidad de Toronto; David H. Yang, ex estudiante de posgrado que ahora es cofundador de ML Estimation; Dylan Hadfield-Menell, profesor asistente del MIT; y Gillian K. Hadfield, Cátedra Schwartz Reisman de Tecnología y Sociedad y profesora de derecho en la Universidad de Toronto.

discrepancia de etiquetado

Este estudio surgió de un proyecto diferente que exploró cómo un modelo de aprendizaje automático puede justificar sus predicciones. Mientras recopilaban datos para ese estudio, los investigadores notaron que los humanos a veces dan respuestas diferentes si se les pide que proporcionen etiquetas descriptivas o normativas sobre los mismos datos.

Para recopilar etiquetas descriptivas, los investigadores piden a los etiquetadores que identifiquen características fácticas: ¿este texto contiene lenguaje obsceno? Para recopilar etiquetas normativas, los investigadores dan a los etiquetadores una regla y preguntan si los datos violan esa regla: ¿este texto viola la política de lenguaje explícito de la plataforma?

Sorprendidos por este hallazgo, los investigadores lanzaron un estudio de usuarios para profundizar más. Recopilaron cuatro conjuntos de datos para imitar diferentes políticas, como un conjunto de datos de imágenes de perros que podrían violar la regla de un apartamento contra las razas agresivas. Luego pidieron a grupos de participantes que proporcionaran etiquetas descriptivas o normativas.

En cada caso, se pidió a los rotuladores descriptivos que indicaran si tres características fácticas estaban presentes en la imagen o el texto, como si el perro parece agresivo. Sus respuestas se utilizaron luego para elaborar juicios. (Si un usuario dijo que una foto contenía un perro agresivo, entonces se violó la política).

Los etiquetadores no conocían la política de mascotas. Por otro lado, a los etiquetadores normativos se les dio la política que prohíbe perros agresivos y luego se les preguntó si había sido violada por cada imagen y por qué.

Los investigadores encontraron que los humanos eran significativamente más propensos a etiquetar un objeto como una violación en el entorno descriptivo.

La disparidad, que calcularon usando la diferencia absoluta en las etiquetas en promedio, varió del 8 por ciento en un conjunto de datos de imágenes utilizadas para juzgar las violaciones del código de vestimenta al 20 por ciento para las imágenes de perros.

"Si bien no probamos explícitamente por qué sucede esto, una hipótesis es que tal vez la forma en que las personas piensan sobre las violaciones de las reglas es diferente de cómo piensan sobre los datos descriptivos. En general, las decisiones normativas son más indulgentes", dice Balagopalan.

Sin embargo, los datos generalmente se recopilan con etiquetas descriptivas para entrenar un modelo para una tarea particular de aprendizaje automático. Estos datos a menudo se reutilizan más tarde para entrenar diferentes modelos que realizan juicios normativos, como violaciones de reglas.

problemas de entrenamiento

Para estudiar los impactos potenciales de la reutilización de datos descriptivos, los investigadores entrenaron dos modelos para juzgar las violaciones de las reglas utilizando una de sus cuatro configuraciones de datos. Entrenaron un modelo usando datos descriptivos y el otro usando datos normativos, y luego compararon su desempeño.

Descubrieron que si se utilizan datos descriptivos para entrenar un modelo, tendrá un rendimiento inferior al de un modelo entrenado para realizar los mismos juicios utilizando datos normativos. Específicamente, es más probable que el modelo descriptivo clasifique erróneamente las entradas al predecir falsamente una violación de la regla.

Y la precisión del modelo descriptivo fue incluso menor al clasificar objetos con los que los etiquetadores humanos no estaban de acuerdo.

"Esto demuestra que los datos realmente importan. Es importante hacer coincidir el contexto de entrenamiento con el contexto de implementación si está entrenando modelos para detectar si se ha violado una regla", dice Balagopalan.

Puede ser muy difícil para los usuarios determinar cómo se recopilaron los datos; esta información puede estar enterrada en el apéndice de un trabajo de investigación o no ser revelada por una empresa privada, dice Ghassemi.

Mejorar la transparencia del conjunto de datos es una forma de mitigar este problema. Si los investigadores saben cómo se recopilaron los datos, entonces saben cómo se deben usar esos datos.

Otra estrategia posible es ajustar un modelo entrenado de forma descriptiva en una pequeña cantidad de datos normativos. Esta idea, conocida como transferencia de aprendizaje, es algo que los investigadores quieren explorar en trabajos futuros.

También quieren realizar un estudio similar con etiquetadores expertos, como médicos o abogados, para ver si conduce a la misma disparidad de etiquetas.

"La forma de solucionar esto es reconocer de manera transparente que si queremos reproducir el juicio humano, solo debemos usar los datos que se recopilaron en ese entorno.

"De lo contrario, terminaremos con sistemas que tendrán moderaciones extremadamente duras, mucho más duras que las que harían los humanos. Los humanos verían matices o harían otra distinción, mientras que estos modelos no", dice Ghassemi.

Fondos:Esta investigación fue financiada, en parte, por el Instituto de Tecnología y Sociedad Schwartz Reisman, Microsoft Research, el Instituto Vector y una cadena del Consejo de Investigación de Canadá.

Autor:Adán ZeweFuente:CONContacto:Adam Zewe-MITImagen:La imagen está acreditada a Neuroscience News.

Investigacion original: Acceso abierto. "Juzgar hechos, juzgar normas: entrenar modelos de aprendizaje automático para juzgar humanos requiere un enfoque modificado para etiquetar datos" por Marzyeh Ghassemi et al. Avances de la ciencia

Abstracto

Juzgar hechos, juzgar normas: entrenar modelos de aprendizaje automático para juzgar a humanos requiere un enfoque modificado para etiquetar datos

A medida que los gobiernos y la industria recurren a un mayor uso de los sistemas de decisión automatizados, se vuelve esencial considerar qué tan cerca tales sistemas pueden reproducir el juicio humano.

Identificamos una falla potencial central y descubrimos que los anotadores etiquetan los objetos de manera diferente dependiendo de si se les hace una pregunta fáctica o una pregunta normativa.

Esto desafía una suposición natural mantenida en muchos procedimientos estándar de adquisición de datos de aprendizaje automático (ML): que no hay diferencia entre predecir la clasificación fáctica de un objeto y un ejercicio de juicio sobre si un objeto viola una regla basada en esos hechos.

Encontramos que el uso de etiquetas fácticas para entrenar modelos destinados a juicios normativos introduce un error de medición notable.

Mostramos que los modelos entrenados con etiquetas fácticas producen juicios significativamente diferentes a los entrenados con etiquetas normativas y que el impacto de este efecto en el rendimiento del modelo puede superar el de otros factores (p. ej., el tamaño del conjunto de datos) que habitualmente atraen la atención de los investigadores y profesionales del aprendizaje automático.

Su dirección de correo electrónico no será publicada. Los campos obligatorios están marcados *

Comentario *

Nombre *

Correo electrónico *

Sitio web

Notifíqueme de comentarios consecuentes por email.

Notificarme de nuevas publicaciones a través de email.

Resumen: Datos clave: Fuente: En un esfuerzo por mejorar la equidad o reducir los retrasos, los modelos de aprendizaje automático a veces se diseñan para imitar la toma de decisiones humana, como decidir si las publicaciones en las redes sociales violan las políticas de contenido tóxico. Discrepancia en el etiquetado Problemas de entrenamiento Financiamiento: Autor: Fuente: Contacto: Imagen: Investigación original: Resumen Juzgar hechos, juzgar normas: entrenar modelos de aprendizaje automático para juzgar humanos requiere un enfoque modificado para etiquetar datos