Frenar las crecientes necesidades de energía del aprendizaje automático

Noticias

HogarHogar / Noticias / Frenar las crecientes necesidades de energía del aprendizaje automático

Sep 07, 2023

Frenar las crecientes necesidades de energía del aprendizaje automático

Por En vista de la creciente preocupación por los requisitos de energía de las grandes máquinas

Por

A la luz de la creciente preocupación por los requisitos de energía de los grandes modelos de aprendizaje automático, un estudio reciente del MIT Lincoln Laboratory y la Northeastern University investigó los ahorros que se pueden lograr con las GPU de limitación de energía empleadas en el entrenamiento y la inferencia de modelos, así como varios otros técnicas y métodos para reducir el uso de energía de IA.

El nuevo trabajo también exige que los nuevos artículos de IA concluyan con una 'Declaración de energía' (similar a la tendencia reciente de declaraciones de 'implicaciones éticas' en artículos del sector de investigación de aprendizaje automático).

La sugerencia principal del trabajo es que la limitación de energía (limitar la energía disponible para la GPU que entrena el modelo) ofrece beneficios de ahorro de energía que valen la pena, particularmente para Modelado de lenguaje enmascarado (MLM) y marcos como BERT y sus derivados.

Redes de modelado de tres idiomas que funcionan a un porcentaje de la configuración predeterminada de 250 W (línea negra), en términos de uso de energía. La restricción del consumo de energía no limita la eficiencia o la precisión del entrenamiento en una base 1-1 y ofrece ahorros de energía que son notables a escala. Fuente: https://arxiv.org/pdf/2205.09646.pdf

Para los modelos a mayor escala, que han captado la atención en los últimos años debido a los conjuntos de datos a hiperescala y los nuevos modelos con miles de millones o billones de parámetros, se pueden obtener ahorros similares como compensación entre el tiempo de entrenamiento y el uso de energía.

Entrenando modelos de PNL más formidables a escala bajo limitaciones de energía. El tiempo relativo promedio bajo un límite de 150 W se muestra en azul y el consumo de energía relativo promedio para 150 W en naranja.

Para estas implementaciones a mayor escala, los investigadores encontraron que un límite de 150 W en la utilización de energía obtuvo una reducción promedio del 13,7 % en el uso de energía en comparación con el máximo predeterminado de 250 W, así como un aumento relativamente pequeño del 6,8 % en el tiempo de capacitación.

Además, los investigadores señalan que, a pesar de los titulares que el costo de la capacitación de modelos ha acumulado en los últimos años, los costos de energía para usar realmente los modelos entrenados son mucho más altos*.

'Para el modelado de lenguaje con BERT, las ganancias de energía a través de la limitación de potencia son notablemente mayores cuando se realiza una inferencia que para el entrenamiento. Si esto es consistente para otras aplicaciones de IA, esto podría tener ramificaciones significativas en términos de consumo de energía para plataformas de computación en la nube o a gran escala que sirven aplicaciones de inferencia para la investigación y la industria”.

Además, y quizás lo más controvertido, el documento sugiere que la capacitación principal de los modelos de aprendizaje automático se relegue a los meses más fríos del año y a la noche, para ahorrar en costos de refrigeración.

Arriba, estadísticas de PUE para cada día de 2020 en el centro de datos de los autores, con un pico/meseta notable y sostenido en los meses de verano. A continuación, la variación horaria promedio en PUE para la misma ubicación en el transcurso de una semana, con un aumento del consumo de energía hacia la mitad del día, ya que tanto el hardware de enfriamiento interno de la GPU como el enfriamiento del centro de datos ambiental luchan por mantener una temperatura viable.

Los autores afirman:

“Evidentemente, las cargas de trabajo pesadas de PNL suelen ser mucho menos eficientes en el verano que las que se ejecutan durante el invierno. Dada la gran variación estacional, si existe, hay experimentos costosos desde el punto de vista computacional que se pueden programar para los meses más fríos, este momento puede reducir significativamente la huella de carbono”.

El documento también reconoce las posibilidades emergentes de ahorro de energía que son posibles a través de la poda y optimización de la arquitectura del modelo y los flujos de trabajo, aunque los autores dejan un mayor desarrollo de esta vía para otras iniciativas.

Finalmente, los autores sugieren que los nuevos artículos científicos del sector del aprendizaje automático se animen, o tal vez se limiten, a cerrar con una declaración que declare el uso de energía del trabajo realizado en la investigación y las posibles implicaciones energéticas de adoptar iniciativas sugeridas en el trabajo. .

El documento, predicando con el ejemplo, explica las implicaciones energéticas de su propia investigación.

El documento se titula Gran poder, gran responsabilidad: recomendaciones para reducir la energía para entrenar modelos de lenguaje y proviene de seis investigadores del MIT Lincoln y Northeastern.

Dado que las demandas computacionales de los modelos de aprendizaje automático han aumentado junto con la utilidad de los resultados, la cultura actual de ML equipara el gasto de energía con un rendimiento mejorado, a pesar de que algunos activistas notables, como Andrew Ng, sugieren que la curación de datos puede ser un factor más importante. factor.

En una colaboración clave del MIT de 2020, se estimó que una mejora de diez veces en el rendimiento del modelo implica un aumento de 10 000 veces en los requisitos computacionales, junto con la cantidad correspondiente de energía.

En consecuencia, la investigación sobre el entrenamiento efectivo de ML menos intensivo en potencia ha aumentado en los últimos años. El nuevo artículo, afirman los autores, es el primero en analizar en profundidad el efecto de los límites de potencia en el entrenamiento y la inferencia del aprendizaje automático, con énfasis en los marcos de NLP (como la serie GPT).

Dado que la calidad de la inferencia es una preocupación primordial, los autores exponen sus hallazgos desde el principio:

'[Este] método no afecta las predicciones de los modelos entrenados ni, en consecuencia, la precisión de su desempeño en las tareas. Es decir, si dos redes con la misma estructura, valores iniciales y datos por lotes se entrenan para la misma cantidad de lotes con diferentes límites de potencia, sus parámetros resultantes serán idénticos y solo la energía requerida para producirlos puede diferir.

Para evaluar el impacto de los límites de potencia en el entrenamiento y la inferencia, los autores utilizaron la utilidad de línea de comandos nvidia-smi (System Management Interface), junto con una biblioteca MLM de HuggingFace.

Los autores entrenaron modelos de procesamiento de lenguaje natural BERT, DistilBERT y Big Bird sobre MLM y monitorearon su consumo de energía en el entrenamiento y la implementación.

Los modelos se entrenaron con el conjunto de datos WikiText-103 de DeepAI durante 4 épocas en lotes de ocho, en 16 GPU V100, con cuatro límites de potencia diferentes: 100 W, 150 W, 200 W y 250 W (el valor predeterminado o de referencia para una GPU NVIDIA V100) . Los modelos presentaban parámetros entrenados desde cero y valores de inicialización aleatorios, para garantizar evaluaciones de entrenamiento comparables.

Como se ve en la primera imagen de arriba, los resultados demuestran buenos ahorros de energía en aumentos no lineales favorables en el tiempo de entrenamiento. Los autores afirman:

"Nuestros experimentos indican que la implementación de límites de potencia puede reducir significativamente el uso de energía a costa del tiempo de entrenamiento".

A continuación, los autores aplicaron el mismo método a un escenario más exigente: entrenar BERT con MLM en configuraciones distribuidas en múltiples GPU, un caso de uso más típico para modelos FAANG NLP bien financiados y publicitados.

La principal diferencia en este experimento fue que un modelo podría usar entre 2 y 400 GPU por instancia de entrenamiento. Se aplicaron las mismas restricciones para el uso de energía y se utilizó la misma tarea (WikiText-103). Vea la segunda imagen de arriba para ver los gráficos de los resultados.

El documento dice:

“Haciendo un promedio de cada opción de configuración, un límite de 150 W en la utilización de energía condujo a una disminución promedio del 13,7 % en el uso de energía y un aumento del 6,8 % en el tiempo de entrenamiento en comparación con el máximo predeterminado. [La] configuración de 100 W tiene tiempos de entrenamiento significativamente más largos (un 31,4 % más de media). Un límite de 200 W se corresponde con casi el mismo tiempo de entrenamiento que un límite de 250 W, pero un ahorro de energía más modesto que un límite de 150 W.'

Los autores sugieren que estos resultados respaldan la limitación de potencia a 150 W para las arquitecturas de GPU y las aplicaciones que se ejecutan en ellas. También notaron que los ahorros de energía obtenidos se traducen en todas las plataformas de hardware y realizaron las pruebas nuevamente para comparar los resultados de las GPU NVIDIA K80, T4 y A100.

Ahorros obtenidos en tres GPU NVIDIA diferentes.

El documento cita varios estudios previos que demuestran que, a pesar de los titulares, es la inferencia (el uso de un modelo terminado, como un modelo de PNL) y no el entrenamiento lo que atrae la mayor cantidad de poder, lo que sugiere que a medida que los modelos populares se mercantilizan y entran en el convencional, el uso de energía podría convertirse en un problema mayor de lo que es actualmente en esta etapa más incipiente del desarrollo de la PNL.

Por lo tanto, los investigadores midieron el impacto de la inferencia en el uso de energía y descubrieron que la imposición de límites de energía tiene un efecto notable en la latencia de la inferencia:

En comparación con 250 W, una configuración de 100 W requirió el doble del tiempo de inferencia (un aumento del 114 %) y consumió un 11,0 % menos de energía, 150 W requirió un 22,7 % más de tiempo y ahorró un 24,2 % de energía, y 200 W requirió un 8,2 % más de tiempo con un 12,0 % menos energía.'

El documento sugiere que la capacitación (si no la inferencia, por razones obvias) podría programarse en momentos en que el centro de datos esté en su punto máximo de Efectividad de uso de energía (PUE), efectivamente, eso es en invierno y por la noche.

'Se pueden obtener ahorros de energía significativos si las cargas de trabajo se pueden programar en momentos en los que se espera un PUE más bajo. Por ejemplo, mover un trabajo de corta duración del día al de noche puede proporcionar una reducción de aproximadamente el 10 %, y mover un trabajo más largo y costoso (por ejemplo, un modelo lingüístico que tarda semanas en completarse) del verano al invierno puede generar una reducción del 33 %.

'Si bien es difícil predecir los ahorros que un investigador individual puede lograr, la información presentada aquí destaca la importancia de los factores ambientales que afectan la energía total consumida por sus cargas de trabajo.'

Finalmente, el documento observa que es poco probable que los recursos de procesamiento locales hayan implementado las mismas medidas de eficiencia que los principales centros de datos y los jugadores de cómputo en la nube de alto nivel, y que se podrían obtener beneficios ambientales al transferir cargas de trabajo a ubicaciones que han invertido mucho en un buen PUE.

“Si bien es conveniente tener recursos informáticos privados accesibles, esta conveniencia tiene un costo. En términos generales, el ahorro de energía y el impacto se obtienen más fácilmente a escalas más grandes. Los centros de datos y los proveedores de computación en la nube realizan importantes inversiones en la eficiencia de sus instalaciones.'

* Enlaces pertinentes proporcionados por el periódico.

Nueva técnica de IA puede mejorar los pronósticos de incendios forestales

Nueva IA rastrea la salud de los arrecifes de coral

Escritor sobre aprendizaje automático, inteligencia artificial y big data. Sitio personal: martinanderson.ai Contacto: [email protected] Twitter: @manders_ai

Encontrar asociaciones reales: cómo las empresas de servicios públicos están evaluando a los proveedores de inteligencia artificial

El modelo de difusión eDiffi de NVIDIA permite "pintar con palabras" y más

UniTune: la técnica alternativa de edición de imágenes neuronales de Google

La solución única de DALL-E 2 para los dobles significados

Edición de objetos asistida por IA con Imagic de Google y 'Borrar y reemplazar' de Runway

GOTCHA– Un sistema CAPTCHA para Live Deepfakes

El inminente acaparamiento de energía del aprendizaje automático Reducir la energía para la PNL Reducir la inferencia de la 'Gran PNL', no el entrenamiento, se come el poder Entrenamiento de invierno Manténgalo nublado