Por: Mark Russinovich, director de tecnología, director de seguridad de la información adjunto y miembro técnico de Microsoft Azure.
Obtengan más información sobre cómo avanzamos hacia nuestros compromisos de sostenibilidad en la parte 1 de este blog: Sostenible por diseño: Innovación para la eficiencia energética en IA, parte 1.
A medida que continuamos con el cumplimiento de nuestros compromisos con los clientes con la innovación en la nube y la IA, nos mantenemos firmes en nuestro compromiso de avanzar en la sostenibilidad. Una parte fundamental para lograr el objetivo de nuestra empresa de ser negativos en carbono para 2030 es reimaginar nuestra infraestructura de nube e inteligencia artificial con la potencia y la eficiencia energética a la vanguardia.
Perseguimos nuestro objetivo de carbono negativo a través de tres pilares principales: reducción de carbono, electricidad libre de carbono y eliminación de carbono. Dentro del pilar de reducción de carbono, la eficiencia de potencia y la eficiencia energética son fundamentales para el progreso de la sostenibilidad, para nuestra empresa y para la industria en su conjunto.
Aunque los términos «potencia» y «energía» por lo general se usan de manera indistinta, la eficiencia en potencia tiene que ver con la gestión de los picos en la utilización de energía, mientras que la eficiencia energética tiene que ver con la reducción de la cantidad total de energía consumida a lo largo del tiempo.
Esta distinción se vuelve importante para los detalles de la investigación y la aplicación debido al tipo de eficiencia en juego. Para ver un ejemplo de eficiencia energética, pueden optar por explorar modelos de lenguaje pequeños (SLM, por sus siglas en inglés) con menos parámetros que se puedan ejecutar a nivel local en el teléfono, lo que requiere menos potencia de procesamiento general. Para impulsar la eficiencia en la potencia, pueden buscar formas de mejorar la utilización de la energía disponible mediante la mejora de las predicciones de los requisitos de la carga de trabajo.
Desde los centros de datos hasta los servidores, y luego por el silicio y el código, los algoritmos y los modelos, impulsar la eficiencia en un sistema de infraestructura de IA y nube a hiperescala se reduce a optimizar la eficiencia de cada parte del sistema y cómo funciona el sistema en su conjunto. A lo largo de los años, nuestros equipos de investigación han producido muchos avances en eficiencia, ya que buscamos explorar nuevas ideas audaces y contribuir a la comunidad de investigación global. En este blog, me gustaría compartir algunos ejemplos de cómo sacamos del laboratorio la prometedora investigación de eficiencia y llevándola a las operaciones comerciales.
Telemetría de potencia a nivel de silicio para datos de utilización precisos y en tiempo real
Hemos logrado avances en la entrega de telemetría de potencia hasta el nivel del silicio, para proporcionar un nuevo nivel de precisión en la administración de energía. La telemetría de energía en el chip usa firmware para ayudarnos a comprender el perfil de energía de una carga de trabajo y, al mismo tiempo, mantener la confidencialidad de la carga de trabajo y los datos del cliente. Esto informa al software de gestión que proporciona un servicio de control de tráfico aéreo dentro del centro de datos, para asignar las cargas de trabajo a los servidores, procesadores y recursos de almacenamiento más adecuados para optimizar la eficiencia.
Trabajar en colaboración para avanzar en los estándares de la industria para los formatos de datos de IA
Dentro del silicio, los algoritmos trabajan para resolver problemas al tomar algunos datos de entrada, procesándolos a través de una serie de pasos definidos y producir un resultado. Los modelos de lenguaje grandes (LLM, por sus siglas en inglés) se entrenan mediante algoritmos de aprendizaje automático que procesan grandes cantidades de datos para aprender patrones, relaciones y estructuras en el lenguaje.
Ejemplo simplificado de Microsoft Copilot: imaginen enseñar a un niño a escribir historias. Los algoritmos de entrenamiento son como las lecciones y ejercicios que le dan al niño. El modelo de arquitectura es el cerebro del niño, estructurado para comprender y crear historias. Los algoritmos de inferencia son el proceso de pensamiento del niño al escribir una nueva historia, y los algoritmos de evaluación son las calificaciones o comentarios que se dan para mejorar su escritura.1
Una de las formas de optimizar la eficiencia de los algoritmos es reducir la precisión de los formatos de datos de punto flotante, que son representaciones numéricas especializadas que se utilizan para manejar números reales de manera eficiente. Al trabajar con el Open Compute Project, hemos colaborado con otros líderes de la industria para formar la Alianza de Formatos de Microescalado (MX, por sus siglas en inglés), con el objetivo de crear y estandarizar tipos de datos de 6 y 4 bits de próxima generación para el entrenamiento y la inferencia de IA.
Los formatos más estrechos permiten que el silicio ejecute cálculos de IA más eficientes por ciclo de reloj, lo que acelera los tiempos de entrenamiento e inferencia del modelo. Estos modelos ocupan menos espacio, lo que significa que requieren menos recuperaciones de datos de la memoria y pueden ejecutarse con un mejor rendimiento y eficiencia. Además, el uso de menos bits transfiere menos datos a través de la interconexión, lo que puede mejorar el rendimiento de las aplicaciones o reducir los costos de red.
Impulsar la eficiencia de la inferencia de LLM a través de la división de fases
La investigación también es prometedora para nuevos enfoques para la inferencia de modelos de lenguaje grandes (LLM), lo que en esencia se consigue al separar las dos fases de la inferencia de LLM en máquinas separadas, cada una bien adaptada a esa fase específica. Dadas las diferencias en las necesidades de recursos de las fases, algunas máquinas pueden reducir la aceleración de sus aceleradores de IA o incluso aprovechar los aceleradores de generaciones anteriores. En comparación con los diseños actuales, esta técnica puede ofrecer 2,35 veces más rendimiento con los mismos presupuestos de energía y costo.2
Obtengan más información y exploren recursos para la eficiencia de la IA
Además de reinventar nuestras propias operaciones, trabajamos para capacitar a los desarrolladores y científicos de datos para que creen y optimicen modelos de IA que puedan lograr resultados similares y requieran menos recursos. Como se mencionó antes, los modelos de lenguaje pequeños (SLM) pueden proporcionar una alternativa más eficiente a los modelos de lenguaje grandes (LLM) para muchos casos de uso, como el ajuste de la experimentación en una variedad de tareas o incluso problemas matemáticos de la escuela primaria.
En abril de 2024, anunciamos Phi-3, una familia de SLM abiertos, de una alta capacidad y rentabilidad, que superan a los modelos del mismo tamaño y de tamaños más grandes en una variedad de puntos de referencia de lenguaje, razonamiento, codificación y matemáticas. Esta versión amplía la selección de modelos de alta calidad para los clientes, para ofrecer opciones prácticas para componer y crear aplicaciones de IA generativa. A continuación, presentamos nuevos modelos a la familia Phi, como el Phi-3.5-MoE, un modelo de mezcla de expertos que combina 16 expertos más pequeños en uno, y el Phi-35-mini. Ambos modelos son multilingües y admiten más de 20 idiomas.
Obtengan más información sobre cómo promovemos la sostenibilidad a través de nuestra serie de blogs Sostenible por diseño, que inicia con Sostenible por diseño: Avances en la sostenibilidad de la IA.
1Extracto de prompt a Copilotcon: explica por favor cómo se relacionan los algoritmos con los LLM.
2Splitwise: Inferencia generativa eficiente de LLM mediante la división de fase, Microsoft Research.