Los chips de IA se calientan cada vez más. Un avance microfluídico va directo al silicio para enfriar hasta tres veces mejor.
La IA se calienta, literal.
Los chips que utilizan los centros de datos para ejecutar los últimos avances de IA generan mucho más calor que las generaciones anteriores de silicio. Cualquiera cuyo teléfono o computadora portátil se haya sobrecalentado sabe que a los dispositivos electrónicos no les gusta calentarse. Ante la creciente demanda de IA y nuevos diseños de chips, la tecnología de enfriamiento actual pondrá un techo al progreso en solo unos pocos años.
Para ayudar a abordar este problema, Microsoft ha probado con éxito un nuevo sistema de enfriamiento que eliminó el calor hasta tres veces mejor que las placas frías, una tecnología de enfriamiento avanzada que se usa de manera común en la actualidad. Utiliza microfluídica, un enfoque que lleva el refrigerante líquido directo al interior del silicio, donde está el calor. Los pequeños canales están grabados en la parte posterior del chip de silicio, donde crean ranuras que permiten que el líquido refrigerante fluya de manera directa sobre el chip y elimine el calor de manera más eficiente. El equipo también utilizó IA para identificar las firmas de calor únicas en un chip y dirigir el refrigerante con más precisión.
Los investigadores dicen que la microfluídica podría aumentar la eficiencia y mejorar la sostenibilidad de los chips de IA de próxima generación. La mayoría de las GPU que operan en los centros de datos actuales se enfrían en la actualidad con placas frías, que están separadas de la fuente de calor por varias capas que limitan la cantidad de calor que pueden eliminar.
A medida que cada nueva generación de chips de IA se vuelve más potente, generan más calor. En tan solo cinco años, «si todavía dependes en gran medida de la tecnología tradicional de placa fría, estás atascado», dijo Sashi Majety, gerente senior de programas técnicos para Operaciones e Innovación en la Nube de Microsoft.
Microsoft anunció que ha desarrollado con éxito un sistema de enfriamiento microfluídico en chip que puede enfriar de manera efectiva un servidor que ejecuta servicios centrales para una reunión simulada de Teams.

«La microfluídica permitiría diseños más densos en energía que permitirán más funciones que les interesan a los clientes y brindarán un mejor rendimiento en una menor cantidad de espacio», dijo Judy Priest, vicepresidenta corporativa y directora técnica de Operaciones e Innovación en la Nube de Microsoft.
«Pero necesitábamos demostrar que la tecnología y el diseño funcionaban, y luego lo siguiente que quería hacer era probar la confiabilidad», dijo Priest.
Las pruebas a escala de laboratorio de la compañía mostraron que los microfluidos funcionaron hasta tres veces mejor que las placas frías para eliminar el calor, según las cargas de trabajo y las configuraciones involucradas. La microfluídica también redujo el aumento máximo de temperatura del silicio dentro de una GPU en un 65 por ciento, aunque esto variará según el tipo de chip. El equipo espera que la tecnología de enfriamiento avanzada también mejore la efectividad del uso de energía, una métrica clave para medir la eficiencia energética de un centro de datos y reduzca los costos operativos.
Uso de la IA para imitar la naturaleza
La microfluídica no es un concepto nuevo, pero ponerla en funcionamiento ha sido un desafío en toda la industria. «El pensamiento sistémico es crucial cuando se desarrolla una tecnología como la microfluídica. Es necesario comprender las interacciones de los sistemas a través del silicio, el refrigerante, el servidor y el centro de datos para aprovecharlo al máximo», dijo Husam Alissa, director de tecnología de sistemas en Operaciones e Innovación en la Nube de Microsoft.
Solo conseguir los ritmos correctos es difícil. Las dimensiones de los microcanales son similares en tamaño al cabello humano, lo que significa que no hay margen de error. Como parte del esfuerzo de creación de prototipos, Microsoft colaboró con una startup suiza, Corintis, para usar IA para ayudar a optimizar un diseño bioinspirado para enfriar los puntos calientes de los chips de manera más eficiente que los canales rectos hacia arriba y hacia abajo, que también probaron. El biodiseño se asemeja a las venas de una hoja o un ala de mariposa: la naturaleza ha demostrado ser experta en encontrar las rutas más eficientes para distribuir lo que se necesita.
La microfluídica requiere más que un diseño de canal innovador. Es un desafío de ingeniería complejo.
Requería asegurarse de que los canales tuvieran la suficiente profundidad como para hacer circular un líquido refrigerante adecuado sin obstruirse y sin ser tan profundos como para debilitar el silicio de modo que corriera el riesgo de romperse. El equipo produjo cuatro iteraciones de diseño solo en el último año.



La microfluídica también requirió diseñar un paquete a prueba de fugas para el chip, encontrar la mejor fórmula de refrigerante, probar diferentes métodos de grabado y desarrollar un proceso paso a paso para agregar grabado a la fabricación de los chips.
El avance es solo un ejemplo de cómo Microsoft invierte e innova en infraestructura para satisfacer la demanda de servicios y capacidades de IA. Por ejemplo, la compañía planea gastar más de $30 mil millones de dólares en gastos de capital en el trimestre actual.
Esas inversiones incluyen el desarrollo de su propia familia de chips Cobalt y Maia diseñados en específico para ejecutar las cargas de trabajo de Microsoft y de los clientes de manera más eficiente. Desde que Microsoft implementó su chip Cobalt 100, por ejemplo, Microsoft y sus clientes se benefician de su potencia de cómputo, escalabilidad y rendimiento de eficiencia energética.
Sin embargo, los chips son solo una pieza del rompecabezas, ya que el silicio funciona dentro de un complejo sistema de placas, racks y servidores dentro de un centro de datos. El enfoque de sistemas de Microsoft significa ajustar cada parte de esta pila para que trabajen juntas y maximicen el rendimiento y la eficiencia. Una parte importante de eso es desarrollar técnicas de enfriamiento de próxima generación como la microfluídica.
Como siguiente paso, Microsoft continúa con la investigación para ver cómo se puede incorporar el enfriamiento microfluídico en las futuras generaciones de sus chips propios. También continuará su trabajo con socios de fabricación y silicio para llevar la microfluídica a la producción en sus centros de datos, dijo la compañía.
«El hardware es la base de nuestros servicios», dijo Jim Kleewein, miembro técnico de Microsoft 365 Core Management. «Todos tenemos un gran interés en esa base: qué tan confiable es, qué tan rentable, qué tan rápido, qué tan consistente es el comportamiento que podemos obtener de ella y qué tan sostenible, por nombrar solo algunos. La microfluídica mejora cada uno de ellos: costo, confiabilidad, velocidad, consistencia de comportamiento, sostenibilidad».
Ventajas de la microfluídica
Una simple llamada de Microsoft Teams, por ejemplo, ilustra las ventajas que podría ofrecer el enfriamiento microfluídico. Teams no es un solo servicio, sino un conjunto de cerca de 300 servicios diferentes que cooperan a la perfección. Uno conecta a un cliente a una reunión, otro organiza la reunión, otro almacena el chat, otro fusiona transmisiones de audio para que cuando varias personas hablen se escuche a todos, otro graba, otro transcribe.
«Cada servicio tiene diferentes características y estresa diferentes partes del servidor», dijo Kleewein. «Cuanto más utilizado es un servidor, más calor genera, lo cual tiene sentido».

Por ejemplo, la mayoría de las llamadas de Teams tienden a comenzar a la hora o a la media hora. El controlador de llamadas está muy ocupado unos cinco minutos antes o tres minutos después de esos horarios y no está muy ocupado el resto del tiempo. Hay dos formas de manejar los picos de demanda: instalar una gran cantidad de capacidad adicional costosa que no se usa la mayor parte del tiempo o ejecutar los servidores con más fuerza, lo que se llama overclocking. Debido a que el overclocking hace que los chips se calienten aún más, no se puede hacer demasiado o puede dañar los chips.
«Siempre que tenemos picos de cargas de trabajo, queremos poder hacer overclocking. La microfluídica nos permitiría hacer overclocking sin preocuparnos por derretir el chip porque es un enfriador más eficiente del chip», dijo Kleewein. «Hay ventajas en costo y confiabilidad. Y velocidad, porque podemos hacer overclock».
Cómo encaja la refrigeración en el panorama general
La microfluídica es parte de una iniciativa más grande de Microsoft para avanzar en las técnicas de enfriamiento de próxima generación y optimizar cada parte de la pila de nube. De manera tradicional, los centros de datos se han enfriado con aire soplado por grandes ventiladores, pero los líquidos conducen el calor de manera mucho más eficiente que el aire.
Una forma de refrigeración líquida que Microsoft ya ha implementado en sus centros de datos son las placas frías. Las placas se asientan encima de los chips, con líquido frío que entra, circula a través de canales dentro de las placas para recoger el calor de las papas fritas de abajo, y líquido caliente que sale para enfriarse.
Los chips se empaquetan con capas de materiales para ayudar a distribuir su calor lejos de los puntos calientes y protegerlos. Pero estos materiales también actúan como mantas, que limitan el rendimiento de las placas frías al retener el calor y evitar el frío. Se espera que las futuras generaciones de chips que funcionen bien para la IA sean aún más potentes y que se calienten demasiado para ser enfriados por placas frías.
Enfriar chips de manera directa a través de canales microfluídicos es mucho más eficiente, no solo para eliminar el calor, sino también para hacer funcionar el sistema en general. Con todas esas capas de aislamiento eliminadas y el refrigerante que toca de manera directa el silicio caliente, el refrigerante no necesita estar tan frío para hacer su trabajo. Eso ahorraría energía que no será necesaria para enfriar el refrigerante, al tiempo que haría un mejor trabajo que las placas frías actuales. La tecnología microfluídica también permite un uso de calor residual de mayor calidad.
Microsoft también tiene como objetivo optimizar las operaciones del centro de datos a través del software y otros enfoques. «Si el enfriamiento microfluídico puede usar menos energía para enfriar los centros de datos, eso pondrá menos estrés en las redes de energía de las comunidades cercanas», dijo Ricardo Bianchini, miembro técnico de Microsoft y vicepresidente corporativo de Azure especializado en eficiencia informática.
El calor también pone límites al diseño del centro de datos. Un beneficio de un centro de datos para computación es que los servidores están juntos de manera física. La distancia ralentiza la comunicación entre servidores, algo llamado latencia. Pero los servidores de hoy en día solo se pueden empaquetar hasta cierto punto antes de que el calor se convierta en un problema. La microfluídica permitiría a los centros de datos aumentar la densidad de los servidores. Eso significa que los centros de datos podrían aumentar la computación sin requerir edificios adicionales.
El futuro de la innovación de chips
La microfluídica también tiene el potencial de abrir la puerta a arquitecturas de chips nuevas, como los chips 3D. Así como poner servidores juntos reduce la latencia, el apilamiento de chips la reduce aún más. Este tipo de arquitectura 3D es difícil de construir debido al calor que genera.
Sin embargo, la microfluídica lleva el refrigerante muy cerca de donde se consume la energía para que «podamos hacer fluir líquido a través del chip», como sería el caso de los diseños 3D, dijo Bianchini. Eso implicaría un diseño microfluídico diferente, que utiliza pasadores cilíndricos entre los chips apilados, un poco como pilares en un estacionamiento de varios niveles, con fluido que fluye a su alrededor.
«Cada vez que podemos hacer las cosas de manera más eficiente y simplificar, esto abre la oportunidad para una nueva innovación en la que podríamos buscar nuevas arquitecturas de chips», dijo Priest.
Eliminar el límite establecido por el calor también podría permitir más chips en un rack de centro de datos o más núcleos en un chip, lo que mejoraría la velocidad y permitiría centros de datos más pequeños pero más potentes.
Al demostrar cómo se pueden hacer funcionar las nuevas técnicas de enfriamiento, como la microfluídica, Microsoft espera ayudar a allanar el camino para chips de próxima generación más eficientes y sostenibles en toda la industria, dijo la compañía.
«Queremos que la microfluídica se convierta en algo que todo el mundo haga, no solo en algo que hagamos», dijo Kleewein. «Cuanta más gente lo adopte, mejor, más rápido se desarrollará la tecnología, mejor será para nosotros, para nuestros clientes, para todos».
Enlaces relacionados:
- Más información: Refrigeración por microfluidos: refrigeración a nivel micro para los centros de datos de Microsoft
- Más información: Cómo las máquinas virtuales de Azure Cobalt 100 impulsan soluciones del mundo real, para ofrecer resultados de rendimiento y eficiencia
- Más información: Microsoft Azure escala la producción de fibra de núcleo hueco (HCF) a través de la fabricación subcontratada