더 뜨거워지는 AI 칩, 마이크로플루이딕스로 최대 3배 더 잘 냉각
작성자: 캐서린 볼가 (Catherine Bolgar)
AI는 지금 그 어느 때보다 뜨겁습니다. 말 그대로입니다.
최신 AI 기술을 구동하는 데이터센터용 칩은 이전 세대보다 훨씬 더 많은 열을 발생시킵니다. 휴대폰이나 노트북이 과열된 경험이 있다면 알 수 있듯, 전자기기는 높은 열에 취약합니다. AI 수요와 칩 설계가 계속 고도화됨에 따라, 현재의 냉각 기술만으로는 몇 년 안에 한계에 부딪힐 수 있습니다.
이를 해결하기 위해 마이크로소프트는 기존의 첨단 냉각 기술인 콜드 플레이트(cold plate)보다 최대 3배 높은 성능을 발휘하는 새로운 냉각 시스템을 성공적으로 테스트했습니다. 이 시스템은 마이크로플루이딕스(Microfluidics) 방식으로, 냉각액을 열이 발생하는 실리콘 칩 내부까지 직접 전달합니다. 이를 위해 칩 뒷면에 미세한 채널을 새겨, 냉각액이 열원에 직접 도달할 수 있도록 설계되었습니다. 또한 또한 AI를 활용해 칩의 고유한 열 특성을 식별하고 냉각액을 정밀하게 유도합니다.
연구자들은 마이크로플루이딕스 기술이 차세대 AI 칩의 효율을 높이고, 지속가능성도 개선할 수 있다고 말합니다. 현재 데이터센터에서 사용되는 대부분의 GPU는 콜드 플레이트 방식으로 냉각되고 있지만, 이 방식은 열원과 냉각판 사이에 여러 층이 있어 열 제거 효율이 제한됩니다.
AI 칩의 성능이 세대를 거듭할수록 더 강력해지면서, 발생하는 열도 점점 더 커지고 있습니다. 사시 마제티(Sashi Majety) 마이크로소프트 클라우드 운영 및 혁신 부문의 수석 기술 프로그램 관리자(Senior Technical Program Manager for Cloud Operations and Innovation)는 “계속해서 전통적인 콜드 플레이트 방식에 의존한다면, 앞으로 5년 안에 사실상 막다른 길에 다다르게 될 것”이라고 지적했습니다.
그리고 오늘, 마이크로소프트는 마이크로플루이딕스 냉각 시스템을 실제 서버에 적용해, 팀즈(Teams) 회의 시뮬레이션의 핵심 서비스를 효과적으로 냉각하는 데 성공했다고 발표했습니다.

팀은 실리콘 내부에 냉각 액체가 직접 흐를 수 있도록 채널을 새겨 열을 보다 효율적으로 제거할 수 있게 했으며, AI를 활용해 칩의 고유한 열 분포를 식별하고, 냉각제를 보다 정밀하게 분사하도록 했습니다.
사진: 마이크로소프트 / 댄 델롱(Dan DeLong)
주디 프리스트(Judy Priest), 마이크로소프트 클라우드 운영 및 혁신 부문의 부사장이자 최고 기술 책임자(corporate vice president and chief technical officer of Cloud Operations and Innovation at Microsoft)는 “마이크로플루이딕스는 고밀도 설계를 가능하게 해, 고객들이 원하는 기능을 더 많이 담고, 더 작은 공간에서 더 높은 성능을 낼 수 있도록 도와줄 수 있다”고 말합니다.
그는 이어 “기술과 설계가 실제로 작동한다는 점을 먼저 입증해야 했고, 그 다음 단계로 진행하고 싶었던 것이 바로 신뢰성 테스트였습니다”라고 덧붙였습니다.
랩 스케일(lab scale) 실험 결과, 마이크로플루이딕스는 워크로드나 구성에 따라 기존 콜드 플레이트보다 최대 3배 더 효과적으로 열을 제거하는 성능을 보였습니다. 또한 GPU 내부 실리콘의 최대 온도 상승을 최대 65%까지 억제했으며, 이 수치는 칩 종류에 따라 달라질 수 있습니다. 연구팀은 이 첨단 냉각 기술이 데이터센터의 에너지 효율성을 측정하는 핵심 지표인 전력효율지수(PUE, Power Usage Effectiveness)를 개선하고, 운영 비용 절감에도 기여할 수 있을 것으로 기대하고 있습니다.
AI를 활용해 자연을 모방하기
마이크로플루이딕스 개념 자체가 새로운 것은 아니지만, 업계 전반에서는 이를 실제로 구현하는 데 어려움이 있었습니다. 후삼 알리사(Husam Alissa), 마이크로소프트 클라우드 운영 및 혁신 부문의 시스템 기술 책임자(Director of Systems Technology in Cloud Operations and Innovation at Microsoft)는 “마이크로플루이딕스 같은 기술을 개발할 때는 시스템적인 사고가 매우 중요하며, 실리콘과 냉각액, 서버, 그리고 데이터센터 전체에서의 상호작용을 이해해야 최대 효과를 낼 수 있다”고 강조했습니다.
특히 채널을 설계하는 과정은 매우 까다롭습니다. 마이크로채널의 크기가 사람 머리카락 굵기와 비슷할 정도로 작아서, 아주 작은 오차도 허용되지 않기 때문입니다. 마이크로소프트는 개발 과정에서 스위스의 스타트업 코린티스(Corintis)와 협력해, AI를 활용해 자연에서 영감을 받은 설계를 최적화했습니다. 이 방식은 잎맥이나 나비 날개에 있는 정맥처럼 생겼으며, 자연은 필요한 것을 가장 효율적으로 분배하는 경로를 찾는 데 능숙합니다.
마이크로플루이딕스는 혁신적인 채널 설계 외에도 복잡한 엔지니어링 과제를 수반합니다.
예를 들어, 냉각액이 막힘 없이 충분히 순환될 수 있도록 채널에 적절한 깊이를 확보해야 했지만, 너무 깊어지면 실리콘이 약해져 파손 위험이 생길 수 있기 때문에, 그 사이에서 균형을 맞춰야 했습니다. 마이크로소프트 팀은 지난 1년 동안에만 네 차례에 걸쳐 설계를 반복했습니다.



또한 칩에서 누수가 발생하지 않도록 하는 패키지 설계부터, 최적의 냉각액 조합을 찾는 작업, 다양한 식각 방식을 테스트하는 과정, 그리고 식각 공정을 칩 제조 단계에 차례대로 통합하는 작업이 필요했습니다.
이번 성과는 AI 서비스와 기능에 대한 수요를 충족하기 위해, 마이크로소프트가 인프라에 투자하고 혁신을 이어가고 있는 하나의 사례입니다. 마이크로소프트는 이번 분기에만 300억 달러 이상을 자본 지출에 투자할 계획입니다.
이러한 투자에는 마이크로소프트와 고객의 워크로드를 더 효율적으로 실행하기 위해 설계된 코발트(Cobalt)와 마이아(Maia) 칩 개발도 포함됩니다. 실제로 코발트 100(Cobalt 100) 칩을 배포한 이후, 마이크로소프트와 고객들은 에너지 효율적인 컴퓨팅 성능과 더 나은 확장성, 향상된 성능의 혜택을 체감하고 있습니다.
반도체는 데이터센터 안에 있는 보드, 랙, 서버 등 복잡한 시스템의 일부에 불과하기 때문에, 칩은 전체 퍼즐 중 한 조각일 뿐입니다. 마이크로소프트는 성능과 효율을 극대화하기 위해 전체 스택의 모든 요소를 정밀하게 조율하는 시스템 중심의 접근 방식을 취하고 있으며, 차세대 냉각 기술인 마이크로플루이딕스 개발도 그 일환입니다.
앞으로 마이크로소프트는 자사 칩의 차세대 버전에 마이크로플루이딕스 냉각 기술을 어떻게 적용할 수 있을지에 대한 연구를 계속해 나갈 계획입니다. 동시에 반도체 제조사와 파운드리 파트너들과 협력해, 이 기술을 데이터센터 전반에 도입하는 방안도 함께 추진할 예정입니다.
짐 클리와인(Jim Kleewein), 마이크로소프트 365 코어 관리 부문의 테크니컬 펠로우(Technical Fellow, Microsoft 365 Core Management)는 “하드웨어는 마이크로소프트 서비스의 기반이다”라며, “그 기반이 얼마나 신뢰할 수 있고, 얼마나 비용 효율적인지, 얼마나 빠르고 일관된 성능을 내는지, 그리고 얼마나 지속 가능한지에 대해 모두가 이해관계를 가지고 있다. 마이크로플루이딕스는 이 모든 측면에서 개선 효과를 보여주고 있다”고 강조했습니다.
마이크로플루이딕스 기술의 강점
예를 들어, 단순한 마이크로소프트 팀즈(Teams) 통화만으로도 마이크로플루이딕스 냉각 기술의 장점을 확인할 수 있습니다. 팀즈는 단일 서비스가 아니라, 약 300개의 서로 다른 서비스가 유기적으로 협력해 작동하는 구조입니다. 사용자를 회의에 연결하고, 회의를 호스팅하며, 채팅을 저장하고, 여러 사람의 오디오 스트림을 병합합니다. 여기에 회의 녹음이나, 녹음된 음성을 텍스트로 전환하는 전사 기능도 포함돼 있습니다.
짐 클리와인은 “각 서비스는 서로 다른 특성을 가지고 있고, 서버의 다른 부분에 각각 다른 부하를 준다. 서버가 많이 사용될수록 더 많은 열이 발생하는 건 자연스러운 일이다.”라고 설명합니다.

예를 들어, 대부분의 팀즈 통화는 정각이나 30분에 시작되는 경우가 많습니다. 통화 제어 서비스는 이 시간대 기준으로 약 5분 전부터 3분 후까지 가장 바쁘고, 나머지 시간에는 상대적으로 여유가 있습니다. 이런 수요 급증을 처리하는 방법은 두 가지가 있습니다. 하나는 대부분의 시간에는 사용되지 않을 값비싼 추가 용량을 설치하는 것이고, 다른 하나는 서버를 더 강하게 작동시키는 ‘오버클러킹(overclocking)’입니다. 하지만 오버클러킹은 칩을 더 뜨겁게 만들기 때문에, 과도하게 사용하면 칩이 손상될 수 있어 주의가 필요합니다.
클리와인은 “워크로드가 급증할 때마다 우리는 오버클러킹을 원한다. 마이크로플루이딕스는 칩을 더 효율적으로 냉각하기 때문에, 칩이 녹아내릴 걱정 없이 오버클러킹이 가능하다”고 말했습니다. 이어 “이는 오버클러킹을 통해 비용과 신뢰성 측면에서 이점이 있을 뿐만 아니라,속도 또한 높일 수 있다는 의미”라고 덧붙였다.
냉각 기술의 확장된 역할
마이크로플루이딕스는 마이크로소프트가 차세대 냉각 기술을 발전시키고, 클라우드 스택 전반을 최적화하기 위해 추진 중인 이니셔티브의 일부입니다. 전통적으로 데이터센터는 대형 팬을 이용해 공기를 불어넣는 방식으로 냉각해 왔지만, 액체는 공기보다 열을 훨씬 더 효율적으로 전달합니다.
마이크로소프트는 이미 데이터센터에 콜드 플레이트 기반 액체 냉각 방식을 적용한 바 있습니다. 이 방식은 칩 위에 장착된 콜드 플레이트 안으로 차가운 냉각수가 들어가 내부 채널을 순환하며 칩에서 발생한 열을 흡수하고, 데워진 냉각수가 외부로 빠져나가 다시 식는 구조입니다.
칩은 열을 분산시키고 외부로부터 보호하기 위해 여러 층의 소재로 패키징됩니다. 하지만 이러한 소재들은 일종의 담요처럼 작용해, 열은 빠져나가지 못하게 하고 냉기는 들어오지 못하게 막으면서 콜드 플레이트의 성능을 제한합니다. 앞으로 AI에 최적화된 차세대 칩은 지금보다 훨씬 더 강력해질 것으로 예상되며, 콜드 플레이트만으로는 냉각이 어려울 정도로 뜨거워질 수 있습니다.
반면, 마이크로플루이딕스 채널을 통해 칩을 직접 냉각하는 방식은 단순히 열을 제거하는 데 그치지 않고, 시스템 전체의 운영 측면에서도 훨씬 더 효율적입니다. 절연층이 사라지고, 냉각수가 뜨거운 실리콘 표면에 직접 닿기 때문에 냉각수를 지나치게 낮은 온도로 유지할 필요가 없어지고, 그만큼 냉각에 필요한 에너지도 크게 줄일 수 있습니다. 동시에 콜드 플레이트보다 더 효과적인 냉각 성능을 발휘하며, 발생한 폐열 역시 더 높은 품질로 활용할 수 있게 됩니다.
마이크로소프트는 소프트웨어와 다양한 접근 방식을 통해 데이터센터 운영의 최적화도 함께 추진하고 있습니다. 리카르도 비안치니(Ricardo Bianchini), 마이크로소프트 애저 컴퓨트 효율성 부문 부사장이자 테크니컬 펠로우(Microsoft Technical Fellow and Corporate Vice President for Azure, specializing in compute efficiency)는 “마이크로플루이딕스 방식이 더 적은 전력으로 데이터센터를 냉각할 수 있다면, 인근 지역사회의 전력망에 가해지는 부담도 줄어들 수 있다”고 말했습니다.
열은 데이터센터 설계에 제약 요소가 되기도 합니다. 컴퓨팅 데이터센터의 강점 중 하나는 서버를 물리적으로 가까운 거리에 배치해 서버 간 통신 지연(latency)을 줄일 수 있다는 점인데, 현재는 발열 문제로 인해 서버를 너무 가까이 배치하기 어렵습니다. 마이크로플루이딕스는 서버 밀도를 높일 수 있도록 해주며, 추가적인 건물 없이도 컴퓨팅 성능을 확장할 수 있는 가능성을 열어줍니다.
칩 기술 혁신의 미래
마이크로플루이딕스는 3D 칩과 같은 완전히 새로운 칩 아키텍처의 가능성도 열어줍니다. 서버를 가까이 배치하면 지연(latency)이 줄어드는 것처럼, 칩을 적층하면 그 효과는 더욱 커집니다. 하지만 이러한 3D 아키텍처는 발생하는 열 때문에 구현이 어렵습니다.
리카르도 비안치니는, 마이크로플루이딕스가 전력이 소모되는 지점 가까이까지 냉각수를 전달할 수 있기 때문에, 3D 설계에서는 “칩 내부로 액체를 흐르게 하는 것도 가능하다”고 말했습니다. 이 경우에는 마치 다층 주차장의 기둥처럼, 칩을 쌓는 층 사이에 원통형 핀을 두고 그 주변으로 냉각수가 흐르는 새로운 형태의 마이크로플루이딕스 설계가 필요합니다.
주디 프리스트는 “효율성을 높이고 단순화를 가능하게 함으로써, 새로운 칩 아키텍처를 탐색할 수 있는 혁신의 기회가 열린다”고 강조했습니다.
열로 인한 제약이 사라지면, 데이터센터 랙에 더 많은 칩을 넣거나 하나의 칩에 더 많은 코어를 집적할 수 있게 됩니다. 이렇게 되면 처리 속도가 빨라지고, 더 작지만 성능이 뛰어난 데이터센터를 구현할 수 있게 됩니다.
마이크로소프트는 이번 연구를 통해 마이크로플루이딕스와 같은 새로운 냉각 기술이 실제 환경에서도 효과적으로 작동할 수 있음을 보여줬으며, 이 기술이 업계 전반으로 확산돼 더 효율적이고 지속가능한 차세대 칩 개발로 이어지기를 기대하고 있습니다.
짐 클리와인은 “우리는 마이크로플루이딕스가 마이크로소프트만의 기술이 아니라, 모두가 함께 사용할 수 있는 기술이 되기를 바란다”며, “이 기술을 채택하는 기업이 많아질수록 발전 속도도 빨라지고, 이는 우리와 고객, 나아가 모두에게 더 큰 이익이 될 것이다”라고 말했습니다.
관련 링크: