작지만 강력하다: 소형언어모델 Phi-3의 거대한 잠재력
마이크로소프트의 연구진은 이번 소형 언어 모델 연구 과정에서 때로는 아이들의 동화책에서 뜻밖의 해답을 찾을 수 있다는 교훈을 얻었습니다.
1년 전, 마이크로소프트 리서치 팀의 머신러닝 담당자 로넨 엘단(Ronen Eldan)은 4살 난 딸에게 동화책을 읽어주다가 문득 이런 의문이 들었습니다. “우리 아이는 어떻게 책에 나오는 단어들을 배우고 연결해 문장을 만들까?”
머신러닝의 한계를 극복하기 위한 해결책을 찾고 있던 그는 이 궁금증을 계기로 ‘4살 어린이가 이해하기 쉬운 단어만을 사용해 인공지능 모델이 학습 가능한가’에 대한 연구를 진행했습니다. 그 결과, 새로운 형태의 고성능 소형 언어 모델을 개발하여 더 많은 사람들이 인공지능을 활용할 수 있게 되었습니다.
대형 언어 모델(Large Language Model, LLM)은 AI를 통해 생산성과 창의성을 향상시킬 기회를 제공하지만, 큰 규모만큼 운용에 상당한 비용과 시간이 소요됩니다.
현재 대형 언어 모델은 여러 복잡한 작업을 해결할 때 뛰어난 성능을 발휘하고 있지만, 마이크로소프트는 같은 성능을 유지하면서도 부피가 작고 정교한 기능을 수행할 수 있는 경량 언어 모델을 개발해왔습니다.
오늘 마이크로소프트는 가장 효율적이며 가격 면에서도 우수한 소형 언어 모델인 ‘Phi-3 시리즈’를 발표했습니다. 다양한 테스트를 통해 입증된 바와 같이, Phi-3 시리즈는 마이크로소프트 연구진이 개발한 혁신적인 학습 방법을 적용해 동일하거나 더 큰 규모의 다른 모델들보다 우수한 언어, 코딩 및 연산 능력을 보여주고 있습니다.
이번에 소개된 소형 언어 모델 제품군 중 첫 번째인 Phi-3-mini는 38억 개의 매개변수를 사용해 크기가 약 두 배인 모델보다 뛰어난 성능을 자랑합니다.
앞으로 Phi-3-미니는 애저 AI 모델 카탈로그(Microsoft Azure AI model Catalog), 머신러닝 모델 플랫폼인 허깅 페이스(Hugging face), 그리고 로컬 컴퓨터에서 모델을 운용할 수 있는 경량 프레임워크인 올라마(Ollama)에서 사용할 수 있습니다. 또한 어디서든 설치 가능한 표준 API 인터페이스를 갖춘 엔비디아 님 마이크로서비스(NVIDIA NIM microservice)에도 제공될 예정입니다.
마이크로소프트는 품질과 비용 측면에서 고객에게 더 다양한 선택지를 제공하기 위해 Phi-3 시리즈의 추가 모델들을 출시할 계획입니다. 70억 개의 매개 변수를 갖춘 Phi-3-small과 140억 개의 매개 변수를 갖춘 Phi-3-medium도 곧 애저 AI 모델 카탈로그 및 기타 플랫폼에서 사용할 수 있게 됩니다.
소형 언어 모델은 간단한 작업에 최적화로 설계되었으며, 리소스가 제한된 조직에서도 쉽게 접근하고 사용할 수 있습니다. 또한 이 모델들은 특정 요구 사항에 맞게 미세 조정될 수 있습니다.
마이크로소프트의 생성형 AI 부문 수석 제품 매니저인 소날리 야다브(Sonali Yadav)는 “앞으로 우리가 목격하게 될 것은 대형 모델에서 소형 모델로의 전환보다는 고객이 자신의 필요에 가장 적합한 모델을 선택할 수 있는 다양한 모델 포트폴리오로의 전환일 것”이라고 설명했습니다.
또한, 마이크로소프트의 AI 부문 부사장 루이스 바르가스(Luis Vargas)는 “일부 고객은 작은 모델만 필요로 할 수 있고, 다른 일부는 더 큰 모델이 필요할 수 있다” 며 “많은 고객들은 이 두 가지 모델을 다양한 방식으로 결합해 사용하기를 원할 것”이라고 말합니다.
결국 어떤 언어 모델을 선택할지는 조직의 특정 요구, 작업의 복잡성, 그리고 사용 가능한 리소스에 따라 달라집니다. 소형 언어 모델은 일반 기기에서 클라우드가 아닌 현장에서 실행할 수 있으며, 광범위한 추론이 필요하지 않거나 신속한 반응이 요구되지 않는 애플리케이션 구축에 적합합니다.
“소형 모델 또는 대형 모델을 원하는 고객들은 일부인 반면, 대부분의 고객들은 두 개의 모델을 결합해 다양한 방법으로 사용하는 것을 희망하고 있습니다”
반면 대형 언어 모델은 고급 추론, 데이터 분석 및 문맥 이해와 같은 복잡한 작업을 처리하는 애플리케이션에 더 적합합니다.
소날리 야다브에 따르면, 소형 언어 모델은 고품질 결과를 필요로 하는 동시에 데이터의 외부 유출을 원치 않는 기업에게 맞춤형 솔루션을 제공할 수 있습니다.
바르가스와 야다브는 앞으로 클라우드 연결 없이도 스마트폰과 다른 모바일 디바이스에서 고성능의 소형 언어 모델을 설치할 수 있을 것으로 기대합니다. 이는 자동차 내장 컴퓨터, 와이파이가 없는 PC, 교통 시스템, 공장 현장의 스마트 센서, 원격 카메라, 환경 규정 모니터링 장치 등에서 활용될 수 있습니다. 사용자는 소형 언어 모델을 자신의 개인 디바이스에 설치해 응답 지연을 최소화하고 개인정보 보호를 극대화할 수 있습니다.
지연 속도는 대형 언어 모델이 클라우드와 통신하여 응답을 생성하는 데 소요되는 시간을 의미합니다. 사용자는 때때로 고품질 정보를 얻기 위해 긴 시간을 기다려야 할 수도 있지만, 대부분은 빠른 응답을 선호합니다.
또한 소형 언어 모델은 오프라인 상태에서도 작동할 수 있어, 과거에 불가능했던 방식으로 사람들이 AI를 활용할 수 있게 됩니다.
예를 들어, 인터넷이 연결되지 않은 교외 지역에서도 언어 모델 사용이 가능해지며, 농부는 시각 기능을 갖춘 소형 언어 모델을 사용하여 농작물의 사진을 찍고 해충 방지나 질병 치료 방법에 대한 데이터를 즉시 얻을 수 있습니다.
이에 대해 바르가스는 “앞으로는 통신망이 잘 갖춰지지 않은 지역에 있더라도 소형 언어 모델이 설치된 디바이스를 통해 AI 경험을 할 수 있을 것”이라고 전망합니다.
고품질 데이터의 중요성
이름에서 알 수 있듯이, 소형 언어 모델은 대형 언어 모델에 비해 크기가 매우 작습니다. 예를 들어, 출력을 결정하는 알고리즘을 나타내는 측정 단위를 뜻하는 Phi-3-미니의 매개변수는 대형 언어 모델이 보유한 매개변수 대비 38억 개에 불과합니다,
생성형 AI에서 대형 언어 모델이 이룬 혁신적인 발전은 주로 그 큰 규모 덕분에 가능했습니다. 그러나 우리는 비교적 작은 패키지에서도 유사하거나 더 뛰어난 성능을 제공할 수 있는 소형 언어 모델을 개발할 수 있었습니다. 이러한 성과는 데이터 학습에 대한 혁신적 접근 덕분이며, 앞서 언급한 동화책에서 얻은 교훈이 중요한 역할을 했습니다.
지금까지 대형 언어 모델을 학습시키는 가장 일반적인 방법은 인터넷에서 대량의 데이터를 수집해 사용하는 것이었습니다. 이 방법은 문맥을 이해하고 설득력 있는 답변을 생성하기 위해 필요한 방대한 정보를 학습하는 유일한 방법으로 여겨졌습니다. 하지만 마이크로소프트 연구진들은 다른 관점에서 생각했습니다.
“단순한 원시 웹 데이터로만 훈련하는 것이 아니라, 훨씬 높은 고품질의 데이터를 찾아보는 건 어떨까요?” 마이크로소프트의 생성형 AI 연구 부문 부사장인 세바스티앙 부벡(Sebastien Bubeck)이 제안했습니다. 그는 회사에서 더욱 발전된 소형 언어 모델 개발을 이끌고 있습니다. 그러나 우리의 주목해야 할 곳은 어디일까요?
우리는 밤마다 딸과 함께 책을 읽는 엘단의 습관에서 영감을 얻어 비슷한 수의 명사, 동사, 형용사들을 포함한 3,000개의 단어로 이루어진 데이터 세트를 만들기로 결정했습니다. 그리고 대형 언어 모델에 데이터 세트가 가지고 있는 각각의 명사, 동사, 형용사를 사용하여 동화 줄거리를 생성하도록 요청했고, 며칠 동안 그 과정을 끊임없이 반복하여 수백 개의 동화책을 만들어낼 수 있었습니다.
마이크로소프트 연구진은 엘단이 매일 밤 딸과 함께 읽는 독서 습관에서 아이디어를 얻어 명사, 동사, 형용사가 각각 대략 같은 비율로 포함된 3,000개의 단어로 시작하는 별도의 데이터 세트를 만들기로 결정했습니다. 이어 목록에서 하나의 명사, 동사, 형용사를 사용해 어린이 동화를 창작하도록 대형 언어 모델에 요청했습니다. 이 프롬프트는 수일에 걸쳐 수백만 번 반복돼 수백만 개의 짧은 어린이 동화가 생성됐습니다.
“소형 언어모델은 클라우드에 연결하지 않고도 작업을 완료할 수 있어 다른 모델들과 차별화되는 독보적인 위치에 있습니다”
연구팀은 이 데이터 세트를 ‘타이니스토리즈(TinyStories)’라 명명하고, 이를 활용해 약 1,000만 개의 매개변수로 구성된 작은 언어 모델을 학습시켰습니다. 놀랍게도, 해당 데이터로 훈련된 모델은 스스로 이야기를 생성할 때 완벽한 문법의 동화책을 만들어냈습니다.
연구팀은 실험을 한 단계 더 발전시켜, 교육적 가치가 높고 콘텐츠 품질이 검증된 데이터를 사용해 Phi-1 모델을 학습시켰습니다. 초기 데이터 수집 후 타이니스토리즈의 학습 방식에서 영감을 받아 더 광범위한 데이터를 활용할 수 있는 고급 언어 모델을 개발했습니다. 이 과정에는 반복적인 데이터 필터링 작업도 포함되었으며, 몇 주간의 노력 끝에 고성능 소형 언어 모델을 훈련시킬 충분한 데이터 코퍼스(corpus of data)를 구축했습니다.
부벡은 “데이터 생성 과정에서 많은 주의를 기울여야 한다”고 강조하며, “마이크로소프트 연구진은 데이터를 여러 차례 검증하는 과정을 거쳐 ‘코드교과서’라는 데이터 세트를 개발할 수 있었다”고 설명했습니다.
연구진은 데이터 선별 과정을 학생에게 어려운 개념을 쉽게 설명하는 교사의 방법에 비유하며, “데이터 세트가 사물에 대한 정보를 교과서처럼 명확하게 전달할 수 있다면, 언어 모델은 이를 더 효과적이고 신속하게 학습할 수 있다”고 부벡은 말합니다.
사람이 정보의 품질을 판별하는 것은 어렵지 않습니다. 하지만 소형 언어 모델이 테라바이트가 넘는 데이터를 분류하는 일은 대형 언어 모델의 도움 없이는 거의 불가능하다고 연구진은 판단했습니다.
마이크로소프트 AI 리서치 프론티어스 랩(Microsoft Research AI Frontiers Lab) 부사장 이세 카마르(Ece Kamar)는 “현재 세대의 대형 언어 모델의 능력은 합성 데이터 생성 측면에서 이전에는 없던 진정한 가능성입니다”라고 말합니다.
데이터를 신중하게 선별해 언어 모델에 제공하면 부적절한 응답 생성 가능성을 줄일 수 있지만, 모든 잠재적 문제를 예방할 수는 없습니다. 따라서 마이크로소프트의 제품 및 책임 있는 AI 팀은 Phi-3 모델 개발 과정에서 위험을 최소화하기 위해 다양한 유형의 언어 모델을 활용하는 다층적 접근 방식을 채택했습니다.
연구진은 데이터 학습 초기 단계에서 각 언어 모델에 추가 예제와 피드백을 제공해 안전한 계층을 구축하고, 모델이 고품질의 결과를 생성하도록 유도했습니다. 각 모델은 전문가의 평가와 테스트를 거쳐 잠재적인 취약점을 식별하고 해결했습니다.
이러한 접근 방식을 통해 Phi-3 모델을 사용하는 개발자들은 애저 AI가 제공하는 도구들을 활용해 더 안전하고 신뢰할 수 있는 애플리케이션을 구축할 수 있습니다.
작업에 맞는 언어 모델 선택하기
하지만 소형 언어 모델은 적은 데이터 용량으로 인해 심층적인 정보 검색에는 적합하지 않습니다.
대형 언어 모델은 그 크기와 처리 능력을 활용해 대량의 정보를 분석하고 복잡한 패턴을 파악하는 데에는 소형 언어 모델보다 우수합니다. 예를 들어, 방대한 과학 논문을 검토하고 복잡한 유전자, 단백질, 화학물질 간의 상호작용을 이해하는 신약 개발과 같은 작업에 적합합니다.
바르가스는 “앞으로도 복잡한 처리 과정을 여러 계층으로 나눠 최종적인 답을 도출해야 하는 작업은 대형 언어 모델이 담당하게 될 것”이라고 말합니다.
물론 바르가스와 야다브는 “작업이 너무 복잡하지 않은 경우에는 소형 언어 모델이 일부 과정을 처리할 수 있을 것”이라고 예상했습니다.
예를 들어, 기업은 Phi-3를 사용해 많은 양의 문서를 빠르게 요약하거나 시장 조사 보고서를 작성할 때 관련 인사이트와 업계 동향을 효율적으로 파악할 수 있습니다. 또한 제품에 대한 설명을 생성하고 SNS게시물과 같은 마케팅 또는 영업을 위한 콘텐츠에 들어가는 문구를 제시할 수 있습니다. 무엇보다 챗봇을 활용해 요금제나 서비스 업그레이드에 대한 고객의 기본적인 질문에 답변할 수 있습니다.
마이크로소프트는 여러 모델의 조합을 사용하고 있습니다. 이 조합에서 대형 언어 모델은 라우터 역할로서 적은 계산력을 요구하는 특정 쿼리를 소형 언어 모델로 보내고, 더 복잡한 요청은 스스로 처리합니다.
“우리는 소형 언어 모델이 대형 언어 모델을 대체할 수 있다고 주장하는 것이 아니다”라고 카마르는 말합니다. 그녀는 “소형 언어 모델은 디바이스에서의 연산과 클라우드 연결 없이 작업을 처리할 수 있는 독특한 능력을 갖고 있기 때문에 각 모델의 장단점을 이해하는 것이 중요하다”고 강조합니다.
또한 부벡은 “소형 언어모델과 대형 언어모델의 지능 수준에는 여전히 격차가 존재한다”며 “대형 언어 모델이 계속 발전하는 한 그 격차는 계속될 것”이라고 전망했습니다.