在 Foundry (国际版) 中持续推进 Microsoft AI 的发展势头
自今年春季在 Microsoft Foundry (国际版) 中推出 MAI-Image-2 Efficient、MAI-Image-2、MAI-Voice-1、MAI-Transcribe-1 以来,我们始终专注于一件事:为开发者提供最完整的第一方 AI 技术栈来进行构建。
今天,在 Microsoft Build 2026 大会上,我们迈出了下一步。我们宣布在 Microsoft Foundry (国际版) 中推出来自 Microsoft AI (MAI) 的全新模型,涵盖 4 种模态:
- 文本/推理:MAI-Thinking-1 是我们的首个文本推理模型,旨在以极具性价比的方式,提供强大的推理、数学和通用智能能力,让大批量、始终在线的AI 工作负载在经济上切实可行。
- 图像:MAI-Image-2.5 是一款更新的图像生成模型,新增了图像到图像编辑功能,以及一整套”保真可控编辑”能力,再次以第3 名首发亮相 ai 图像生成模型系列榜单。我们还推出了 MAI-Image-2.5 Flash,可在 Foundry 中提供更快、更高效的选项。
- 语音合成: MAI-Voice-2 是一款更新的多语言文本转语音模型,将语音克隆和语音提示功能扩展到15 种以上语言。我们还推出了 MAI-Voice-2 Flash,作为更快速、更高效的选项(具体可用性以官方页面为准)。
- 语音识别:MAI-Transcribe-1.5 是一款更新的语音转文本模型,共支持43 种语言,新增了实体偏置功能并进一步提升了准确性,继续保持其在 FLEURS 基准测试中的第一名位置¹。
这些正是已经在 Copilot (国际版)、Bing、PowerPoint 和 Azure Speech 中为各种体验提供支持的同款模型,现在它们已在 Foundry 中开放,供开发者构建应用。
请继续阅读,深入了解每个模型以及如何开始构建。
MAI-Thinking-1:跻身同量级最强行列的中型模型
MAI-Thinking-1 是 MAI 的首个文本推理模型——专为企业大规模运行的工作负载而打造。在打造 MAI-Thinking-1 的过程中,我们倾听了客户对领先模型的反馈,并下定了一个明确的决心:以让大批量、始终在线的 AI 工作负载在经济上切实可行的性价比,提供强大的推理、数学和通用智能能力。
MAI-Thinking-1 采用专家混合(MoE)架构,每个请求仅选择性地激活所需的模型部分。其结果是:在扩展模型能力的同时,避免了计算量的线性增长。MAI-Thinking-1 非常适合通常需要深度上下文的企业用例——分析长文档、进行复杂的多步推理,以及处理扩展的智能体跟踪,而无需分块和拼接。
MAI-Thinking-1 在 SWE-Bench Pro 上与同量级领先模型表现相当,但成本大幅降低;初步测试显示,其在偏好度上也与同量级模型相当。我们从零开始,在高质量的纯净数据上对其进行训练,未从任何第三方模型进行蒸馏。
MAI-Image-2.5:兼具可控性与保真度,面向企业创意工作流
我们还推出了 MAI-Image-2.5 系列模型。其中包括追求极致保真度的 MAI-Image-2.5,以及面向快速、可扩展生产工作负载的 MAI-Image-2.5 Flash。MAI-Image-2.5 在 Arena.ai 上首发即位列第 3,并在文本渲染、风格化插图和商业图像方面取得了显著进步。此外,我们还增加了企业创意团队一直期待的编辑界面,并针对创意工作的实际开展方式进行了优化。

MAI-Image-2.5 引入了图像到图像的编辑功能,并配备一系列其他能力,可在保留身份特征与品牌元素的同时增强控制能力:
- 身份与角色一致性: 在风格化、姿势和布局变化过程中保留可识别的面孔(以及头发、服装、全身身份特征)——专为品牌角色、代言人和社交活动而打造。
- 风格与场景控制: 应用全画幅重新风格化(动漫、调色、胶片颗粒、去龄化),并通过添加、移除或重新定位对象,以及调整人物姿势和互动来重构镜头。
- 文本、图形与布局控制: 根据自然提示(如”把字体边角变得更圆滑”)生成排版、徽标并进行响应式文本编辑,还可生成可直接用于PPT 的信息图和幻灯片,具有连贯的层次结构、对齐方式和模板遵循——包括”转换为 3 步流程”之类的定向编辑。
这些新功能带来了效率提升,我们将其直接传递给客户。根据来源文章中采用的 ELO 评分对比结果,它们为客户提供了更具性价比的选择,使客户能够灵活地针对质量、速度或成本优化生产图像工作流。
MAI-Voice-2 和 MAI-Transcribe-1.5:更精准的多语言音频技术栈
语音合成与语音交互仍然是下一代 AI 智能体的主要交互方式。借助 MAI-Voice-2 和 MAI-Transcribe-1.5,我们正在填补一些最关键的空白——正是这些空白,让通用模型一直无法进入企业级语音工作流。
MAI-Voice-2:一种声音,多种语言
MAI-Voice-2 新增了两项重要功能:身份保留和语音提示(voice prompting),并扩展到在单个统一系统中支持 15 种以上语言:
- 身份保留可重现特定人物独特的声音特征,使模型能够在不同市场中以该人物的身份”发声”——在确保获得相关授权并遵守适用法律法规的前提下,这对于一致的品牌化声音、本地化代言人和名人宣传活动、个性化数字助手以及无障碍解决方案非常有用。
- 语音提示以一段简短的音频样本作为语气、情感、口音、节奏和说话风格的参考,让开发者无需管理单独的语音库即可控制声音的表达方式。
这两项功能现在可在所有支持的语言中运行,因此单个克隆声音或参考风格可以自然地应用于不同市场,而无需为每种语言配备单独的系统。
MAI-Transcribe-1.5:更快、更准确的转录
MAI-Transcribe-1.5 进一步强化了 MAI-Transcribe-1 业界领先的速度和成本优势——根据 Artificial Analysis 排行榜,它现在的效率最高可达同类主流模型的 5 倍。它还新增了两项广受期待的功能:
- 实体偏置通过领域上下文(名称、品牌术语、行业词汇)为模型提供引导,使其能够正确转写专业词汇,而不是猜测最接近的常见拼写。这是我们客户强烈要求的功能,也是通用语音模型在体育、商业、医疗和技术工作流中长期存在的失败模式。
- 准确性的提升在企业每天运营的环境中依然稳健——交叉对话、背景噪音和长篇会议——而通用模型在这些情况下往往会出现漂移。在 FLEURS(涵盖 25 种语言的标准多语言基准)上,词错误率(WER)从9% 降至 3.7%,保持了我们在该基准上作为最准确模型的地位¹。
立即体验
立即在 Microsoft Foundry (国际版) 中体验这些模型:
- MAI-Thinking-1:处于预览阶段,请在此处申请访问权限。
- MAI-Image-2.5:可直接在Foundry 模型目录中获取。定价起步为文本输入每 100 万个 token 5 美元、图像输入每 100 万个 token 8 美元、图像输出每 100 万个 token 47 美元。
- MAI-Image-2.5 Flash:可直接在Foundry 模型目录中获取。定价起步为文本和图像输入每 100 万个 token 1.75 美元、图像输出每 100 万个 token 33 美元。
- MAI-Voice-2:通过Azure Speech 提供。定价起步为每 100 万个字符 22 美元。
- MAI-Transcribe-1.5:通过Azure Speech 提供。定价起步为每小时36 美元。
- 在MAI Playground 中体验:在 MAI Playground 试用 MAI 模型。
参考资料
1在 FLEURS 基准测试的总体 WER 上排名第 1(详见上文 FLEURS 链接)。