Microsoft Foundry (国际版) 推出全新 MAI 模型

在 Foundry (国际版) 中持续推进 Microsoft AI 的发展势头

自今年春季在 Microsoft Foundry (国际版) 中推出 MAI-Image-2 Efficient、MAI-Image-2、MAI-Voice-1、MAI-Transcribe-1 以来，我们始终专注于一件事：为开发者提供最完整的第一方 AI 技术栈来进行构建。

今天，在 Microsoft Build 2026 大会上，我们迈出了下一步。我们宣布在 Microsoft Foundry (国际版) 中推出来自 Microsoft AI (MAI) 的全新模型，涵盖 4 种模态：

文本/推理：MAI-Thinking-1 是我们的首个文本推理模型，旨在以极具性价比的方式，提供强大的推理、数学和通用智能能力，让大批量、始终在线的AI 工作负载在经济上切实可行。
图像：MAI-Image-2.5 是一款更新的图像生成模型，新增了图像到图像编辑功能，以及一整套”保真可控编辑”能力，再次以第3 名首发亮相 ai 图像生成模型系列榜单。我们还推出了 MAI-Image-2.5 Flash，可在 Foundry 中提供更快、更高效的选项。
语音合成： MAI-Voice-2 是一款更新的多语言文本转语音模型，将语音克隆和语音提示功能扩展到15 种以上语言。我们还推出了 MAI-Voice-2 Flash，作为更快速、更高效的选项（具体可用性以官方页面为准）。
语音识别：MAI-Transcribe-1.5 是一款更新的语音转文本模型，共支持43 种语言，新增了实体偏置功能并进一步提升了准确性，继续保持其在 FLEURS 基准测试中的第一名位置¹。

这些正是已经在 Copilot (国际版)、Bing、PowerPoint 和 Azure Speech 中为各种体验提供支持的同款模型，现在它们已在 Foundry 中开放，供开发者构建应用。

请继续阅读，深入了解每个模型以及如何开始构建。

MAI-Thinking-1：跻身同量级最强行列的中型模型

MAI-Thinking-1 是 MAI 的首个文本推理模型——专为企业大规模运行的工作负载而打造。在打造 MAI-Thinking-1 的过程中，我们倾听了客户对领先模型的反馈，并下定了一个明确的决心：以让大批量、始终在线的 AI 工作负载在经济上切实可行的性价比，提供强大的推理、数学和通用智能能力。

MAI-Thinking-1 采用专家混合（MoE）架构，每个请求仅选择性地激活所需的模型部分。其结果是：在扩展模型能力的同时，避免了计算量的线性增长。MAI-Thinking-1 非常适合通常需要深度上下文的企业用例——分析长文档、进行复杂的多步推理，以及处理扩展的智能体跟踪，而无需分块和拼接。

MAI-Thinking-1 在 SWE-Bench Pro 上与同量级领先模型表现相当，但成本大幅降低；初步测试显示，其在偏好度上也与同量级模型相当。我们从零开始，在高质量的纯净数据上对其进行训练，未从任何第三方模型进行蒸馏。

MAI-Image-2.5：兼具可控性与保真度，面向企业创意工作流

我们还推出了 MAI-Image-2.5 系列模型。其中包括追求极致保真度的 MAI-Image-2.5，以及面向快速、可扩展生产工作负载的 MAI-Image-2.5 Flash。MAI-Image-2.5 在 Arena.ai 上首发即位列第 3，并在文本渲染、风格化插图和商业图像方面取得了显著进步。此外，我们还增加了企业创意团队一直期待的编辑界面，并针对创意工作的实际开展方式进行了优化。

MAI-Image-2.5 引入了图像到图像的编辑功能，并配备一系列其他能力，可在保留身份特征与品牌元素的同时增强控制能力：

身份与角色一致性： 在风格化、姿势和布局变化过程中保留可识别的面孔（以及头发、服装、全身身份特征）——专为品牌角色、代言人和社交活动而打造。
风格与场景控制： 应用全画幅重新风格化（动漫、调色、胶片颗粒、去龄化），并通过添加、移除或重新定位对象，以及调整人物姿势和互动来重构镜头。
文本、图形与布局控制： 根据自然提示（如”把字体边角变得更圆滑”）生成排版、徽标并进行响应式文本编辑，还可生成可直接用于PPT 的信息图和幻灯片，具有连贯的层次结构、对齐方式和模板遵循——包括”转换为 3 步流程”之类的定向编辑。

这些新功能带来了效率提升，我们将其直接传递给客户。根据来源文章中采用的 ELO 评分对比结果，它们为客户提供了更具性价比的选择，使客户能够灵活地针对质量、速度或成本优化生产图像工作流。

MAI-Voice-2 和 MAI-Transcribe-1.5：更精准的多语言音频技术栈

语音合成与语音交互仍然是下一代 AI 智能体的主要交互方式。借助 MAI-Voice-2 和 MAI-Transcribe-1.5，我们正在填补一些最关键的空白——正是这些空白，让通用模型一直无法进入企业级语音工作流。

MAI-Voice-2：一种声音，多种语言

MAI-Voice-2 新增了两项重要功能：身份保留和语音提示（voice prompting），并扩展到在单个统一系统中支持 15 种以上语言：

身份保留可重现特定人物独特的声音特征，使模型能够在不同市场中以该人物的身份”发声”——在确保获得相关授权并遵守适用法律法规的前提下，这对于一致的品牌化声音、本地化代言人和名人宣传活动、个性化数字助手以及无障碍解决方案非常有用。
语音提示以一段简短的音频样本作为语气、情感、口音、节奏和说话风格的参考，让开发者无需管理单独的语音库即可控制声音的表达方式。

这两项功能现在可在所有支持的语言中运行，因此单个克隆声音或参考风格可以自然地应用于不同市场，而无需为每种语言配备单独的系统。

MAI-Transcribe-1.5：更快、更准确的转录

MAI-Transcribe-1.5 进一步强化了 MAI-Transcribe-1 业界领先的速度和成本优势——根据 Artificial Analysis 排行榜，它现在的效率最高可达同类主流模型的 5 倍。它还新增了两项广受期待的功能：

实体偏置通过领域上下文（名称、品牌术语、行业词汇）为模型提供引导，使其能够正确转写专业词汇，而不是猜测最接近的常见拼写。这是我们客户强烈要求的功能，也是通用语音模型在体育、商业、医疗和技术工作流中长期存在的失败模式。
准确性的提升在企业每天运营的环境中依然稳健——交叉对话、背景噪音和长篇会议——而通用模型在这些情况下往往会出现漂移。在 FLEURS（涵盖 25 种语言的标准多语言基准）上，词错误率（WER）从9% 降至 3.7%，保持了我们在该基准上作为最准确模型的地位¹。

立即体验

立即在 Microsoft Foundry (国际版) 中体验这些模型：

MAI-Thinking-1：处于预览阶段，请在此处申请访问权限。
MAI-Image-2.5：可直接在Foundry 模型目录中获取。定价起步为文本输入每 100 万个 token 5 美元、图像输入每 100 万个 token 8 美元、图像输出每 100 万个 token 47 美元。
MAI-Image-2.5 Flash：可直接在Foundry 模型目录中获取。定价起步为文本和图像输入每 100 万个 token 1.75 美元、图像输出每 100 万个 token 33 美元。
MAI-Voice-2：通过Azure Speech 提供。定价起步为每 100 万个字符 22 美元。
MAI-Transcribe-1.5：通过Azure Speech 提供。定价起步为每小时36 美元。
在MAI Playground 中体验：在 MAI Playground 试用 MAI 模型。

参考资料

1在 FLEURS 基准测试的总体 WER 上排名第 1（详见上文 FLEURS 链接）。

标签: