微软发布首批自研AI模型，解锁配音新技能_学习资源

创始人

2025-09-01 06:13:31

前两天，微软人工智能部门发布了首批自主研发的人工智能模型，包括MAI-Voice-1 语音模型和 MAI-1-preview通用模型。

据介绍，全新 MAI-Voice-1 语音模型仅需单块 GPU 即可在不到一秒的时间内生成一分钟的音频，而 MAI-1-preview 则“展现了 Copilot 未来产品的雏形”。

目前，微软已将 MAI-Voice-1 应用于多项功能中。

例如，在“Copilot Daily”功能里，AI 主持人会通过该模型播报当日热点新闻；同时，它还能生成播客风格的对话内容，帮助用户理解各类话题。

同时，普通用户可在 Copilot Labs 平台亲自体验 MAI-Voice-1：不仅能输入希望 AI 表达的内容，还可自定义语音音色与说话风格。

此外，微软在 Copilot Labs 推出全新 AI 语音生成工具 Copilot Audio Expressions，可通过 Emotive 和 Story 两种模式生成更具情感的英文语音。

据了解，Copilot Audio Expressions 是一款 AI 语音生成工具，功能是让输出的音频更接近真人，并可根据需求加入创意润色。

用户无需注册即可直接体验，并可下载 MP3 格式音频，方便在任何设备播放。

有媒体在测试 Emotive 模式后，选用“Oak”音色和“narration”叙述风格，将模拟火车站的脚本输入系统。

生成的音频不仅朗读了文字，还自动增添细节、调整措辞，让表达更生动。单段音频最长 59 秒，支持十余种声音与风格组合。

而在 Story 模式下，系统自动选择音色和风格，用户仅需提供主题提示。

测试结果表明，Story 模式在情节构建、角色区分及声音融合度方面表现出色，输出的成品不像单调的机器朗读，更像是一次配音合作，让该工具不仅适用于简单朗诵，也可胜任有多角色的创意作品制作。

除这款语音模型外，微软此次同步推出的 MAI-1-preview 模型，训练过程动用了约 1.5 万块英伟达 H100 GPU。

该模型专为特定需求用户设计，具备遵循指令的能力，可“为日常咨询提供实用回应”。

据悉，微软 AI 计划将 MAI-1-preview 模型应用于 Copilot 助手的特定文本使用场景（目前 Copilot 主要依赖 OpenAI 的大型语言模型）。同时，该模型已开始在 AI 基准测试平台 LMArena 上进行公开测试。

微软表示，公司内部的人工智能模型并不专注于企业应用场景。