6月23日消息,据外电报道,阿里云周日发布了HappyHorse 1.1,这是其AI视频生成模型的一次重大升级。
该公司表示,此次升级可在核心内容创作场景下提供可用于生产环境的视频合成。该模型现已在阿里云模型工作室上线,企业客户和开发者可访问完整的API,并且在上线后的前两周内,全站用户均可享受40%的折扣。
此次发布正值人工智能视频生成市场发生巨大变革之际——阿里巴巴似乎对时机把握得非常精准。OpenAI 在Sora项目被证明无法持续盈利后将其终止。字节跳动在好莱坞制片厂发起大量版权投诉后,无限期搁置了Seedance 2.0 的国际推广计划。
对于那些一直在评估或将这些工具集成到市场营销、广告和内容制作工作流程中的企业采购团队而言,短短几个月内,竞争格局就急剧缩小。
这种萎缩既为阿里巴巴带来了机遇,也带来了考验。HappyHorse 1.1并非研究演示或面向消费者的玩具,而是一款以API为先导的产品,旨在集成到企业软件栈中,采用批量定价策略,并依托527亿美元的全球基础设施建设。它能否将技术能力转化为企业应用,尤其是在中美科技紧张局势日益加剧的西方市场,将决定阿里巴巴能否在生成式视频市场站稳脚跟,成为该市场的重要参与者。
分析师预计,到本十年末,该市场规模将达到数百亿美元。
HappyHorse是如何从默默无闻的基准测试参与者一跃成为顶级视频模型的呢?
HappyHorse于4月初首次亮相于人工智能分析视频竞技场(Artificial Analysis Video Arena,AIVA),这是一个独立的基准测试平台,真实用户可以在该平台上对模型输出进行盲测和并排比较。该模型立即在文本转视频和图像转视频排名中均位列榜首。
随后,阿里巴巴被证实为该模型的创建者,并透露该模型由阿里巴巴旗下的ATH(Alibaba Token Hub)人工智能创新部门开发——该团队此前隶属于淘宝和天猫集团旗下的未来生活实验室,后因战略性组织架构调整而分拆。
据Arena.ai称,HappyHorse 1.0 目前在 Video Arena 的三大排行榜中均位列第二。
该平台指出,HappyHorse 1.0 在文本转视频和图像转视频两个类别中均获得 1444 分,在文本转视频类别中领先 Google 的 Veo-3.1(带音频)69 分,在图像转视频类别中领先 xAI 的 Grok-Imagine-Video 23 分。
在 Arena 等基于 Elo 等级的排名系统中,模型的得分取决于用户在直接比较中对其输出结果的偏好程度,这意味着持续两位数的领先优势反映的是人类评估者感知到的持续质量差距,而非统计上的偶然现象。
该模型的架构有助于解释其优势。根据社区编写的技术文档,HappyHorse 的核心是一个拥有 150 亿参数的统一自注意力 Transformer,它可以在单个标记序列中处理文本、图像、视频和音频标记。
与许多将视频和音频模型拼接在一起的竞争对手不同,HappyHorse 作为一个统一的系统运行,可以在一次生成过程中处理所有模态,从而无需第三方配音或音频后处理工具。对于正在评估总体拥有成本的企业买家而言,这种架构的简洁性直接转化为更少的集成点、更少的供应商依赖以及更快的生产部署时间。
1.1 版本升级修复了哪些问题——以及这对商业视频制作为何如此重要
1.1 版本升级旨在解决企业视频制作团队熟知的诸多痛点。阿里云将此次版本发布描述为“针对核心内容生成场景的系统性优化”,具体改进之处表明,该版本已针对商业部署而非病毒式社交媒体演示进行了优化。
最重要的升级是多图像参考功能,阿里巴巴称之为R2V(Reference-to-Video,参考到视频)。该功能允许用户上传多个角色参考图像,并在生成的视频中保持角色形象的一致性——直接解决了AI视频制作中最棘手的问题之一,即人物在不同帧或镜头之间的外观往往会发生变化。
对于制作广告宣传片、产品视频或系列营销内容的品牌而言,角色形象的一致性并非锦上添花,而是一项基本要求,过去正是这项要求迫使团队回归传统的制作方式。
动态质量得到了显著提升,阿里巴巴称之为“强化运动建模”,解决了之前在速度和流畅度方面的不足。该公司还针对视觉纹理进行了优化,特别指出消除了“面部油光”、“过度锐化”和“不自然纹理”等问题——这些问题自人工智能技术诞生以来就一直困扰着商业人工智能视频,并会立即让观众意识到内容是机器生成的。
此次发布还包括两项升级。
HappyHorse 1.1改进了音视频同步功能,包括阿里巴巴所称的对话场景“零漂移唇音同步”和上下文感知语音节奏控制——在 1.0 版本已具备的显著功能基础上进一步提升,该功能可生成长达 15 秒的 1080p 视频并实现音频同步输出。此外,该模型还改进了对冗长复杂指令的执行能力,这对于需要一次性精确指定镜头运动、光照条件和叙事节奏的企业用户而言至关重要,因为他们无需反复尝试数十次。
Sora的倒闭和Seedance的停滞让企业买家的选择比以往任何时候都少。
此次产品发布所处的竞争环境对阿里巴巴来说异常有利,值得探究其原因。
OpenAI 的 Sora 网页版和应用程序已于 4 月 26 日停止运营,Sora API 也于 9 月 24 日停止服务。此次停运是由于该产品在财务上难以为继:Sora 的日运营成本约为 100 万美元,但总收入仅约 210 万美元,活跃用户数也从接近 100 万的峰值骤降至不足 50 万。
对于已将 Sora 集成到生产流程中的企业团队而言,此次突然停止运营凸显了依赖缺乏可持续商业模式的 AI 产品所带来的风险——采购人员恐怕很难轻易忘记这一警示。
字节跳动的Seedance 2.0被许多人视为 Sora 最强劲的继任者,却遭遇了截然不同的困境。Netflix、华纳兄弟、迪士尼、派拉蒙和索尼指控字节跳动系统性侵犯版权,原因是用户制作了包含好莱坞知识产权的病毒式传播视频。字节跳动无限期推迟了国际发布,全球推广至今仍处于暂停状态。
这样一来,谷歌的 Veo 3.1就成为了企业级视频生成领域西方的主要竞争对手。但阿里巴巴 Arena 的排名显示,HappyHorse 在用户感知质量方面优于 Veo,而且阿里云模型工作室提供的 40% 首发折扣可能会让 HappyHorse 在规模化应用时更具成本效益。
在 1.0 版本中,通过第三方 API 平台,720p 分辨率下每 10 秒视频的定价约为 1.82 美元,1080p 分辨率下约为 3.12 美元。凭借此次促销价格,HappyHorse 1.1 有望让那些此前认为这项技术过于昂贵而仅限于实验的中型企业和机构也能负担得起制作级 AI 视频生成功能。
阿里巴巴斥资 527 亿美元投资基础设施,使 HappyHorse 拥有竞争对手无法匹敌的分销优势。
HappyHorse 1.1并非孤立存在。它依托于阿里巴巴的全球基础设施建设战略,这使阿里巴巴区别于那些技术精湛但缺乏规模化服务于受监管企业客户的实体和商业机制的纯粹人工智能公司。
在HappyHorse 1.1版本发布前五天,阿里云在法国开设了首个数据中心,继德国和英国之后,建立了其在欧洲的第三个数据中心。巴黎地区拥有两个可用区,使阿里云的全球可用区数量达到105个,覆盖32个区域。
阿里云首席技术官兼国际业务总裁李飞飞博士在公司公告中表示:“我们在法国扩展云基础设施,进一步巩固了我们致力于为欧洲企业提供自主、安全、智能解决方案的承诺。” 在日本,阿里云于6月19日在东京开设了其第五个数据中心。
据Data Center Dynamics报道,阿里巴巴集团首席执行官吴谨森承诺投资 527 亿美元构建“统一的全球云网络”,并表示公司之后正在考虑将投资额提高至 690 亿美元。
仅今年一年,阿里巴巴就已在墨西哥、泰国、马来西亚柔佛州和法国推出了新的云区域。在法国的部署也是阿里云计划的一部分,该计划旨在下半年在欧洲全面推出企业级智能代理 AI 服务,包括AgentRun(AI 代理开发平台)、STAROps(智能运维平台)和ACS Agent Sandbox(为代理工作负载提供硬件级安全隔离)。
对于像HappyHorse这样的产品而言,基础设施建设具有双重意义。运行一个包含150亿参数并集成音频的视频生成模型需要极高的计算能力,而本地基础设施可以降低企业API调用的延迟,同时确保客户数据符合监管要求。
对于在欧盟委员会于6月3日发布的新技术主权框架下运营的欧洲买家而言——该框架的明确目标是保护欧盟的“数字独立”——在本地托管的基础设施上运行AI视频生成工作负载的能力不再是锦上添花,而是日益成为一项合规要求。
随着人工智能视频市场整合,企业团队应该关注哪些方面?
HappyHorse 1.1对企业团队的实际意义重大。HappyHorse 支持四种生成模式——文本转视频、图像转视频、主题转视频以及新增的视频编辑——涵盖了从创意构思、制作到后期制作的整个商业视频需求流程,所有功能均集成音频,无需额外费用。如此强大的功能通过单一 API 接口实现,简化了以往分散且成本高昂的制作流程。
未来的关键在于,阿里巴巴能否将标杆优势和竞争优势转化为持久的企业合作关系。该公司计划通过阿里云模型工作室发布HappyHorse,并提供完整的企业级服务水平协议(SLA)、安全认证和区域合规性——这些是区分科研突破和生产级服务的基本要素。值得关注的是客户披露信息、使用指标,以及fal.ai和Atlas Cloud等第三方平台(它们已经托管了HappyHorse 1.0)是否会迅速升级到1.1版本,这将表明阿里巴巴自身生态系统之外的开发者也对HappyHorse有真正的需求。
进入2026年,人工智能视频生成市场原本有三家实力雄厚的企业级竞争者。其中一家已经退出市场,一家发展停滞,而唯一一家仍在坚守的是一家中国公司,该公司拥有527亿美元的基础设施投资,在所有主要独立基准测试中均排名第二,并且向所有愿意投资的人提供40%的折扣。在企业技术领域,最好的产品未必总是最终的赢家——但当竞争对手已经退出市场时,它很少会输。