Cloudflare这家知名的安全和内容分发网络公司推出了一项名为"智能体专用Markdown"的新功能,当AI智能体请求网页时,该功能可以自动将网页从HTML格式转换为Markdown格式,最多可减少80%的Token使用量。
为什么需要这项功能?大语言模型难道不能读取HTML吗?当然可以,但从模型的角度来看,HTML是昂贵的噪音。
典型网页包含HTML格式元素如div标签,以及脚本和其他有效载荷,这些都会转换为模型必须"付费"读取的Token。大语言模型并不关心文本周围的这些标记,最终只会浪费额外的Token。
情况有多严重?Cloudflare自己发布这一消息的博客文章,以HTML渲染时需要16,180个Token。而转换为Markdown格式后仅需3,150个Token,节省了80%的Token使用量。这在推理成本方面是真正的节省。
Cloudflare通过在边缘实时进行HTML到Markdown转换来处理这一问题,适用于任何启用智能体专用Markdown功能的网站。当客户端包含Accept: text/markdown头部时,Cloudflare从源站获取原始HTML,将其转换为Markdown,并提供转换后的内容而不是完整的网页标记。该公司表示,像Claude Code和OpenCode这样的流行编程智能体已经发送这些头部,这意味着许多现有AI工具可以立即利用这一功能。
为了让内容更适合机器处理,Cloudflare添加了一个x-markdown-tokens响应头部,暴露Token数量,允许智能体确定文档是否适合其上下文窗口或必须分块处理。转换后的响应还包含内容信号头部(ai-train=yes, search=yes, ai-input=yes),表示发布者默认允许AI训练、搜索索引和智能体使用。
Cloudflare表示,未来版本将允许网站所有者自定义这些内容信号策略,超越当前的默认设置。
智能体专用Markdown依赖标准的HTTP内容协商,使用Accept头部来区分人类流量和AI爬虫或其他纯文本客户端。AI智能体可以通过发送Accept: text/markdown(通常与text/html一起)来请求Markdown,而常规浏览器访问继续接收正常的HTML页面。Cloudflare的边缘随后"即时"执行转换,无需对网站模板、CMS设置或单独的Markdown端点进行任何更改。
使用专业版和商业版计划的Cloudflare客户可以从Cloudflare仪表板的AI爬虫控制部分开启该功能,智能体专用Markdown在此显示为专用切换开关。相同的功能也可以通过Cloudflare API使用。
对于使用Cloudflare for SaaS的SaaS提供商,可以通过仪表板"快速操作"开关为所有自定义主机名启用Markdown转换,或使用自定义元数据和配置选择性地为每个主机名启用。
Cloudflare将Markdown定位为AI智能体的事实上的通用语言。Cloudflare远非唯一发现使用Markdown用于智能体和机器学习优势的公司。
例如,荷兰互联网企业家和WordPress开发者Joost de Valk拥有一个WordPress插件Markdown Alternate,该插件也适用于智能体。他写道,他的方法和Cloudflare可以协同工作。"WordPress网站可以使用Markdown Alternate获得丰富的、WordPress感知的markdown,具有专用URL和完整元数据,而Cloudflare的功能为其网络上的所有其他网站提供基准。插件为您提供控制和深度;Cloudflare为您提供广度和零工作量。"
还有更直接的竞争程序,如Fasterize EdgeSEO(AI机器人的Markdown)。这是一个边缘服务,可以为已知的AI机器人动态将HTML页面转换为Markdown,无需单独的.md URL。在这个领域的另一个Cloudflare竞争对手是Firecrawl。这是一个商业"AI网络数据API",用于爬取、抓取和规范化网站以供大语言模型使用。
对于构建消费网络内容的AI驱动工作流程的团队来说,某种形式的HTML到Markdown转换正迅速成为必需品。Cloudflare的边缘原生方法降低了入门门槛:网站所有者只需轻轻一点,每个页面都变得智能体就绪。
Q&A
Q1:Cloudflare的智能体专用Markdown功能是什么?
A:这是Cloudflare推出的一项新功能,当AI智能体访问网站时,自动将HTML网页转换为Markdown格式,可以减少高达80%的Token使用量,从而降低AI模型的推理成本。
Q2:为什么AI模型需要Markdown而不是HTML?
A:虽然大语言模型可以读取HTML,但HTML包含大量格式标记、脚本等"噪音"内容,这些都会转换成Token增加处理成本。而AI模型实际上并不关心这些标记,只需要纯文本内容。
Q3:如何启用Cloudflare的智能体专用Markdown功能?
A:专业版和商业版的Cloudflare客户可以在仪表板的AI爬虫控制部分找到专用切换开关来启用此功能,也可以通过Cloudflare API进行配置。启用后无需修改网站代码,功能会自动生效。
下一篇:没有了