Pure Storage推出Data Stream:AI数据管道加速器
创始人
2025-11-12 19:16:29

Pure Storage推出了DataStream,这是一个以GPU为核心、AI驱动的集成硬件和软件堆栈,专门用于AI数据管道。

Data Stream概述

Data Stream是运行在FlashBlade//S和英伟达Blackwell GPU硬件上的软件套件。它旨在自动化和加速企业AI管道中的数据摄取、转换和优化过程。Data Stream可视为Pure Storage数据平台的核心组件,专门针对企业推理用例,使用英伟达AI数据平台参考设计,并作为单一SKU提供。Data Stream充当智能编排层,通过自动化GPU加速处理和GPU对齐交付,确保数据为AI应用做好准备。

据Pure Storage官方博客介绍,Data Stream直接解决了企业AI项目中的"数据准备就绪危机",加速数据的可用性。

核心功能特性

自动化实时数据摄取和结构化:Data Stream能够从多样化的数据源摄取原始数据,包括文本文档、PDF、图像和结构化表格。它执行智能分块和转换,将内容划分为语义连贯的片段(如句子或段落),以保持上下文完整性和细粒度访问控制,同时最小化信息损失。该过程支持多协议访问(NFS、S3、SMB),能够处理数十亿个文件或对象,实现与内置向量数据库的无缝集成,在Pure Storage FlashBlade//S上提供可扩展存储。

英伟达NeMo集成:Data Stream编排从数据准备到模型推理的端到端工作流。NeMo Retriever支持GPU加速的向量嵌入生成,将原始数据块使用英伟达嵌入模型转换为高维语义向量。这些嵌入通过近似最近邻(ANN)算法、HNSW、IVF等方式促进高级相似性搜索,用于RAG管道中的检索。该集成支持英伟达NIM部署优化推理,通过标准化API在本地或云环境中进行扩展。

GPU优化管道加速:Data Stream使用英伟达RTX PRO 6000 Blackwell Server Edition GPU和英伟达软件库(如Spark Rapids和cuVS),以及ConnectX-7网卡实现低延迟网络存储访问。编排在存储层进行,元数据丰富和相关性重排等转换并行执行,大幅减少推理的端到端延迟。

最小化数据移动:通过在FlashBlade DirectFlash模块上本地处理增强功能(利用非易失性RAM进行全局元数据管理),Data Stream减少了数据移动开销。输出格式化为JSON、Apache Parquet或Arrow等结构,释放向量存储中的额外容量。这种方法支持PB级RAG数据集,能够独立扩展容量和性能以适应多个GPU集群而无需停机。

技术优势与应用价值

Pure Storage表示,智能查询增强等功能(用户输入被向量化并与数十亿个嵌入进行匹配)以及防护栏过滤,通过利用检索到的上下文来减轻大语言模型的幻觉或不当输出,从而提高大语言模型的准确性、相关性和安全性。

该公司声称Data Stream代表了"企业AI就绪数据消费的涡轮增压器,大幅减少了AI应用数据可用性的延迟和复杂性"。这使得"能够即时访问转换后的向量化数据,这些数据本质上为GPU中心架构进行了优化,意味着更多的推理和消费,而无需繁琐或复杂的操作"。

Data Stream目前可通过官网进行预览体验。

Q&A

Q1:Pure Storage Data Stream是什么产品?

A:Data Stream是Pure Storage推出的一个以GPU为核心、AI驱动的集成硬件和软件堆栈,专门用于AI数据管道。它运行在FlashBlade//S和英伟达Blackwell GPU硬件上,旨在自动化和加速企业AI管道中的数据摄取、转换和优化过程。

Q2:Data Stream如何解决企业AI数据准备问题?

A:Data Stream通过自动化实时数据摄取和结构化功能,能够从多样化数据源摄取原始数据并进行智能分块转换,支持多协议访问和数十亿文件处理。同时利用GPU优化管道加速和最小化数据移动技术,大幅减少AI应用数据可用性的延迟和复杂性。

Q3:Data Stream有哪些核心技术特性?

A:主要包括自动化实时数据摄取和结构化、英伟达NeMo集成支持端到端工作流、GPU优化管道加速使用Blackwell GPU和相关软件库、以及通过本地处理和向量化输出实现数据移动最小化,支持PB级数据集和多GPU集群扩展。

相关内容

热门资讯

弘信电子:依托“ALL IN ... 证券之星消息,弘信电子(300657)11月11日在投资者关系平台上答复投资者关心的问题。 投资者提...
2M大小模型定义表格理解极限,... 机器之心发布 机器之心编辑部 提到 AI 的突破,人们首先想到的往往是大语言模型(LLM):写代码、...
益阳新发现2800多处旅游资源 11月11日,湖南省旅游资源普查工作总结暨成果交流会在长沙召开。会议通报,益阳新发现旅游资源2863...
青州:多元新业态绘就文旅新图景 潍坊青州市深度挖掘城市文化底蕴与特色优势,以多元创新举措驱动旅游产业向高端化、品质化、特色化方向转型...
青岛机场迎来首批免办边检查验手... 11月12日,从曼谷入境的山东航空SC4080航班抵达青岛机场,2个小时之后便能抵达日本大阪。这是扩...