生成式 AI 帮助工程师挖掘隐藏在非结构化数据中的深层洞察
创始人
2026-02-25 16:19:50

您是否知道,生成式 AI(GenAI)可以帮助工程师在几秒钟内诊断汽车故障,甚至在设备出现问题之前预测潜在失效?GenAI 正在通过加速数据分析和算法开发,让这些场景从设想走向现实,使工程师能够充分发挥专业知识,挖掘可执行的洞察。

工程团队每年都会产生数 TB 级的数据。根据 Gartner 的估算,其中多达 80% 属于非结构化数据。服务记录、研究论文和技术人员记录中蕴含着关键的组织知识,但由于格式不一致,难以有效解析。GenAI 工具能够帮助工程师整合结构化与非结构化数据,实现过去难以大规模开展的分析工作。对工程师而言,这意味着更快速的故障排查、更高效的设计流程以及更快的技术发现。

工程师在使用 GenAI 时的盲区

尽管 GenAI 在重塑工程工作方面具有高度灵活性,但其能力与工程师日常使用方式之间仍存在差距。许多工程师仍将 GenAI 主要用于编写基础代码或生成文档,而不是将其应用于更高级的工程流程。

为更好地了解工程师对 GenAI 的态度及其实际应用情况,MathWorks 于 2025 年 12 月在社交媒体上进行了一项非正式投票。反馈结果揭示了多项重要洞察,包括:

  • 83% 的工程师至少每月使用一次 GenAI,其中最常见的应用场景是“编写代码”和“文档与报告生成”。
  • 工程师对 GenAI 的最大担忧是其与现有工作流程的整合(46%)。在拥有六年以上经验的工程师中,这一比例更是升至 75%。

这些数据表明,大多数工程师已经在使用 GenAI,但尚未将其应用于战略性工程任务。希望提升 GenAI 使用能力的工程师应考虑将其用于准备和分析非结构化数据。

利用服务手册、工程文档和维修记录构建面向技术人员的聊天助手

汽车故障排查通常需要在不同品牌和车型中诊断复杂问题。尽管大语言模型(LLM)包含大量公开的汽车知识,但它们缺乏细节丰富的品牌专属信息。为弥合这一差距,塔塔汽车的工程师采用了一种名为检索增强生成(RAG)的 GenAI 技术,将 LLM 的通用知识与内部专有数据结合,从而生成具有上下文针对性的建议。

工程师利用 RAG 开发了一个具备上下文感知能力的聊天助手,能够检索内部文档并基于这些内容生成故障排查回复。他们使用 MATLAB® 构建了 RAG 工作流程,使其应用(称为 ServiceSage)可以搜索服务手册、工程文档和维修记录。当技术人员向 ServiceSage 提问时,问题会被转化为 GenAI 能理解的数值表示,系统随后查找最相关的文档。由于 RAG 执行的是语义搜索,问题的具体措辞并不关键,它会根据相关概念进行推断。相关文档随后被输入 AI 模型,模型将其与通用知识结合,生成清晰、可理解的回答。

这种方法具有成本效益且可扩展,无需进行昂贵的模型再训练,并能处理大量此前未被充分利用的文本数据。借助该方法,团队能够快速识别根本原因,提供上下文相关的指导,并缩短维修周期。通过 GenAI,工程师可以高效分析大量文本数据,并将其融入故障排查流程中。

利用全球与历史科研资料推进食品科学发现

科学研究通常涉及跨越数十年、来自多个地区的大量论文,想要系统梳理某一主题的所有研究或找出其中潜在联系,若无先进工具几乎不可能。哥本哈根大学的食品科学研究人员在分析庞大资料寻找主题关联时面临这一挑战。LLM 虽然能够总结单篇文献,但难以在海量数据中梳理整体关联。为解决该问题,研究人员在使用 LLM 前,将 GenAI 与传统技术相结合——如文本预处理与清洗、信息提取等——为非结构化文本建立结构。

哥本哈根大学团队在整个流程中多次使用 GenAI,包括:

  1. 清理并标准化了数千份格式不一致的 PDF 文件。
  2. 在元数据缺失时自动生成关键字。
  3. 将文本转换为词元(tokens),并标记异常长的词语,以识别隐藏在文中的化学物质名称。
  4. 将论文拆分为段落和关键字后构建知识图谱。图谱中的每个节点代表一个段落或化学名称,节点之间的连接则体现主题之间的关联。

随后,团队使用 MATLAB 对该数据集应用图论方法,识别各概念之间的关联路径。接着,他们将这些结构化的文本子集输入 LLM,由模型生成摘要并解释不同主题之间的关系——这些关系若由人工分析,可能需要数周时间。最终,他们构建了一套能够将分散研究转化为可执行洞察的流程,大幅加速了食品科学研究的推进。

尽管 GenAI 带来了显著价值——研究人员通过该流程节省了数天的人工处理时间——但成功仍高度依赖人工判断与手动工作。团队在将数据输入 GenAI 之前投入了数百小时进行实验与数据准备。通过反复试验,他们才确定将文本按段落进行切分最为有效,因为 GenAI 无法自动作出这种判断。GenAI 的强大之处只有在具备高质量数据和严谨工程方法的前提下才能充分发挥。

将维护数据转化为前瞻性洞察

传统的预测性维护(PdM)主要依赖传感器的数值数据,用来跟踪温度、振动、压力等变化,以捕捉设备故障前的异常模式。许多组织还会收集维护日志和技术人员记录等文本信息,这些内容能够提供传感器无法捕捉的关键背景,例如故障症状、维修过程以及可能的根因判断。

生成式 AI 帮助工程师处理来自设备日志和服务记录的非结构化数据,从而改进预测性维护流程。

文本信息并不能取代传感器数据;工程师可以利用 GenAI 将其标准化,使其能够与传统信号协同使用。例如,GenAI 可以总结维护记录、统一不一致的术语,或标注关键事件(如组件故障或重复出现的故障类型)。这些标注数据随后可与时间序列传感器数据对齐,为 PdM 模型的开发提供更清晰的目标与上下文。

生成式 AI 帮助技术人员将服务记录与传感器数据结合,以更快速、更准确地完成汽车故障诊断。

GenAI 还可以支持工程流程的其他环节。工程师可以使用它起草和优化用于数据清洗、特征工程或探索性分析的代码,也可以用它评估不同的建模方法。然而,领域知识在整个过程依然至关重要。只有经验丰富的工程师才能判断特征是否具有物理意义、模型行为是否符合系统动力学,以及输出结果是否反映真实的故障模式或只是数据噪声。

与所有 PdM 方法一样,基于 GenAI 的工作流程在部署前需要经过严格验证。一个在原型或小规模测试集中表现良好的模型,未必能够应对真实环境中的多变条件。工程师应使用具有代表性的数据集进行验证,对模型进行多工况压力测试,并加入确定性检查以确保其健壮性。这些最佳实践适用于所有 PdM 方法,无论是否包含 GenAI,再次强调成功的 PdM 不仅依赖先进工具,更依赖扎实的工程判断。

工程师们仍只触及 GenAI 的表层

与任何工具一样,GenAI 应在方法论指导下使用,而非被泛化应用于所有问题。当任务涉及大量非结构化数据,或需要处理语言驱动的输入时,GenAI 的价值最为突出。工程师需要战略性地整合 GenAI,拓展领域专业知识,并思考如何在自身的设计方法中切实应用这一工具。

作者:Seth DeLand, MathWorks 产品市场经理

相关内容

热门资讯

原创 谭... 近年来,越来越多的香港明星选择来到内地旅行,探索这片辽阔的土地。尤其是一些知名景点,成了他们常常光顾...
景洪市强化春节假日旅游接待服务... 马年新春佳节,景洪市全力抓好旅游接待服务和安全保障工作,保驾护航“最长春节假期”。 为做足各项准备,...
辽宁春节假期盘点:从年味里看活... 在刚刚过去的马年春节假期里,辽宁迎来了出行热、旅游热、消费热,到处是热气腾腾的新春场景。 春节九天假...
原创 章... 前段时间,汪峰带着女儿醒醒在三亚度假,没想到,章子怡和她的家人也恰巧在三亚度假。其实,来三亚度假的明...
拉萨几月份去最好?避开旺季、风... 拉萨几月份去最好?避开旺季、风景绝佳、人少的秘密月份 很多想来拉萨的朋友都抱着同样的期待:既想看到最...