生成式AI的伦理治理与媒体应用
创始人
2026-01-21 19:48:44

本文从信任机制与结构性偏见两方面入手,探讨人类为何倾向相信AI输出及其偏见生成逻辑,并以新闻生产为例,提出从输入、生成到输出端的多层偏见防控机制,为生成式AI的伦理治理与媒体应用提供制度化路径与实践框架。

大语言模型(LLM)正深刻重塑信息传播与知识生产的格局。然而,人们对其输出的高度信任并非源于模型的真实可靠性,而往往来自语言形式与社会线索诱导的“信任错觉”。与此同时,LLM的偏见并非技术偶发现象,而是政治经济结构、数据分布与算法设计共同作用的系统性结果。本文从信任机制与结构性偏见两方面入手,探讨人类为何倾向相信AI输出及其偏见生成逻辑,并以新闻生产为例,提出从输入、生成到输出端的多层偏见防控机制,旨在为生成式AI的伦理治理与媒体应用提供制度化路径与实践框架。

一、为什么人们容易相信

大型语言模型的内容

人们相信AI并非因其真正可靠,而是因为语言形式与社会线索诱导了“信任错觉”。“形式信任”指由语言流畅性、专业化表达、拟人化信任与自动化偏差等外在形式特征所引发的信任。“社会认知偏差” 则涵盖了人们在社会影响、群体共识与启发式判断下的从众式信任机制,即社会证明与群体一致性。

(一)表达流畅与权威感

研究表明,大型语言模型(LLM)的语言流畅性与专业化表达对用户的信任判断有显著影响。当模型生成的文本在逻辑上清晰、语气坚定、自信,且使用了专业术语或正式表达时,用户往往会把它当作来自“专家”的内容,从而产生较高的可信感。换言之,即使用户对模型的内部机制或知识来源一无所知,只要输出的语言形式足够“像专家”,他们就更倾向于相信内容是真实的。AI的“权威语气”不仅影响用户的信任判断,还可能重塑他们的风险感知和批判性思维。实验发现,当模型以自信、流畅且逻辑严谨的方式表述内容时,用户更容易忽视其潜在的不确定性或错误信息。用户在处理AI输出时,往往依赖快速的心理捷径,而非深度的理性评估。语言形式的专业化成为一种“信任信号”,能够暂时替代事实核查的认知过程。这种现象在医疗、法律及政策咨询等高风险领域尤为突出——模型以专家化语言进行回答时,其话语形式足以使用户产生“它不会错”的心理假设。[1]

(二) 领域专业化的感知

在医疗、法律及金融等高风险决策领域,大型语言模型(LLM)的“专业化表达”往往被用户误认为是其具备真实专业能力的表现。也就是说,当模型在回答中使用了规范的专业术语、引述格式或结构化论证时,用户容易产生“它懂行”的直觉判断,从而提升对模型的信任程度,即便他们意识到AI可能存在错误或局限性。这种“语言迷惑”(bewitchment),并非源于模型真正具备理解或推理能力,而是来自其在符号层面模仿人类专业话语的能力。模型通过复现学术写作的语体、严谨的逻辑衔接以及引文格式,成功地激活了人类交际中“理解即沟通”的预设,从而让用户在心理上将形式的专业化等同于实质性的专业知识。这种错觉在高风险决策领域尤为危险:当 LLM 以临床术语解释病情、以法律条款分析案件或以金融指标预测市场时,其文本的表面可信度可能掩盖了事实性错误或推理缺陷。结果是,用户即便在理性层面上明白“AI会犯错”,也容易在情感层面给予其不应有的信任。正因如此,理解这种由语言形式触发的“伪专业信任”机制,对于建立有效的AI风险治理与人机协作规范至关重要。唯有在设计与使用中引入对“语言幻象”的批判意识,才能防止语言流畅性被误读为真实专业能力,从而在伦理与安全上守住高风险领域的底线。[2]

(三)心智状态投射与拟人化信任

用户对大型语言模型(LLM)的信任并不单纯取决于模型输出的内容质量,还深受心理状态与信念体系等主观因素的影响。换句话说,人们在与AI互动时,不仅评估其信息是否正确,还会在潜意识层面赋予系统“人性化”的特征,从而影响信任判断。人类在与AI对话的过程中常出现一种被称为“心智状态投射”(mind attribution)的心理现象。也就是说,用户会将理解、意图甚至情感等人类心智特征投射到AI系统身上,仿佛AI具有自己的意识或动机。当模型使用拟人化的表达方式(例如使用“我认为”“我理解你的感受”)时,这种心理倾向会显著增强,促使用户更容易相信模型具备“思考能力”与“善意意图”。研究者将这一现象称为“拟人化信任”(anthropomorphic trust)。这种信任并非基于逻辑或事实验证,而是源于人类对社会性互动的天然偏好。当AI以对话、共情或类人语气回应时,用户会不自觉地将其视为一个“有心智的合作伙伴”,从而产生更强的信任与依赖感。因此,人-AI互动甚至能够改变个体的情绪与社会判断,使人更倾向于维持一种“合作性信任”(cooperative trust)关系。[3]

(四)自动化偏差

自动化偏差(automation bias)是一种广泛存在于人机交互过程中的心理现象,当一个AI系统以流畅、确定、条理清晰的方式呈现信息时,用户往往会默认它已经“正确完成任务”,而不是主动质疑其结论是否准确或逻辑是否成立。在信息量庞大、任务复杂或时间有限的情境中,用户更容易出现所谓的认知卸责,即主动将部分判断与责任转移给AI系统,以减轻自身的思考压力。这种心理机制虽然在短期内能提高效率、降低决策焦虑,但也让人更容易陷入“自动化幻觉”,即把AI输出视作最终答案,而非一个需要验证的参考信息。人类在面对高效、快速、结构清晰的AI系统时,会产生一种“效率启发式”(efficiency heuristic)倾向:当系统运行流畅、反应迅速且输出连贯,人们会将这种“操作效率”误解为“认知正确性”的指标。这种效应尤其体现在大型语言模型中:其“高语言流畅度”“逻辑连贯性”与“即时响应”形成了认知上的“真实性幻觉”,从而削弱了用户的事实核查意愿与怀疑态度。[4]

(五)社会证明与群体一致性机制

社会心理学视角认为,人类在面对信息不确定时,倾向于根据他人的反应或社会信号判断信息是否可信。当某个AI系统被广泛使用、拥有高评价或被权威机构采用时,用户会自动假设其输出更值得信赖。社会认同信号在AI信任建构中具有显著的心理影响力。当用户得知某一AI系统“被广泛使用”或“获得专家认可”时,往往会通过社会参照机制(social referencing)来弥补自身信息不足所带来的不确定感。这种“社会证明效应”不仅提升了AI的感知可信度,也在潜移默化中塑造了用户对AI的情感依附与接受意愿。AI的社会声誉与使用规模正成为一种“心理背书”,这种基于社会线索的信任机制可能导致“集体信任偏误”,使用户在无意识中放松对AI判断与输出的批判性审视。[5]

二、大型语言模型的结构性偏见机制

大型语言模型(LLM)的偏见并非偶然,而是源于其背后的政治经济结构与技术逻辑的系统性产物。从数据采集到算法训练,再到商业部署,每一环节都潜藏着价值取向与权力分布的不平衡。现从五个维度——中心化趋势、训练语料、算法对齐、偏见再生产与商业逻辑——系统揭示LLM偏见的生成机制,提出AI“中立性”背后的结构性偏向与治理挑战。

(一)中心化趋势与偏见风险

近年来,AI基础设施的集中化趋势已成为大型语言模型(LLM)偏见的重要结构性根源之一。随着计算资源、训练数据与模型架构的极度集中,全球AI研发能力正逐渐掌握在少数科技巨头如(OpenAI、Google、Anthropic、Meta与Amazon)手中。这种技术与资本的集中不仅意味着创新资源分布不均,也导致知识生产权与话语权的垄断化。AI产业的“政治经济中心化”使得模型的开发与部署过程不可避免地反映出特定经济集团的价值体系与战略利益。例如,研究议题选择往往倾向商业化方向,而非社会公共利益,算法设计与内容过滤机制也更容易服务于资本逻辑而非科学中立性。这种集中化趋势不仅重塑了AI产业的权力格局,也在深层次上改变了技术知识的生成方式。大型语言模型的发展依赖于高昂的算力与大规模专有数据集,这使得只有拥有巨大资本和基础设施的企业才能承担训练与维护成本。结果是,AI研究的议程、模型的训练语料与性能评估标准都在逐步被少数企业的商业与伦理立场所塑造,使AI知识体系越来越封闭于企业利益之内。

(二)训练语料偏差与数据主导性

训练语料是大型语言模型(LLM)最根本也是最深层的偏见来源。LLM在预训练阶段依赖数以万亿计的文本数据,包括网络内容、新闻报道、学术出版物以及社交媒体信息等。这些数据并非中立或随机采样的集合,而是深受社会结构、文化中心与经济利益影响的产物。主流媒体与学术出版物通常代表社会中具有更强话语权的群体,因此在数据分布中占据主导地位,而边缘群体、少数族裔与非西方知识传统则被相对忽视或系统性排除。这种“数据中心化”结构导致AI在生成内容时,会无意识地复制和强化主流社会的价值观与意识形态。例如,在医学、政治、性别议题或地缘冲突等领域,模型更倾向于采用来自西方学术界或主流媒体的叙事框架。此外,数据清洗与过滤机制在模型训练中的应用也进一步放大了这种偏差。为了“提升质量”与“降低有害内容风险”,开发者往往使用算法过滤掉被视为“非标准”“非科学”或“语义不规范”的文本。然而,这一做法在客观上剔除了大量体现文化多样性、方言语汇与非主流思想的资料。例如,来自草根论坛、地方语言文学或民间知识的表达,常被排除在训练集之外。结果,模型学习到的所谓“常识”实际上是一种主流社会知识结构的统计投影,而非真正意义上的客观中立。因此,LLM的“中立性”是一种统计幻觉(statistical illusion),AI的“智能”在本质上仍是一面镜子,映照的不是世界的真相,而是世界中占主导地位的叙事方式与价值体系。[6]

(三)算法与对齐机制偏差

除了训练语料外,大型语言模型的算法结构与对齐机制(alignment process)同样是偏见的重要来源。为了让模型的回答“更像人类”,开发者通常采用一种名为人类反馈强化学习(Reinforcement Learning from Human Feedback,简称 RLHF)的技术。这一过程的核心逻辑是:让人工标注员评估多个模型回答的“优劣”,并将他们的偏好反馈给算法,从而指导模型在未来生成更符合人类期待的内容。虽然这一机制显著改善了AI的可控性与用户体验,但它也无可避免地在模型中嵌入了人为价值观与文化取向。RLHF中的“人类反馈”实际上来自一小部分标注员或企业内部团队,他们的文化背景、教育程度、政治立场与职业环境都会影响模型的学习方向。例如,当标注员在两段回答之间进行选择时,他们往往倾向于语言礼貌、逻辑清晰、政治中立的回答,而不太会选取内容激进、语气情绪化或带有文化差异的表达。结果,模型的输出风格逐渐被“规范化”——听起来圆润、安全,却也在无形中丧失了多样性与异质性。因此,RLHF的本质并非单纯的技术优化,而是一种“价值塑造”过程,同时构成了算法性审查。模型会主动避免生成被视为“冒犯性”或敏感的话题,即便这些内容在学术或社会讨论中具有合法价值。这种“温和化”趋势让AI在公共讨论中显得更“安全”,却也使其更可能再现人类社会中的意识形态偏差。在高风险领域,如政策分析、医学伦理或社会议题中,这种机制甚至可能放大已有的不平等结构,使AI成为人类偏见的结构性复制者。[7]

(四)偏见的放大与再生产

LLM的对话式交互机制天然具备偏见再生产的潜质,因为用户输入往往带有隐性假设与语义框架,模型在生成回答时会倾向于迎合输入语境,以提高“相关性”和“流畅度”评分。这种互动过程使得模型在无意识中确认并强化用户的立场,从而形成算法回音室效应,即模型与用户相互塑造出单向的信息循环,削弱了认知多样性与异议空间。这一现象在社交媒体分析、政治舆情、健康传播等领域尤为明显:当模型在面对有倾向性问题时,其输出不仅反映数据分布的偏差,更通过语义强化机制将这些偏差扩散到新的语境中。[8]这在一定程度上印证一些学者从语言哲学的角度提出的著名的“随机鹦鹉”(stochastic parrots)隐喻,指出LLM本质上并不理解语言,而是通过统计概率学习模仿语言的表面模式。[9]由于其生成逻辑基于最大似然估计(maximum likelihood estimation),模型会倾向输出高频率的表达,从而在统计上偏向主流叙事与强势文化。换言之,模型的“语言流畅性”恰恰掩盖了其“语义偏差性”:在看似中立、连贯的输出下,实际上复制了数据集中存在的刻板印象、性别偏见与文化中心主义。这一机制不仅使偏见在训练到推理阶段得以延续,更在大规模部署后,通过与人类语言实践的互动被再生产和社会化。随着用户越来越依赖AI进行内容生成与决策支持,这种偏见的“自我传播性”呈现出指数级扩散趋势,使AI从偏见的被动载体转变为主动放大器。因此,偏见放大与再生产并非偶发现象,而是源自语言模型的统计本质与社会交互逻辑的系统性结果。

(五)经济优化与商业逻辑偏见

主流模型的优化目标并非单纯追求语言的真实性或多样性,而是与平台的商业可行性与市场逻辑紧密耦合。换言之,模型生成的“知识”本身被纳入了资本运作体系,成为可被优化、包装与变现的产品。生成式AI优化函数受用户行为数据驱动,模型更倾向生成“吸引注意力”“情感参与度高”的内容。这一经济优化机制会放大商业偏见(commercial bias)与信息偏见效应(informational bias)。这种偏向在无形中削弱了AI输出的批判性,使其在知识生产层面延续主流经济叙事(如消费主义、技术乌托邦、市场理性假设),而非质疑或反思这些结构。更为隐蔽的是,经济优化偏见通过反馈学习机制实现自我强化。平台在部署阶段根据用户互动数据微调模型参数,使其更贴合主流消费者群体的兴趣与偏好。[10]这一“商业自对齐”(commercial self-alignment)过程意味着:少数族群、学术思辨与反市场视角的表达在长期互动中被系统性削弱或过滤。最终结果是,AI生成内容呈现出表面去政治化,实则深度契合资本逻辑。因此,经济优化偏见不仅是算法问题,更是一种结构性资本偏见(structural capital bias):它通过利润导向的优化目标,使AI从知识生产者转变为市场话语的再生产者。这一机制对公共知识多样性构成潜在威胁,也呼吁在AI治理层面引入“反商业偏见审计”(anti-commercial bias audit)与公共利益导向的优化策略。

三、新闻生产中大语言模型偏见防控机制

生成式AI正在重塑包括中国在内的全球媒体的内容生产与业务形态。媒体机构正通过大语言模型(LLM)全面重塑内容生产与传播流程。从选题策划到成稿发布,LLM支撑跨源资料检索、脉络分析与数据筛选,提升新闻前期准备效率;在采访与翻译环节,模型助力多语种语音转写与要点提炼,加快稿件整理;在写作与分发阶段,LLM参与导语、正文、标题及多平台文案的生成,并辅助SEO(搜索引擎优化)与个性化推荐,在AI或推荐系统中,SEO常被用于提升模型生成内容的可见性或增强内容分发效果,以便算法更精准地将内容推荐给目标用户;视觉与视频生产中,模型用于图像构图、脚本创作、字幕配音及虚拟呈现;而在数据新闻和档案整理中,LLM则支持结构化摘要、时间线与知识图谱生成,为深度报道提供底层支撑。总体而言,媒体正形成“人机协同、人工把关”的生产机制,以确保效率提升与专业伦理并行。

在新闻生成的全过程中,偏见控制应当从输入端、生成端与输出端同步展开,构建系统性的防御体系。

其次,在写作与编辑阶段,应将偏见“挡在生成端”。应确立“人写—机辅—人审”的硬性规则,即生成式草稿必须由署名记者先行起稿或制定框架,模型仅可执行改写、标题优化与SEO辅助,最终稿件须经编辑复核。国内外多家机构的公开标准均明确指出,AI生成内容不得单独构成可发布新闻。针对敏感议题,还应采用“多模型交叉与少数报告”机制:不同供应商、不同的模型各自生成要点清单,由编辑合并后审阅,并要求模型显式标注不确定性或信息缺口。此外,语气与措辞规范也是生成阶段防偏见的关键。为防止LLM的“权威语气”放大效应,应对带立场或群体属性的句子进行统一改写,使其回归可核查的事实与引述,避免使用带有价值判断的形容词,如“极端”或“激进”。所有参与生成的步骤须在最终发布中公开披露,说明AI在内容生产中所起的作用及编辑把关方式。

第三,在核查与发布阶段,应将偏见“挡在输出端”。针对敏感内容的稿件,需通过“三道门审核”,即事实核验(由人类与数据库联合完成)、偏见体检与风险评估。偏见体检可通过一套标准化问表执行。例如,是否呈现主要对立观点、是否避免将统计相关性误写为因果、是否存在群体标签与负性形容词捆绑、图片与视频是否标明来源或合成属性,以及是否提供供读者进一步核查的原始数据或链接等。对历史暴行、仇恨言论及族群或宗教等高敏议题,还应增加深伪与语义歪曲风险的核查程序。

第四,在工具与流程层面,应当将去偏见工作制度化。新闻机构可建立“AI使用台账”,记录模型名称、版本、提示语、人工修改要点及最终责任人,以便追溯与复盘。此外,应开发提示语模板库,用于规范性地执行观点均衡、刻板印象拦截与不确定性披露。例如,在生成要点时强制要求模型列出与主流观点相反的三点意见,并提供出处与待核查清单;或在稿件审阅中标识将群体特征与负面评价绑定的表达并给出中性改写。机构还应主动向公众公开AI使用原则,包括使用场景、责任分工与监督机制,以使受众了解其AI介入的边界。研究表明,受众对“幕后型”AI应用(如检索、转写、配图构思)普遍持接受态度,但对“前台写稿”则存在显著的信任警惕。

第五,在图片、视频与音频的生成与发布环节,需将合成内容与真实内容清晰区分。应落实“披露+区分”的三件套标准,即显著标注、解释AI参与程度,并提供原件或元数据链接。同时,应建立“先验黑名单”,禁止AI用于重演真实受害者、伪造公权力人员言行,或以AI生成图像替代灾难现场新闻图。

最后,从组织层面确立“AI不能做”的底线十分关键。例如,AI不得参与独家爆料的事实认定、涉案与儿童报道的当事人刻画,或标题中的定性判断。机构可设立“AI标准编辑”岗位,专责维护模板、抽检偏见、追踪国际最新标准,并定期更新体系。通过上述多层机制的构建与落实,新闻行业可在生成式AI时代中形成一个可追溯、可核查且具透明度的内容生产体系,实现偏见控制的制度化与责任化。(作者系中共深圳市罗湖区委党校教授。本文为深圳市哲学社会科学规划2025年度共建课题“海外社交平台舆情感知与深圳国际城市形象数据智能传播系统构建研究”〈项目编号:SZ2025D025〉的研究成果)

注释

[1]Metzger L., Miller L., Baumann M., & Kraus J. Empowering calibrated (dis-)trust in conversational agents: A user study on the persuasive power of limitation disclaimers vs. authoritative style [C]// Proceedings of the 2024 CHI Conference on Human Factors in Computing Systems. New York: Association for Computing Machinery, 2024.

[2]Bottazzi Grifoni E., & Ferrario R. The bewitching AI: The Illusion of Communication with Large Language Models [J]. Philosophy & Technology, 2025, 38(2): 61.

[3]Colombatto C., Birch J., & Fleming S. M. The influence of mental state attributions on trust in large language models [J]. Communications Psychology, 2025, 3: 84.

[4]Romeo G., & Conti D. Exploring automation bias in human-AI collaboration: A review and implications for explainable AI [J]. AI & Society, 2025.

[5]Alshakhsi S., Almourad M. B., Babkir A., Al-Thani D., Yankouskaya A., Montag C., & Ali R. Designing AI to foster acceptance: Do freedom to choose and social proof impact AI attitudes among British and Arab populations? [J]. Behaviour & Information Technology, 2025 (Advance online publication).

[6]Luitse D., & Denkena W. The great Transformer: Examining the role of large language models in the political economy of AI [J]. Big Data & Society, 2021, 8(2).

[7]Christiano P. F., Leike J., Brown T., Martic M., Legg S., & Amodei D. Deep reinforcement learning from human preferences [C]// Advances in Neural Information Processing Systems (Vol. 30). Curran Associates, Inc., 2017.

[8]Ferrara E. The rise of generative AI and its societal impact [J]. Nature Human Behavior, 2023, 7: 1373-1385.

相关内容

热门资讯

当AI成为了「杀猪盘」的新外衣 文丨镜像工作室,作者 | 阮怡玲,编辑丨吴述之 2025年10月18日,肖宏斌打开手机,发现“芯光...
微信macOS版4.1.7最新... IT之家 1 月 21 日消息,据IT之家小伙伴反馈,微信 macOS 正式版更新 v4.1.7于今...
青海湖7月环湖记:油菜花海拍照... 油菜花海,拍出人生照片的黄金时刻 七月,青海湖的油菜花开得正盛。 那种金黄,不是城市里修剪整齐的园...
从团圆饭到全家游!在AppGa... 距离春节不足一个月,“史上最长春节假期”彻底点燃旅游热情,国内游与出境游已呈现双向繁荣态势!悠长假期...