内查模型漏洞，外揭黑产链条 “AI新治向”守护AI向善_学习资源

内查模型漏洞，外揭黑产链条 “AI新治向”守护AI向善

创始人

2026-01-23 07:18:08

南都大数据研究院2025年在AI治理领域的报道活动和研究

当人工智能生成的“明星合照”在聊天群中疯传，当老人的积蓄被“AI理财顾问”悄然卷走，当孩子的作业本出现AI生成的答案……当AI融入日常生活，技术与治理的竞赛也变得尤其紧迫。

2025年以来，南方都市报、南都大数据研究院躬身入局，“AI新治向”栏目以实测捕捉风险，以调研厘清乱象，更致力于搭建桥梁、协同共治。我们不仅记录，更参与塑造“AI向善”。这是年度洞察，来自AI治理一线，也是一场关于清朗未来的持续叩问。

关注战略落子从“十五五”蓝图看AI治理新局

顶层设计为AI的规范发展奠定了坚实的制度基石，中共中央“十五五”规划建议鲜明树立了发展与安全并重的导向，“加强人工智能治理”与“全面实施‘人工智能+’行动”被同步擘画，标志着系统性治理时代的来临。

南都大数据研究院梳理各省份“十五五”规划建议发现，人工智能治理已成为一个跨越地域、超越发展水平的共同议题。截至2026年1月19日，在已公布全文的30份省级规划建议中，25份明确提及“人工智能治理”或“人工智能安全”。绝大多数省(区、市)在规划中采用“加强网络、数据、人工智能……等新兴领域国家安全能力建设”的统括表述，将人工智能视为未来五年防范化解重大风险的重要阵地。

其中，北京、上海、广东、山西、浙江、福建等11省(区、市)在“十五五”规划建议中直接明确“加强人工智能治理”，北京侧重“完善人工智能标准体系和应用规范”，浙江强调“建立健全全社会人工智能普及教育体系，提升全社会人工智能素养”，宁夏提出“完善法规体系、政策制度、应用规范、伦理准则建设”。部分省(区、市)也从安全监管、应用合规等纬度作出相关论述，如天津提出“推动人工智能应用合规、透明、可信赖”，江苏明确“强化人工智能、深度合成、无人机等新技术新应用安全监管”。一些规划还展现出鲜明的地域特色，如广西提出在国家指导下深化与东盟各国的合作，严厉打击新型涉人工智能深度伪造等犯罪行为，开创了跨境AI治理合作的新视角。

随着AI应用无限扩展技术伦理带来的挑战具象化

真正的风险，潜藏于具体的生活场景之中。2025年，AI实现了真正的“下沉”，从年初DeepSeek开源模型风靡全球，到年末豆包月活突破1.59亿，人工智能正深入大众生活。随着AI应用无限扩展，抽象的技术伦理问题正在转化为具象的社会挑战。

这一年，南都大数据研究院“AI新治向”栏目，用实测捕捉AI技术的内生风险，发现部分模型为迎合用户，表现出显著的“谄媚倾向”，甚至编造虚假数据以顺从用户的错误预设；在特定的“越狱”攻击下，部分模型的安全护栏显得脆弱，极易被诱导输出违法违规内容。此外，隐私泄露的形式也在升级，AI能够从公开图片中定位个人行踪，或从社交博文中推断私密信息；部分大模型因“分享即公开”的机制漏洞，导致用户对话存在泄露风险。

我们用调查厘清AI技术滥用的衍生风险。针对猖獗的“AI换脸”诈骗，“AI新治向”栏目实测了三款主流品牌手机的“防伪检测”功能，发现在面对高逼真的深度伪造视频时，受测机型均未能成功识别。我们还深入挖掘了依附于AI技术的黑灰产链条，从利用“虚拟相机”软件绕过平台人脸识别验证的违规操作，到通过AI生成内容批量“起号”以规避实名监管的灰色交易，再到“AI代写论文”成为生意、冲击学术诚信体系的乱象……这些调查，为治理提供精准靶向。

我们亦将目光投向技术应用中那些尚显模糊的边界地带。高校在鼓励使用AI的同时，持续升级查重手段以守护学术底线；娱乐应用中，未打标的“明星合照”模板、克隆声线的AI翻唱视频等屡见不鲜……当游走于灰色区间的技术不断挑战既有规则，它也在真实社会里孵化出新现象、新争议，呼唤更清晰的回应与界定。

聚焦“一老一小”脆弱地带发起守护性系列调查

健康的网络生态，温度体现在对“一老一小”的守护，硬度则取决于对信息真实性的坚守。

2025年5月，教育部印发《中小学人工智能通识教育指南》与《中小学生成式人工智能使用指南》，明确禁止学生直接使用AI生成内容作为作业或考试答案。在此背景下，我们调查测评发现，部分面向未成年人的AI社交与陪聊应用存在导向偏差，有的角色设定猎奇，诱导不当交流。在全球已出现AI陪聊致未成年人自杀案例的背景下，我们持续呼吁完善未成年人模式，严防不良内容通过AI渗透。致力督促服务方切实履责，推动未成年人模式从“有”到“有效”，这正是“AI新治向”的实践方向之一。

老年人则在数字鸿沟前更显脆弱。我们关注到一系列针对老人的骗局浮出水面:“AI辅导课程”则是上课两小时，全在催交钱；实测爸妈着迷的“AI问诊”，发现部分内容竟用广告证明被罚药物的疗效……这些案例揭示，技术“适老化”仍任重道远。

我们的调查显示，AI生成的虚假内容正从线上蔓延至线下，侵蚀着商业诚信与社会风气。在商业领域，从外卖平台上诱人的“AI假排队图”，到电商详情页中的“六指模特”，虚假视觉内容正在重构消费者认知。更为隐蔽的侵蚀则来自“GEO”类隐性营销，“AI新治向”栏目实测发现，仅需30分钟就能让一个完全虚构的品牌“钻进”大模型的搜索推荐列表。

当技术能力持续渗透至弱势群体保护与信息真实维系等核心领域，它不仅考验着治理体系的响应速度与精准程度，更在伦理、法律与社会信任等多个层面，呼唤规则建构与生态共建。

发起百款APP合规检测推动AI标识新规扎实落地

“AI新治向”栏目不仅是问题的发现者，更是治理方案的推动者与共建者。

为应对生成式AI带来的深度伪造、虚假信息等风险，2025年3月，国家网信办等四部门联合发布《人工智能生成合成内容标识办法》及配套国标。在此关键节点，我们针对100个APP开展摸底测评，发现75个生成式AI应用近一半未打标，25家平台仅少数设有声明渠道。我们不仅揭示落差，更制作“一图读懂”指南与系列海报，以通俗形式解读规范，搭建起政策与公众认知之间的桥梁。为了让治理声音穿透圈层、触达更广泛受众，栏目还配套推出创意视频产品“AI又整啥”，融合真人主播与数字人出镜，运用AI生成场景与动画，在趣味与年轻态的表达中解构严肃风险议题。

我们亦探索嵌入政产学研用深度融合的创新生态。2025年9月15日，粤港澳大湾区生成式人工智能安全发展联合实验室揭牌成立，作为省内主流媒体代表，我们深度参与了这一创新治理联合体的建设，参与组织“备案大模型发布会”“AI出海研讨会”等活动。

从搭建平台到参与制定标准推动共建AI良好生态

治理共识在对话中凝聚。2025年9月，我们在外滩大会主办“规范AI内容，共筑清朗生态”为主题的见解论坛，编制并发布了《AI新治向:生成式人工智能内容与传播风险治理观察》，以对百起风险事件的调查、数千份问卷调研及多轮社会实验为基础，揭示AI伴生风险、解析虚假内容传播链，提出“多措并举，多元共治”治理建议。

当媒体的监督、研究与倡导，精准契合并推动社会发展的实际需求，其价值便获得了最坚实的回响。一年来，“AI新治向”对AI技术滥用、虚假信息、未成年人保护等议题的持续追踪，多次直接推动相关企业平台进行整改与完善。我们的工作也与监管步伐同频共振:中央网信办等部门年内开展系列专项行动，栏目长期关注的领域与其整治重点方向高度吻合。更值得期待的是，我们参与的团体标准《网络安全技术　向未成年人提供生成式人工智能服务安全指引》12月1日实施，南都的实践，正迈向参与行业标准构建的更深层次。

出品:南都大数据研究院

策划:邹莹凌慧珊

采写:南都记者陈袁

上一篇：王小川回应张文宏拒绝AI写病历观点：小医生+AI是大医生

下一篇：当IP遇上AI，文化有了“科技范”

内查模型漏洞，外揭黑产链条 “AI新治向”守护AI向善

相关内容

热门资讯