加州初创公司Kintsugi在过去七年中一直致力于开发能够通过语音检测抑郁和焦虑征象的人工智能技术。但由于未能及时获得FDA(美国食品药品监督管理局)许可,该公司宣布关闭并将其大部分技术开源发布。其中一些技术甚至可能在医疗保健之外找到新的应用,比如检测深度伪造音频。
目前心理健康评估仍主要依赖患者问卷和临床访谈,而不是像身体医学中常见的实验室检测或扫描。Kintsugi的软件不关注患者说了什么,而是分析他们如何说话。这个想法并不新颖——停顿、句子结构或语速等语音模式是各种心理健康问题的已知指标——但Kintsugi表示其AI能够捕捉到人类观察者可能不太明显的细微变化,尽管该公司尚未公开详述驱动其模型预测的确切特征。在同行评议的研究中,该公司报告的结果与使用短语音样本的既定抑郁症自我报告筛查工具基本一致。
该公司将这项技术定位为患者健康问卷-9(PHQ-9)等自我报告筛查工具的补充或潜在替代方案。PHQ-9是初级保健和精神病学的重要工具。这些工具应该与正式的临床评估一起使用,虽然它们得到了广泛验证,但筛查率可能较低,依赖患者准确描述症状,可能无法捕捉与心理健康障碍相关的全部症状。Kintsugi认为其基于语音的模型可以提供更客观的信号,将筛查扩展到更多患者,并在医疗系统、保险公司和雇主项目中大规模部署。然而,这样做需要获得FDA许可。
Kintsugi一直通过FDA的"De Novo"途径寻求许可,这是针对市场上没有现有同等产品的新型低风险医疗设备的途径。虽然旨在简化新产品的审批流程,但仍然是一个可能需要数年数据收集和监管审查的过程。Kintsugi的创始人兼首席执行官Grace Chang告诉The Verge,花费了大量时间向监管机构解释AI技术。该框架也不适合AI;大部分设计都考虑了更传统的设备——如髋关节植入物、手术工具、心脏起搏器——这些设备一旦获得批准,设计基本保持不变。对于AI系统,这可能意味着锁定一个本来会随时间不断优化和更新的模型。
尽管特朗普政府大力推动减少繁文缛节并尽快将AI产品推向现实世界,但Chang表示监管专家告诉她"除了来自高层的大声呼吁外,没有什么能帮助他们做到这一点"。联邦政府关门进一步减慢了审批过程。这家初创公司在等待最终提交时资金耗尽。
随着公司资金跑道缩短,筹集额外资金的努力失败了。与其接受"掠夺性"短期提议来支付工资——Chang说一项提议以大约每周50,000美元换取100万美元股权——团队决定开源其大部分技术,以便其他人可能继续这项工作。投资者对此并不满意。
开源心理健康筛查模型也引发了对滥用的担忧。理论上,用于标记抑郁或焦虑征象的工具可能被部署在临床环境之外,比如雇主或保险公司,而没有医疗保健中通常需要的保障措施。显然这不应该发生,但一旦公开发布,几乎无法阻止技术以其创造者未曾意图的方式被使用。
还有其他复杂情况。伦敦国王学院语音分析和健康负责任AI高级讲师Nicholas Cummins告诉The Verge,开源发布通常缺乏监管机构期望的详细"纸质记录",包括模型如何训练、验证和安全测试的清晰记录。他说,没有这些,将基于该技术构建的产品通过FDA批准可能会很困难。
Cummins建议,更可能的情况是,公司会将该模型作为起点,在其上层叠自己的数据和验证流程。即便如此,他警告基于语音的系统仍然不完善,存在"合理的"错误风险,特别是对于抑郁症等疾病,这些疾病在不同个体、语言和文化背景下表现不同,严重依赖于训练中使用的语音数据的多样性和结构。
Chang并未否认对潜在滥用的担忧,但表示"在实践中这比理论上看起来的担忧要少"。她认为,最有动机滥用该技术的组织也是那些"在实际部署方面面临最高障碍的"组织。在Chang看来,"更现实的风险是使用不足,而不是滥用"。
虽然Kintsugi的心理健康筛查技术已经开源,但Chang表示并非公司的所有技术都已公开发布。她说,部分原因是出于安全考虑,其中最主要的是能够检测合成或操纵语音的技术。
Chang表示,当团队尝试使用AI生成的语音来加强其心理健康模型时,出现了这种能力。合成音频缺乏模型训练识别的声音信号,这揭示了它可以用来区分人类和AI生成的语音。鉴于AI垃圾内容和欺诈性深度伪造的扩散,这是一个日益严重的挑战,尚未得到可靠解决。这是一个潜在的盈利机会,对Kintsugi来说幸运的是,这个领域不受FDA监管。
Chang拒绝推测她的下一步行动或Kintsugi的安全专注技术是否可能重新出现,但她说希望有人能够建立在公司工作的基础上,并将其推进到FDA流程的最后阶段。但如果没有更广泛的变化,Kintsugi的关闭不太可能是初创公司时间表与医疗监管冲突的最后一个例子,Chang表示希望这种现实不会阻止其他创始人尝试。
Q&A
Q1:Kintsugi的AI技术是如何检测抑郁症的?
A:Kintsugi的AI技术通过分析语音模式来检测抑郁和焦虑征象,不关注患者说了什么,而是分析他们如何说话。该技术可以捕捉停顿、句子结构、语速等语音特征,识别人类观察者可能不太明显的细微变化,从而提供比传统问卷更客观的心理健康评估信号。
Q2:为什么Kintsugi最终选择关闭并开源技术?
A:Kintsugi在申请FDA许可过程中遭遇重重困难,包括需要花费大量时间向监管机构解释AI技术、联邦政府关门延缓审批等问题。公司资金耗尽,筹集额外资金的努力也失败了。与其接受掠夺性短期投资提议,团队决定开源技术,让其他人能够继续这项工作。
Q3:开源心理健康AI技术会带来什么风险?
A:开源心理健康筛查模型主要担忧是可能被滥用,比如雇主或保险公司可能在没有医疗保健安全保障的情况下使用这些工具。此外,开源发布通常缺乏监管机构需要的详细记录,包括模型训练、验证和安全测试的清晰文档,这可能使基于该技术的产品难以获得FDA批准。