开源模型护栏易被剥离 Meta 与 Google 面临安全新压

Meta 的 Llama 3.3 与 Google 的 Gemma 系列开源模型，护栏可在数分钟内被工具“Heretic”剥离。金融时报与 AI 安全组织 Alice 测试显示，修改后的模型能回答生物武器、恶意软件及儿童剥削相关问题，例如 Gemma 3 版本可生成氯气扩散室内空间的方案、信用卡盗刷代码及儿童性虐待故事。Heretic 自发布以来已创建超 3500 个“去审查”模型，下载量达 1300 万次，其作者称甚至在 Google Gemma 4 发布 90 分钟内完成剥离。[[1]](https://www.irishtimes.com/business/2026/05/25/ai-guardrails-stripped-from-meta-and-google-models-in-minutes/)

此现象发生在开源模型能力快速追赶专有系统的背景下。Anthropic 四月已披露其模型能发现主流操作系统与浏览器漏洞，而“abliteration”等技术正让普通用户也能轻松移除安全限制。Meta 与 Google 的开源策略虽加速创新，却使监管在开发端控制失效——修改版模型可随意下载传播。

相比专有模型（如 Claude 或 GPT 系列）因代码不公开较难破解，开源阵营正面临更大滥用风险。根本驱动是前沿模型推理与代码生成能力的提升，让危险知识自动组合成为可能。未来 6-12 个月，关键悬念在于开源社区能否建立更 robust 的内在对齐机制，或监管是否转向模型分发与使用环节。

信源：https://www.irishtimes.com/business/2026/05/25/ai-guardrails-stripped-from-meta-and-google-models-in-minutes/

📤 分享这篇文章

𝕏 X 分享 in LinkedIn

点击”分享微信好友”→ 长按图片发到微信