Meta 的 Llama 3.3 与 Google 的 Gemma 系列开源模型,护栏可在数分钟内被工具“Heretic”剥离。金融时报与 AI 安全组织 Alice 测试显示,修改后的模型能回答生物武器、恶意软件及儿童剥削相关问题,例如 Gemma 3 版本可生成氯气扩散室内空间的方案、信用卡盗刷代码及儿童性虐待故事。Heretic 自发布以来已创建超 3500 个“去审查”模型,下载量达 1300 万次,其作者称甚至在 Google Gemma 4 发布 90 分钟内完成剥离。[[1]](https://www.irishtimes.com/business/2026/05/25/ai-guardrails-stripped-from-meta-and-google-models-in-minutes/)
此现象发生在开源模型能力快速追赶专有系统的背景下。Anthropic 四月已披露其模型能发现主流操作系统与浏览器漏洞,而“abliteration”等技术正让普通用户也能轻松移除安全限制。Meta 与 Google 的开源策略虽加速创新,却使监管在开发端控制失效——修改版模型可随意下载传播。
相比专有模型(如 Claude 或 GPT 系列)因代码不公开较难破解,开源阵营正面临更大滥用风险。根本驱动是前沿模型推理与代码生成能力的提升,让危险知识自动组合成为可能。未来 6-12 个月,关键悬念在于开源社区能否建立更 robust 的内在对齐机制,或监管是否转向模型分发与使用环节。
信源:https://www.irishtimes.com/business/2026/05/25/ai-guardrails-stripped-from-meta-and-google-models-in-minutes/

