SCPGA：自认同CoT渐进式泛化攻击 - VipRead 信息安全知识库

主页 / 安全文档 / 未分类 / SCPGA：自认同CoT渐进式泛化攻击

标题

SCPGA：自认同CoT渐进式泛化攻击
作者

何润培
标签

SCPGA CoT 大模型安全
简介

《SCPGA：自认同CoT渐进式泛化攻击》由萨塞克斯大学何润培提出，揭示了一种新型大模型越狱技术。该方法利用模型间思维链（CoT）的兼容性，通过“种子诱导—强CoT生成—恶意嵌套”流程，实现跨模型、跨主题的自动化攻击。实验显示，SCPGA对Gemini 2.5 Pro、Qwen3等主流模型越狱成功率高达94%–97%，并可引发内容安全、工具滥用、系统泄露等多类风险。文章进一步提出基于微调审核模型的轻量防御方案，为LLM安全防护提供了新思路。
提示

本站仅做资料的整理和索引,转载引用请注明出处

相关推荐

LLM&Agent安全防护
2025-08-15 01:49:40.047580
ReCopilot：基于大
2025-10-29 14:10:25.529300
LLM 与安全代码
2025-10-29 14:17:53.055980
SCPGA：自认同CoT渐
2025-10-29 14:12:07.744558

附件下载

09SCPGA：自认同CoT渐进式泛化攻击（何润培）.pdf

时间: 2025-10-29T14:11:30Z 大小: 5.27 M 下载: 9

登录下载