Comment: Anthropic 新研究：打错字就能“越狱”GPT

评论：Anthropic 新研究：打错字就能“越狱”GPT

内容简介：IT之家 12 月 25 日消息，据 404 Media 报道，人工智能公司 Anthropic 近期发布了一项研究，揭示了大型语言模型（LLM）的安全防护仍然十分脆弱，且绕过这些防护的“越狱”过程可以被自动化。研究表明，仅仅通过改变提示词（prompt）的格式，例如随意的大小写混合，就可能诱导 LLM 产生不应输出的内容。为了验证这一发现，Anthropic 与牛津大学、斯坦福大学和...

用户评论

科技前沿网

chucklefeed

脉脉：中国AI工程师工作性价比高于美国同行

Google发布Gemini 3大模型，性能远超GPT

一周AI大事件：谷歌“杀红了眼”夺回王座，奥特曼罕见承认：正在追赶

TikTok 将开放用户设置，减少短视频信息流中的 AI 内容

外骨骼机器人“助老”效果如何？知乎答主评审团做了一场硬核评测

绚星智慧科技发布《AI驱动的组织与业务重构白皮书》