国产 porn 评测透露大模子内容安全隐患，众人：需像东谈主雷同学习安全实质

发布日期：2025-04-17 03:05 点击次数：119

国产 porn 评测透露大模子内容安全隐患，众人：需像东谈主雷同学习安全实质

东谈主工智能加快向全行业、日常化普及的同期，包括坏话、工夫铺张等在内的AI内容安全问题也捏续激发情切。复旦大学的最新评测驱散知道，多款文生图大模子在本质测试中国产 porn，仍然存在安全隐患，尤其在躯体异变、恐怖元素等令东谈主不适内容的生成上，防护比拟薄弱，也会输出血腥暴力、讨厌仇恨等违章内容。

复旦大学施展、白泽智能团队厚爱东谈主张谧向南都大数据盘问院暗示，面前大模子的安全防护机制仍存在局限性和滞后性，需进一步加强对多元化的风险场景的情切，并胡闹针对性盘算的新式袭击，从而为大模子工夫的速即发展添砖加瓦。

评测发现文生图模子存安全隐患

不押店张AI并出现风险，已不有数。比如企业家雷军，医学众人张文宏，影视明星靳东等多位公世东谈主物曾被AI“换脸拟声”，被监犯分子用于长短他东谈主，伪造带货视频，致使收集糊弄等。而就在上个月，湖北省大冶市东谈主民法院审理判处首例期骗AI工夫撰写色情演义并营利案件。

为保险安全、防护风险，不少着名生成式AI大模子开拓企业在遴荐多项措施。高校盘问机构也有针对性的研发后果，如复旦大学系统软件与安全实验室白泽智能团队推出了大模子安全测评与责罚平台（JADE），评测生成式AI大模子输出内容安全性。而其最新一期评测驱散知道，尽管国表里多款文生图大模子配备了多维度的安全防护机制，并声明“不容成东谈主内得意血腥内容”，但在本质测试中一经屡屡输出血腥暴力、淫秽色情、讨厌仇恨等违章内容。

“跟着大模子的生成内容由文本膨胀到多模态，图像等神气的生成内容更为直不雅、更易传播，使生成式大模子靠近更种种的内容安全挑战。”复旦大学施展、白泽智能团队厚爱东谈主张谧先容，JADE系列测试驱散知道，对话式大说话模子在各种安全对皆策略下，内容安全才调已有显耀高潮；不少商用文生图模子配备了多维度的安全护栏，能为普通用户提供较为安全的生图作事。但在针对性盘算的对抗袭击下，主流文生图模子仍然存在违章隐患，尤其在躯体异变、恐怖元素等令东谈主不适内容的生成上，防护比拟薄弱。据其先容，在JADE构建的违章图像请示词数据集中，近20%的请示词能同期触发至少8款大模子生成违章内容，40%以上的请示词可触发6款以上大模子，且超60%的请示词都可触发至少4款大模子。

张谧暗示，测试驱散体现了面前大模子的安全防护机制存在局限性和滞后性，必须提供灵验的安全措施为大模子工夫的速即发展添砖加瓦。谈及违章内容的成因，她觉得，现有大模子在不同类别、不同语种上的发达有在互异，关于更多元化的风险场景情切较为不及；同期，繁密大模子的安全对皆以清洗数据集、明锐词过滤、安全微调等看成主要技巧，难以挣扎针对性盘算的新式袭击。

大模子“过度胡闹”情景待优化

与此同期，在应付平台上，一些网友曾经质疑AI大模子“过于严慎”，一些平常肯求也被拒却修起，影响“有用性”。

对此，张谧暗示，评测进程中，确乎发现部分大模子存在“过度胡闹”情景。举例，对部分大模子输入平常的请示词，模子也可能拒却生成相干图像。她觉得，相干情景可动力于各形状的胡闹策略均存在局限性。举例大模子在输入端过滤的形状仅承袭粗粒度的黑名单过滤、枢纽词匹配等机制，无法灵验离别平常肯求与坏心输入；在模子内生安全对皆形状可能过度侧重安全回答而短缺对“模子有用性”的考量，变成对平常输入的误判禁绝；在输出形状，过于严格的风控也可能对并未本质违章的回答触发风险误报。这一情景标明，如安在筑牢安全防地的同期保捏模子的有用性，不示寂其丰富多彩的生成才调，是面前大说话模子与文生图等大模子亟须面对的问题之一。

大模子需深度念念考请示词中的违章意图

在张谧看来，在“东谈主东谈主可生图”确当下，在监犯分子手中，文生图模子可成为新式诽谤、糊弄、侵权技巧；而文生图模子用户群体广漠，加之坏心图像传播速率快、限制广，对关系部门的监管和追责冷漠挑战；从工夫层面而言，AI大模子开动在绽开环境中，袭击者大概通过普遍尝试，收效绕过请示词过滤、输出风控等安全护栏，获取违章内容，此类泛泛且复杂的潜在袭击，对大模子安全机制冷漠了更高的条目。

在谈到加刚劲模子的安全检测和胡闹机制时，张谧建议可承袭多模态的检测模子，对生成图像和用户请示词进行空洞分析，以提升对违章图像的检测精度；同期，需从语义层面开拔，深度念念考用户请示词中的违章意图，以胡闹针对性盘算的新式袭击形状；此外，在AI生成内容的传播进程中，应付平台应主动检测用户上传内容是否由AI生成，并添加警示记号与安全训诫，强化平台用户的警惕和防护意志。

此外，张谧还指出，“除了外部的过滤与检测机制，探索大模子的内生安全胡闹机制，如建树多维度全类别的安全合规监测平台、构建高质地安全微调数据集；基于细化安全法例的RAG（Retrieval Augmented Generation，检索增强生成工夫），使模子像东谈主类雷同学习安全实质；以及针对危急意见的擦除等形状，亦然值得深化盘问的标的。”

据悉，围绕AI大模子的内容安全责罚，近期多份策略文献继续出台。其中，将于2025年9月1日起执行的《东谈主工智能生成合成内容记号主见》明确了东谈主工智能生成合成内容显式和隐式记号的具体实施表率，强制性国度范例《收集安全工夫东谈主工智能生成合成内容记号形状》也将同步实施。

对此，张谧也建议，新规仍需考虑坏心袭击的威逼，比如关于显式记号，袭击者是否大概通过编著、庇荫、P图用具等进行去除，关于隐式记号，在文献元数据上的坏心修改是否会阻止其灵验性，都是后续监管可能靠近的问题。而为了对坏心生成AI内容的行为进行灵验打击，后续监管进程仍需明确对坏心内容的生成平台、具体用户的溯源和检测形状，并在AI生成内容的传播进程中进行监管。

出品：南都大数据盘问院

采写：李伟锋实习生陈家贤（杨易鑫对本文亦有孝敬）

更多报谈请看专题：AI新治向

jk露出

国产 porn

李伟锋1967W

上一篇：艺术学厕拍鲁政委：哪类债券基金更具发展后劲？——国外市集镜鉴|债基

下一篇：没有了

热点资讯

相关资讯

蝴蝶谷中文

国产 porn 评测透露大模子内容安全隐患，众人：需像东谈主雷同学习安全实质

相关资讯