部分AI系统已学会欺骗人类 甚至能瞒过安全测试
创始人
2024-05-11 14:25:39
0

原标题:部分AI系统已学会欺骗人类 甚至能瞒过安全测试

来源:科技日报

有些人工智能(AI)系统已学会了欺骗人类,即使是经过训练的、“表现”出有用且诚实的系统。10日发表在《模式》杂志上的一篇文章中,研究人员描述了欺骗性AI的风险,并呼吁政府制定强有力的法规尽快解决这个问题。

【总编辑圈点】

论文第一作者、美国麻省理工学院人工智能安全研究员彼得·朴说,开发人员对导致AI出现欺骗这种不良行为的原因,还没有很好的理解。但总的来说,AI欺骗之所以出现,是因为基于欺骗的策略,是在给定的AI训练任务中一种能得到良好反馈的方式,换句话说,欺骗可帮助AI实现目标。

研究人员分析了文献,重点关注AI系统传播虚假信息的方式。通过欺骗,AI系统地学习了如何去操纵他人。

研究人员在分析中发现的最引人注目的例子是Meta公司的CICERO。这是一个专注于《外交》游戏的AI系统,《外交》是一款涉及建立联盟征服世界的游戏。Meta声称训练 CICERO “在很大程度上是诚实和乐于助人的 ”,且在玩游戏时“从不故意背刺 ”人类盟友。但该公司与《科学》论文一起发布的数据显示,CICERO并不那么“忠厚”。

研究人员发现这款AI或已成为欺骗大师。虽然Meta成功地训练其在《外交》游戏中获胜,但Meta未能训练它诚实地获胜。

AI系统在游戏中作弊看似无害,但它将导致欺骗性AI在能力上出现突破,未来可能会演变成更高级的欺骗形式。一些AI系统甚至学会了欺骗旨在评估其安全性的测试。在一项研究中,数字模拟器中的AI生物会“装死”,以骗过旨在消除快速复制AI系统的重要测试。

人类需要尽快对未来AI和开源模型的更高级欺骗技能作好准备。随着它们的欺骗能力越来越先进,其对社会构成的危险将变得越来越严重。如文中所称,它们会顺利通过人类开发人员和监管机构强加的安全测试,引导人类进入一种“虚假的安全感”。如果欺骗性AI进一步完善这种令人不安的技能,人类可能会完全失去对它们的控制。

相关内容

热门资讯

荣耀的全球百万雄鹰计划,要用人... 进入2025年,动作频繁的荣耀,还在刷新着大家对这个品牌的认知。 5月28日,荣耀400发布会上,荣...
科学家发现一颗“超级地球” 可... 人类是否是宇宙中唯一的智慧生命?有没有另一颗像地球一样适合生命存在的行星?这都是人们长久以来关心的宇...
中国籍男子杀害2名日本人被刑拘... 据大连公安6月3日公告,5月23日,因商业纠纷引发矛盾,两名日本籍男子在辽宁大连被一名中国籍男子杀害...
向前电气取得快接式三通防水连接... 金融界2025年6月3日消息,国家知识产权局信息显示,深圳市向前电气有限公司取得一项名为“一种快接式...
蓟门瀚海资本柏铖:情感智能或成... 文|节点财经 5月29日,由《节点财经》&《昆仑学堂》联合主办的“节点问道CEO沙龙”在北京举行。...
原创 5... 据环球网近日报道,《关于建立国际调解院的公约》近日将在香港举行签署仪式。香港特区行政长官出席行政会议...
科技流量激活文旅“增量” 科技... 近年来,我国科技事业取得历史性成就、发生历史性变革,载人航天、深空探测、“人造太阳”等科技成果捷报频...
Epic下载慢,下载失败?我来... 姐妹们最近是不是都在疯狂薅Epic的羊毛呀?每周免费游戏简直不要太香!但是每次下载游戏的时候那个速度...
航天特刊丨中国“牧星人”的深空... 中国“牧星人”的深空征途 ■解放军报特约通讯员 吕炳宏 记者 李伟欣 夜空中的深空测控站。吕龙 摄...
警方通报男子将6岁女童拖入小巷... 极目新闻评论员 吴双建 6月3日,湖南娄底市公安局娄星分局通报,5月20日下午,嫌疑人刘某某(男,3...