网易易盾用魔法打败“未知的未知”_科技资讯

网易易盾用魔法打败“未知的未知”

创始人

2024-07-30 18:42:15

0次

“如果你认为，你的技术产品真的很牛逼，那就把它放到市场上去做商业化验证。”朱浩齐感觉，这是老板的一招激将法。

但转念一想：“为什么不呢？”

一年之后即2016年，网易易盾正式成立。这是一家将人工智能技术，应用于内容安全的公司。8年之后，网易易盾又在此基础上，进一步增强了攻守平衡，推出了国内首个数字内容风控领域的垂直大模型。

数字内容风控是个啥？

这还要从头说起。

2012年前后发生的几件事情，改变了世界的走向。这一年，人工智能教父杰弗里·辛顿，带着他的两个博士生，参加了李飞飞教授发起的ImageNet竞赛。不出意料，他们以碾压的优势拿到了冠军，顺手还发表了一篇划时代的论文——《用深度卷积神经网络进行ImageNet图像分类》。

彼时还在网易安全团队负责技术研发的朱浩齐，立刻觉察到深度学习技术可应用于数字内容风控，可提升文本审核、图片审核、视频审核、音频审核的效率，可自动识别涉黄、敏感、涉暴、广告导流等内容，维护互联网平台的内容安全。

其实，2012年前后正是数字内容风控产业最艰难的一段时期。在此之前的2009年，微博上线，一年之后注册用户超过5000万；又过一年，微信上线，再过一年即2012年，微信注册用户超过1亿。

这两款产品联手开启了中国的社交网络时代，网络中出现了海量的音频、视频数据，用户关系也变得更为复杂。与此对比，不管是Web1.0时代，内容安全领域针对文字的“字符匹配”技术，还是Web2.0时代，针对图像的“特征匹配”技术，都不足以看清如此海量的多模态数据，不足以看懂如此复杂的社交关系。

有人的地方就有江湖

回到文章开篇的对话。

网易易盾脱胎于网易集团安全团队，内容安全是其核心技术之一，这项技术长期服务于网易集团的新闻、音乐、游戏、社交、教育等核心产品。改变出现在2015年。那一年，网易易盾在内部立项准备商业孵化。2016年，网易易盾正式成立，并对外提供服务。

但这并不容易。

俗话说：“有人的地方就有江湖。”其实，有UGC的地方才是江湖。UGC（用户生成内容）创作者的观点，以及UGC创作者中相互之间的讨论，可以让社区变得更活跃，也可以把楼带歪，让话题跑偏。

不恰当的比喻。球迷可以整齐高唱：“Go go go Ole Ole Ole”，也可能像流氓一样在街头斗殴。网络世界也是如此。音乐社区中的粉丝，可以相互讨论偶像的音色、着装、化妆，也可能被人带节奏，跑去别人的地盘发表恶意评论，甚至会引发粉丝群体间的相互骂战。此类信息如无人管理引导，就叠加形成“破窗效应”，社区生态将变得一塌糊涂。

不仅如此。

有流量的地方就会引来黑灰产。例如证券公司的论坛，总会被黑灰产瞄上，他们或是发布虚假股票信息，或是发布诈骗信息。这就需要有效识别恶意注册、撞库、模拟器登录、代理IP登录、盗号等账号攻击，保护账号安全。

企业单位也有类似需求。政务类APP需要加固安全防护、账号安全保护的服务，官方公告资讯需要内容安全检测，企业内部论坛中也需要在网络安全之上建设应用安全体系，防止技术资料外泄，保护企业数字资产。

内生于业务逻辑的安全

“网易易盾希望用最好的技术和服务，助力客户内生成长。”朱浩齐是网易数智副总经理、网易易盾总经理。2014年，网易易盾前身的技术团队，就开始将深度学习技术应用于数字内容风控领域，并在一年内达到了商用标准。

但很快，这家公司又悟出一个道理。

2020年，网易易盾率先践行了内生安全概念。“内容安全不是网络安全，没有必要头铁地跟黑产正面死扛，只要能跟业务部门配合，就能四两拨千斤。”朱浩齐特别强调内容安全要内生于业务逻辑。

正是从那时开始，网易易盾的产品设计理念，就不再追求外置式的、“盒子”式的解决方案。这家公司希望内容风控以API形式提供，能内生嵌入企业的业务逻辑中，而且只要能内生于业务中，就可以内嵌非常多的防护动作。

例如在金融领域，网易易盾就可将人工智能技术，内嵌进入识别账号风险、校验用户身份等业务逻辑中，其可以判断摄像头是否被劫持，是否有外挂程序。甚至还可以要求用户，面对摄像头用本机编辑短信，发送到指定平台。

没有硝烟的战争

总之，办法有的是。

“而且要辅以安全策略运营专家，解读‘产品说明书’。”朱浩齐进而强调了运营服务的重要性。例如，安全进程一定要在外挂之前加载，才能对游戏内存做到有效保护，否则很难检测出黑客注入的行为。其实，这就是一场没有硝烟的战争。

枪战类游戏一直被黑灰产视为眼里的肥肉。因其突出的竞技性会给诸如飞天、自瞄、锁血、透视类外挂，提供格外的生存空间，因此有大量的外挂工作室存在于我们看不见的阴影里。他们的生意经只有一条：只要钱到位，谁都能成为爽文男主，只要买“秘笈”，个个都有主角光环。

但谁也都不是受虐狂。

游戏玩家是来放松的，不是来受虐的。如果听任外挂工作室为所欲为，真正的游戏玩家只会远离这种不公平的游戏生态，游戏公司前期的研发投入，也只能打水漂。

当然，网易易盾会全力阻止这种情况发生。

曾经有一款游戏在公测之后短期内迎来大量玩家涌入，然而巨量的用户也让黑灰产看到了利润空间。因此伴随用户量增长的，还有外挂玩家的数量，该游戏一度同时遭受数十种外挂的侵扰与破坏。除了外挂种类繁杂，外挂版本更新迅速、外挂玩家数量大等各种痛点密集出现，导致玩家投诉不断，游戏运营焦头烂额。

面对这样的情况，常规的风控思路并不能提供最优解。网易易盾走了一条“知己知彼，百战不殆”的路。

“易盾的反外挂专家，潜伏在大量外挂群，购买了数十款针对这个游戏的外挂。”朱浩齐说的就是易盾黑产研究院通过“潜伏”了解黑产情报，并获取外挂样本进行逆向分析，针对性的设计外挂特征检测模型和封堵安全漏洞，并且持续地迭代这个过程。

最终，在这场没有硝烟的战争中，易盾帮助游戏运营方获得全面胜利——玩家投诉下降90%，DAU稳定增长，同比涨幅达到94.5%，该游戏渐入健康运营状态。

解决“未知的未知”

但这还不是全部。

在所有安全问题分类中，“未知的未知”一直是“天花板”问题——既没见过类似的案例，也没有成熟的检测手段和防御方案。“但可以通过‘象限拆解’，解决‘未知的未知’。”朱浩齐说出了网易易盾的思路。

这也就是网易易盾的“内生的弹性纵深防御体系”。其核心思想是，允许“未知的未知”存在，但通过举报、监测等手段，将未知的内容安全，拆解为“已知的未知”，进而针对已知的负面传播，进行数据采集、标准制定，最终实现“已知的已知”。

例如“历史虚无主义”通过否定或歪曲历史来达到特定的目的或利益。针对于此，可以将“历史虚无主义”细化为歪曲历史事实、否定民族文化、丑化民族英雄等标签，并以此训练模型，提升模型的检测能力。

更进一步。

“如果网易易盾的产品，还停留在以内容风控技术识别图像的真实性，那方向就走错了。朱浩齐又将话题引回了内生安全。而且他说“内生的弹性纵深防御体系”还有两个精髓理念：“用时间换精度”和“用不确定性提升防御强度”。

“用时间换精度”是允许系统不能第一时间发现有害样本，但同样的错误也不允许再犯第二次，而且要以系统具备识别能力的时间窗口，评估系统的安全强度。例如，广告引流图片或许可以侥幸发布，但五分钟之后就再没有侥幸。这就像人体免疫系统，不可能对所有病毒都免疫，但生病之后一定会产生免疫能力。

另一维度。

“用不确定性提升防御强度”是变确定性模型为不确定性模式。例如带有明显广告引流的海报，第一次发布如果被识别而失败，发布者不死心就会继续修改，再继续尝试发布，直到在不断地试错中，找到系统确定性的模型和规则漏洞，然后就能更大批量地发布了。

“用不确定性提升防御强度”则是将“敌暗我明”变为“敌明我暗”。也就是说，传统深度学习塑造的静态确定性模型总会被攻破，但不确定的防御模式，就会让攻击者永远摸不到问道，找不到规则。

第一道防线和最后一道防线

接下来的网易易盾，将以魔法打败魔法。都说：“造谣一张嘴，辟谣跑断腿。”但移动互联网时代出现社交媒体，只是对内容风控的“性能挑战”，并没有挑战内容安全的方法论，也没有改变攻守双方的力量对比。

但现在的大模型，完全有能力生成以假乱真的图片、视频、音频。例如AI换脸，再例如英伟达的发布会，皮衣是假的，厨房是假的，连黄仁勋自己都是假的，他的“数字替身”出场14秒，全网竟无人发现。

或者说，现在互联网传播速度太快，AI技术太发达，过去是“开局一张图，故事全靠编”、“有图有真相”，现在是有AI就有图，有图也不一定是真相。“大模型技术的引入，改变了攻守不平衡的状态。”朱浩齐说。

此前，网易易盾刚刚发布国内首个数字内容风控领域的垂直大模型。其广告对抗识别率大于97%；AIGC人脸风格化疑难案例识别率大于90%；部门色情疑难样本召回率提升30%；效果增强管理复杂度降低40%；风险对抗时效提升至小时级；真人引流团伙检出量提升3倍。

但这也只是“最后一道防线”。

除发布安全大模型外，网易易盾还提供大模型安全服务。其实，业内已经形成共识，如果大模型是“作者”，内容安全就是“编辑”，作者不可能干编辑的活，需要将内容安全等垂直的、专业的工作，从大模型的主体训练逻辑中剥离出来，提升大模型的研发效率。

而此方面，网易易盾也先走一步。截至2024年3月，中国共有117个大模型完成备案。据朱浩齐介绍，国内主流大模型，很多已成为网易易盾的客户。网易易盾既将为大模型提供最后一道防线，也将为其构筑第一道防线，提供输入合规、输出合规等一系列服务。

内容风控不是一条“红线”

当然，比技术理念更重要的是业务理念。

如果以简单的二元思维，数字内容风控就是一条“红线”，但数字内容风控又不可能有“红线”，内容安全也不可能向网络安全一样，有明确的标准和规则。网易易盾以技术的角度看待此问题，跳出“一管就死、一放就乱”的怪圈，就以内生安全给不同业务逻辑、不同的应用场景，适配不同的解决方案。

而在社会责任的角度，朱浩齐最后说：

内容安全是社会问题，网易易盾不会给出限定的‘正确’，只会明确标注出现代国家已经共识的道德底线，以数字围栏保护人类文明的道德底线。

上一篇：吉林黑科技 “地壳一号”向地球深部进军！

下一篇：2024新发明！德扑之星确实真的有挂，wpk辅助挂（详细有挂教程）

网易易盾用魔法打败“未知的未知”

相关内容

热门资讯