“如果你认为,你的技术产品真的很牛逼,那就把它放到市场上去做商业化验证。”朱浩齐感觉,这是老板的一招激将法。
但转念一想:“为什么不呢?”
一年之后即2016年,网易易盾正式成立。这是一家将人工智能技术,应用于内容安全的公司。8年之后,网易易盾又在此基础上,进一步增强了攻守平衡,推出了国内首个数字内容风控领域的垂直大模型。
01
数字内容风控是个啥?
这还要从头说起。
2012年前后发生的几件事情,改变了世界的走向。这一年,人工智能教父杰弗里·辛顿,带着他的两个博士生,参加了李飞飞教授发起的ImageNet竞赛。不出意料,他们以碾压的优势拿到了冠军,顺手还发表了一篇划时代的论文——《用深度卷积神经网络进行ImageNet图像分类》。
彼时还在网易安全团队负责技术研发的朱浩齐,立刻觉察到深度学习技术可应用于数字内容风控,可提升文本审核、图片审核、视频审核、音频审核的效率,可自动识别涉黄、敏感、涉暴、广告导流等内容,维护互联网平台的内容安全。
其实,2012年前后正是数字内容风控产业最艰难的一段时期。在此之前的2009年,微博上线,一年之后注册用户超过5000万;又过一年,微信上线,再过一年即2012年,微信注册用户超过1亿。
这两款产品联手开启了中国的社交网络时代,网络中出现了海量的音频、视频数据,用户关系也变得更为复杂。与此对比,不管是Web1.0时代,内容安全领域针对文字的“字符匹配”技术,还是Web2.0时代,针对图像的“特征匹配”技术,都不足以看清如此海量的多模态数据,不足以看懂如此复杂的社交关系。
02
有人的地方就有江湖
回到文章开篇的对话。
网易易盾脱胎于网易集团安全团队,内容安全是其核心技术之一,这项技术长期服务于网易集团的新闻、音乐、游戏、社交、教育等核心产品。改变出现在2015年。那一年,网易易盾在内部立项准备商业孵化。2016年,网易易盾正式成立,并对外提供服务。
但这并不容易。
俗话说:“有人的地方就有江湖。”其实,有UGC的地方才是江湖。UGC(用户生成内容)创作者的观点,以及UGC创作者中相互之间的讨论,可以让社区变得更活跃,也可以把楼带歪,让话题跑偏。
不恰当的比喻。球迷可以整齐高唱:“Go go go Ole Ole Ole”,也可能像流氓一样在街头斗殴。网络世界也是如此。音乐社区中的粉丝,可以相互讨论偶像的音色、着装、化妆,也可能被人带节奏,跑去别人的地盘发表恶意评论,甚至会引发粉丝群体间的相互骂战。此类信息如无人管理引导,就叠加形成“破窗效应”,社区生态将变得一塌糊涂。
不仅如此。
有流量的地方就会引来黑灰产。例如证券公司的论坛,总会被黑灰产瞄上,他们或是发布虚假股票信息,或是发布诈骗信息。这就需要有效识别恶意注册、撞库、模拟器登录、代理IP登录、盗号等账号攻击,保护账号安全。
企业单位也有类似需求。政务类APP需要加固安全防护、账号安全保护的服务,官方公告资讯需要内容安全检测,企业内部论坛中也需要在网络安全之上建设应用安全体系,防止技术资料外泄,保护企业数字资产。
03
内生于业务逻辑的安全
“网易易盾希望用最好的技术和服务,助力客户内生成长。”朱浩齐是网易数智副总经理、网易易盾总经理。2014年,网易易盾前身的技术团队,就开始将深度学习技术应用于数字内容风控领域,并在一年内达到了商用标准。
但很快,这家公司又悟出一个道理。
2020年,网易易盾率先践行了内生安全概念。“内容安全不是网络安全,没有必要头铁地跟黑产正面死扛,只要能跟业务部门配合,就能四两拨千斤。”朱浩齐特别强调内容安全要内生于业务逻辑。
正是从那时开始,网易易盾的产品设计理念,就不再追求外置式的、“盒子”式的解决方案。这家公司希望内容风控以API形式提供,能内生嵌入企业的业务逻辑中,而且只要能内生于业务中,就可以内嵌非常多的防护动作。
例如在金融领域,网易易盾就可将人工智能技术,内嵌进入识别账号风险、校验用户身份等业务逻辑中,其可以判断摄像头是否被劫持,是否有外挂程序。甚至还可以要求用户,面对摄像头用本机编辑短信,发送到指定平台。
04
没有硝烟的战争
总之,办法有的是。
“而且要辅以安全策略运营专家,解读‘产品说明书’。”朱浩齐进而强调了运营服务的重要性。例如,安全进程一定要在外挂之前加载,才能对游戏内存做到有效保护,否则很难检测出黑客注入的行为。其实,这就是一场没有硝烟的战争。
枪战类游戏一直被黑灰产视为眼里的肥肉。因其突出的竞技性会给诸如飞天、自瞄、锁血、透视类外挂,提供格外的生存空间,因此有大量的外挂工作室存在于我们看不见的阴影里。他们的生意经只有一条:只要钱到位,谁都能成为爽文男主,只要买“秘笈”,个个都有主角光环。
但谁也都不是受虐狂。
游戏玩家是来放松的,不是来受虐的。如果听任外挂工作室为所欲为,真正的游戏玩家只会远离这种不公平的游戏生态,游戏公司前期的研发投入,也只能打水漂。
当然,网易易盾会全力阻止这种情况发生。
曾经有一款游戏在公测之后短期内迎来大量玩家涌入,然而巨量的用户也让黑灰产看到了利润空间。因此伴随用户量增长的,还有外挂玩家的数量,该游戏一度同时遭受数十种外挂的侵扰与破坏。除了外挂种类繁杂,外挂版本更新迅速、外挂玩家数量大等各种痛点密集出现,导致玩家投诉不断,游戏运营焦头烂额。
面对这样的情况,常规的风控思路并不能提供最优解。网易易盾走了一条“知己知彼,百战不殆”的路。
“易盾的反外挂专家,潜伏在大量外挂群,购买了数十款针对这个游戏的外挂。”朱浩齐说的就是易盾黑产研究院通过“潜伏”了解黑产情报,并获取外挂样本进行逆向分析,针对性的设计外挂特征检测模型和封堵安全漏洞,并且持续地迭代这个过程。
最终,在这场没有硝烟的战争中,易盾帮助游戏运营方获得全面胜利——玩家投诉下降90%,DAU稳定增长,同比涨幅达到94.5%,该游戏渐入健康运营状态。
05
解决“未知的未知”
但这还不是全部。
在所有安全问题分类中,“未知的未知”一直是“天花板”问题——既没见过类似的案例,也没有成熟的检测手段和防御方案。“但可以通过‘象限拆解’,解决‘未知的未知’。”朱浩齐说出了网易易盾的思路。
这也就是网易易盾的“内生的弹性纵深防御体系”。其核心思想是,允许“未知的未知”存在,但通过举报、监测等手段,将未知的内容安全,拆解为“已知的未知”,进而针对已知的负面传播,进行数据采集、标准制定,最终实现“已知的已知”。
例如“历史虚无主义”通过否定或歪曲历史来达到特定的目的或利益。针对于此,可以将“历史虚无主义”细化为歪曲历史事实、否定民族文化、丑化民族英雄等标签,并以此训练模型,提升模型的检测能力。
更进一步。
“如果网易易盾的产品,还停留在以内容风控技术识别图像的真实性,那方向就走错了。朱浩齐又将话题引回了内生安全。而且他说“内生的弹性纵深防御体系”还有两个精髓理念:“用时间换精度”和“用不确定性提升防御强度”。
“用时间换精度”是允许系统不能第一时间发现有害样本,但同样的错误也不允许再犯第二次,而且要以系统具备识别能力的时间窗口,评估系统的安全强度。例如,广告引流图片或许可以侥幸发布,但五分钟之后就再没有侥幸。这就像人体免疫系统,不可能对所有病毒都免疫,但生病之后一定会产生免疫能力。
另一维度。
“用不确定性提升防御强度”是变确定性模型为不确定性模式。例如带有明显广告引流的海报,第一次发布如果被识别而失败,发布者不死心就会继续修改,再继续尝试发布,直到在不断地试错中,找到系统确定性的模型和规则漏洞,然后就能更大批量地发布了。
“用不确定性提升防御强度”则是将“敌暗我明”变为“敌明我暗”。也就是说,传统深度学习塑造的静态确定性模型总会被攻破,但不确定的防御模式,就会让攻击者永远摸不到问道,找不到规则。
06
第一道防线和最后一道防线
接下来的网易易盾,将以魔法打败魔法。都说:“造谣一张嘴,辟谣跑断腿。”但移动互联网时代出现社交媒体,只是对内容风控的“性能挑战”,并没有挑战内容安全的方法论,也没有改变攻守双方的力量对比。
但现在的大模型,完全有能力生成以假乱真的图片、视频、音频。例如AI换脸,再例如英伟达的发布会,皮衣是假的,厨房是假的,连黄仁勋自己都是假的,他的“数字替身”出场14秒,全网竟无人发现。
或者说,现在互联网传播速度太快,AI技术太发达,过去是“开局一张图,故事全靠编”、“有图有真相”,现在是有AI就有图,有图也不一定是真相。“大模型技术的引入,改变了攻守不平衡的状态。”朱浩齐说。
此前,网易易盾刚刚发布国内首个数字内容风控领域的垂直大模型。其广告对抗识别率大于97%;AIGC人脸风格化疑难案例识别率大于90%;部门色情疑难样本召回率提升30%;效果增强管理复杂度降低40%;风险对抗时效提升至小时级;真人引流团伙检出量提升3倍。
但这也只是“最后一道防线”。
除发布安全大模型外,网易易盾还提供大模型安全服务。其实,业内已经形成共识,如果大模型是“作者”,内容安全就是“编辑”,作者不可能干编辑的活,需要将内容安全等垂直的、专业的工作,从大模型的主体训练逻辑中剥离出来,提升大模型的研发效率。
而此方面,网易易盾也先走一步。截至2024年3月,中国共有117个大模型完成备案。据朱浩齐介绍,国内主流大模型,很多已成为网易易盾的客户。网易易盾既将为大模型提供最后一道防线,也将为其构筑第一道防线,提供输入合规、输出合规等一系列服务。
07
内容风控不是一条“红线”
当然,比技术理念更重要的是业务理念。
如果以简单的二元思维,数字内容风控就是一条“红线”,但数字内容风控又不可能有“红线”,内容安全也不可能向网络安全一样,有明确的标准和规则。网易易盾以技术的角度看待此问题,跳出“一管就死、一放就乱”的怪圈,就以内生安全给不同业务逻辑、不同的应用场景,适配不同的解决方案。
而在社会责任的角度,朱浩齐最后说:
内容安全是社会问题,网易易盾不会给出限定的‘正确’,只会明确标注出现代国家已经共识的道德底线,以数字围栏保护人类文明的道德底线。