一旦你学到了东西,就很难忘记。可以想象,这个道理同样适用于机器,特别是对于使用数十亿个参数进行训练的大语言模型(LLM)。在当下,大语言模型能够处理语言或生成以假乱真的图像,许多未解决的伦理问题继续出现:包括OpenAI因使用受版权保护的新闻文章来训练其AI模型而被起诉,以及艺术家们指控科技公司未经许可非法使用他们的作品作为训练数据。
诚然,AI领域的发展现状是一个道德雷区,这导致了最近所谓的“机器遗忘”(Machine Unlearning)方兴未艾。
华威大学攻读博士的机器学习和数据系统研究助理Meghdad Kurmanji向我们解释:“实际上,像ChatGPT这样的机器学习模型是使用庞大数据集训练的。机器遗忘就是让受过训练的模型‘遗忘’数据的特定部分。这个概念有几种应用。比如说,它可以通过允许个人在AI时代行使‘被遗忘权’来保护隐私。设想一下这个场景:某个名人的脸未经允许用于人脸识别系统中,可以从模型的记忆中删除。此外,遗忘有助于版权和知识产权保护,最近涉及聊天机器人模型的诉讼就突显了这一点,比如《纽约时报》诉OpenAI案。最后,遗忘有助于解决机器学习模型中的偏见,带来更值得信赖的AI系统。”
自2015年的一篇论文首次提及以来,人工智能研究的这个日益重要的子领域旨在设计方法,使AI模型可以有效地“遗忘”选定的训练信息,又不会对其性能产生负面影响——最重要的是,不需要从头开始重新训练,不然费钱又费时。
但选择性地从AI模型中删除数据不像从计算机硬盘中删除文件那么简单。许多模型就如同神秘莫测的黑匣子,使得机器遗忘不像从已烘烤好的蛋糕上去掉某种成分一样简单。
随着围绕人工智能的伦理考量和监管不断发展,尤其是在涉及安全或隐私问题、有害偏见、过时或虚假的信息或者不安全的内容时,这种“遗忘”功能将变得更加重要。
而且,机器遗忘可以帮助AI实现未来在数据隐私、公平和合规方面的目标,并有助于缓解模型中的概念漂移:数据中的底层模式可能会逐渐发生变化,从而导致预测的准确性降低。
从广义上讲,机器学习有两种方法:精确遗忘和近似遗忘。
精确遗忘:又称完美遗忘,它需要从头开始重新训练AI模型,不涉及删除数据。这种方法的优点是,它确保特定数据点的删除不会损害模型的性能,缺点是它通常需要大量的计算资源,适合不太复杂的AI模型。
精确遗忘的例子包括反向最近邻(RNN)等技术,通过调整相邻的其他数据点来补偿数据点的移除。k近邻是一种类似的技术,根据数据点与目标数据点的邻近程度来删除而不是调整数据点。
另一种精确的遗忘方法是将数据集分成两个独立的子集,然后训练两个部分模型。这两个模型以后可以通过一个名为分片(Sharding)的过程加以合并。如果需要消除数据集中的特定数据点,就可以修改这个特定数据集,并在再次分片之前使用该数据集重新训练部分模型。
近似遗忘:又叫有界遗忘或认证遗忘,旨在将遗忘数据的影响最小化到可接受的程度,而不是完全消除。在计算资源和存储成本受限的场合下,或者需要更灵活的解决方案时,近似遗忘方法可能更可取。这种方法的缺点是它们不能完全去除遗忘数据的所有痕迹,并且很难验证或证明遗忘过程的有效性。
近似遗忘的一个例子是局部异常因子(LOF)技术,这种技术可以识别和删除数据集中的异常数据点,以增强模型性能。
与之相仿,隔离森林(IF)等算法可用于创建带有随机子采样数据的决策树。这些数据基于随机选择的特征加以处理,目的是评估任何明显的异常,随后将其丢弃。相比精确遗忘方法,这些近似遗忘方法更容易针对LLM之类的庞大模型加以调整或改动。
目前还没有一种通用的解决方案可以支持机器遗忘的不同应用,不过像Kurmanji这样的研究人员正在开发一种更通用的遗忘工具。
以Kurmanji为例,他与华威大学和谷歌DeepMind的研究团队已开发了一种名为SCRUB的工具,有望解决各种各样的问题:消除偏见、保护用户隐私,以及解决因数据标注错误而导致的模型混乱。
Kurmanji说:“SCRUB是基于一种名为‘师生’框架的机器学习方法而设计的。其工作原理如下,一个预先训练好的模型(‘教师’)指导一个新模型(‘学生’)的训练。SCRUB使这个概念更进一步。在训练新模型时,SCRUB让它针对我们想要遗忘的数据‘不服从’教师模型,针对其余数据则‘服从’教师模型。通过最小化或最大化模型输出之间的相似性度量指标管理这种相互作用。然而,SCRUB有时会过度遗忘数据点,使其变得很明显。这时候SCRUB+R算法就有了用武之地,它对遗忘过程进行微调,以控制遗忘的程度。”
机器遗忘方面仍然存在许多挑战,无论是缺乏标准化的评估度量指标,还是兼容性和可扩展性方面的潜在问题。但随着将来出现更庞大更复杂的AI模型,机器遗忘概念将成为AI领域越来越重要的一部分。也许这将促使AI专家与法律、数据隐私和道德等领域的专业人士进行更密切的合作,以更好地定义未来的负责任AI实践和工具。