研究称AI大模型可能会在2026年消耗完互联网上所有免费信息
创始人
2024-06-22 09:01:13
0

鞭牛士报道,6月22日消息,据外电报道,一项新研究警告称,人工智能(AI)系统可能最早在 2026 年吞噬互联网上的所有免费知识。

为 ChatGPT 提供支持的GPT-4或Claude 3 Opus等人工智能模型依赖于在线共享的数万亿个单词来变得更加智能,但新的预测表明,它们将在 2026 年至 2032 年之间的某个时候耗尽公开可用的数据。

这意味着,为了建立更好的模型,科技公司将需要开始从其他地方寻找数据。这可能包括生成合成数据、转向质量较低的来源,或者更令人担忧的是,利用存储消息和电子邮件的服务器中的私人数据。

研究人员于 6 月 4 日在预印本服务器arXiv上发表了他们的研究结果。

「如果聊天机器人消耗了所有可用的数据,而数据效率没有进一步提高,我预计该领域将出现相对停滞。」研究第一作者、研究机构 Epoch AI 的研究员Pablo Villalobos告诉 Live Science。「随着新算法见解的发现和新数据的自然产生,模型只会随着时间的推移而缓慢改进。」

训练数据推动了人工智能系统的发展——使它们能够找出越来越复杂的模式,并将其扎根于神经网络中。例如,ChatGPT 的训练使用了大约 570 GB 的文本数据,总计约 3000 亿个单词,这些数据来自书籍、在线文章、维基百科和其他在线资源。

在不充分或低质量的数据上训练的算法会产生粗略的输出。谷歌的 Gemini AI 曾臭名昭著地建议人们在披萨上加胶水或吃石头,它的部分答案来自 Reddit 帖子和讽刺网站 The Onion 的文章。

为了估算网上有多少文本可用,研究人员使用了谷歌的网络索引,计算出目前大约有 2500 亿个网页,每个网页包含 7,000 字节的文本。然后,他们通过对互联网协议 (IP) 流量(网络上的数据流)和在线用户活动的后续分析来预测可用数据库存的增长。

研究结果显示,来自可靠来源的高质量信息最迟将在 2032 年之前耗尽,而低质量的语言数据将在 2030 年至 2050 年间耗尽。与此同时,图像数据将在 2030 年至 2060 年间被完全消耗。

事实证明,随着数据集的增加,神经网络会可预测地得到改善,这种现象称为神经缩放定律。因此,尚不清楚公司是否可以提高模型的效率以解决缺乏新数据的问题,或者关闭水龙头是否会导致模型改进停滞不前。

然而,维拉洛博斯表示,数据稀缺似乎不太可能显著抑制未来人工智能模型的发展。这是因为公司可以采用多种可能的方法来解决这个问题。

「越来越多的公司开始尝试使用私人数据来训练模型,例如Meta 即将推出的政策变化。」他补充道,该公司宣布将从 6 月 26 日起利用与平台上聊天机器人的互动来训练其生成式人工智能。「如果他们成功做到这一点,并且私人数据的实用性与公共网络数据相当,那么领先的人工智能公司很可能将拥有足够多的数据,可以持续到本世纪末。到那时,其他瓶颈(如功耗、不断增加的培训成本和硬件可用性)可能比缺乏数据更为紧迫。」

另一种选择是使用合成的、人工生成的数据来喂养饥饿的模型——尽管这以前只在游戏、编码和数学的训练系统中成功使用过。

或者,如果公司试图在未经许可的情况下获取知识产权或私人信息,一些专家预计未来将面临法律挑战。

「内容创作者抗议未经授权使用其内容来训练人工智能模型,其中一些人起诉了微软、OpenAI和Stability AI等公司。」技术和知识产权法专家、澳大利亚麦考瑞大学副教授Rita Matulionyte在 The Conversation 中写道。「获得报酬可能有助于恢复创意人员和人工智能公司之间存在的一些权力不平衡。」

研究人员指出,数据稀缺并不是人工智能持续改进的唯一挑战。根据国际能源署的数据,由 ChatGPT 驱动的谷歌搜索消耗的电量几乎是传统搜索的 10 倍。这使得科技领袖们试图开发核聚变初创企业来为他们耗电的数据中心提供能源,尽管这种新兴的发电方法还远未可行。

相关内容

热门资讯

航迹通取得拔销器复位工装专利,... 国家知识产权局信息显示,航迹通(上海)信息技术有限公司取得一项名为“一种拔销器复位工装”的专利,授权...
原创 2... 一、钛金属旗舰的全新进化 当我们将iPhone 16 Pro Max握在手中时,首先感受到的是6....
筑牢算网底座 赋能三晋转型 技术人员讨论数字影像云平台建设方案。山西联通供图 负责人说 核心观点: 锚定“十五五”发展蓝图,服...
防止沉迷AI!苹果或在iOS ... 【CNMO科技消息】据最新发现的代码线索,苹果iOS 27系统中包含一项可能的新功能:Siri AI...
原创 可... 前言 距离实现可控核聚变还有五十年?这种说法放在2026年,已经和1901年“比空气重的东西永远飞...
2026年水务展厅新标杆:全息... 走进水务展厅,最让人震撼的往往不是静态的管道模型或监控大屏,而是一台能实时“活”起来的全息数字孪生沙...
从“技术旁观者”到“问题解决者... 来源:滚动播报 (来源:上观新闻) 以“让世界充满AI”为主题的第六届长三角青少年人工智能奥林匹...
机器人概念股走低,机器人ETF... 每经记者:叶峰 每经编辑:肖芮冬 机器人概念股走低,大族激光、拓普集团、中控技术、双环传动跌超4%。...
太原康恒取得沟道照明设备专利,... 国家知识产权局信息显示,太原康恒再生能源有限公司取得一项名为“沟道照明设备”的专利,授权公告号CN2...
原创 除... 世界第一份来自月球背面的月壤,除了中国之外,第一个获得嫦娥六号月球背面月壤的国家来了,其1935.3...