中文 / English

首页 > 新闻中心

警告！AI将用完互联网所有免费知识

2024-07-02来源：世界互联网大会

Share - WeChat

　　美国趣味科学网站报道

　　一项最新研究发出警告

　　最快到2026年

　　人工智能（AI）系统就可能

　　用完互联网上所有免费知识

　　难道

　　AI模型要挨饿了？

警告！AI将用完互联网所有免费知识

　　AI模型的数据“饕餮盛宴”

　　AI模型的发展

　　离不开大量数据

　　从图像识别到自然语言处理

　　从自动驾驶到医疗诊断

　　每一个成功的AI应用背后

　　都有着海量数据的支撑

　　研究团队发现

　　ChatGPT使用了

　　来自书本、网络文章、维基百科

　　及其他网络资源

　　约570GB、3000亿个单词的文本数据

　　进行训练

警告！AI将用完互联网所有免费知识

　　随着AI模型的不断进步

　　其对数据的需求也在增加

　　如果训练AI算法的数据

　　不足或质量较低

　　就可能产生低质量结果

　　例如

　　美国谷歌公司的“双子座”AI

　　曾建议网友吃石头

　　或者给披萨涂胶水

　　网络公开数据的“有限供给”

　　虽然网络公开数据的规模

　　在不断扩大

　　但与AI模型的需求相比

　　仍然显得捉襟见肘

　　研究团队使用谷歌网页索引

　　计算出目前的网页总数

　　约为2500亿个

　　其中每个页面

　　包含约7000字节文本

警告！AI将用完互联网所有免费知识

　　根据最新预测

　　AI模型将在2026年至2032年间

　　用完所有网络公开数据

　　图像数据也预计

　　将在2030年至2060年耗尽

　　随着AI技术的深入发展

　　对于数据的质量和多样性要求

　　也越来越高

　　这无疑加剧了数据的供需矛盾

警告！AI将用完互联网所有免费知识

　　数据资源的短缺

　　可能会限制AI模型的训练和优化

　　美国人工智能时代研究所

　　研究员巴勃罗·比利亚洛沃斯认为

　　假如聊天机器人耗尽所有可用数据

　　而数据效率没有进一步提升

　　预计该领域的发展将陷入相对停滞

　　如何应对数据“饥荒”？

　　前几天

　　《时代》杂志与OpenAI宣布

　　两家公司达成了一项为期多年的

　　内容协议和战略合作伙伴关系

　　该协议允许OpenAI

　　将《时代》杂志内容引入ChatGPT

　　并帮助训练其最先进的人工智能模型

　　据介绍

　　OpenAI可以通过这笔交易

　　访问《时代》过去100多年的

　　档案和文章

警告！AI将用完互联网所有免费知识

　与此同时

　　OpenAI还在与数十家出版商

　　洽谈内容授权协议

　　从私人数据库中获取数据

　　正成为AI科技公司解决

　　数据“饥荒”的方向

　　比利亚洛沃斯认为

　　如果相关措施成功落地

　　并且私人数据

　　与公共网络数据一样有用

　　那么主要AI企业

　　有望在2030年以前

　　保持足够多的数据量

　　不过

　　有业内人士警告

　　如果有企业

　　试图在未经许可的情况下

　　获取知识产权或者私人信息

　　可能会面临司法风险

　　撰文：李飞、刘鑫坤 排版：李汶键 统筹：李政葳

　　参考丨参考消息网、经济参考报、财联社、每日经济新闻、中国经济网、中国发展网

2022年7月12日，世界互联网大会国际组织正式成立，从互联网领域的国际盛会发展为国际组织，总部设于中国北京。我们将致力于搭建全球互联网共商共建共享平台，推动国际社会顺应信息时代数字化、网络化、智能化趋势，共迎安全挑战，共谋发展福祉，携手构建网络空间命运共同体。