8月14日
Nature官网发布文章称
多家学术出版商正在向科技公司
出售研究论文的使用权
用于训练AI模型
这些交易在很多情况下
并未征求作者的意见
引发了部分研究人员的强烈不满
被“出卖”的论文
Nature称
英国学术出版商
泰勒-弗朗西斯(Taylor &Francis)
已经和微软签署了一项
价值1000万美元的协议
允许微软获取它的数据
来改进AI系统
6月有消息称
美国出版商Wiley
允许某家公司使用其内容训练模型
从而赚取了2300万美元
Nature称
这些论文涵盖了
自然科学、社会科学等多个领域
成为了AI模型训练的重要语料
在瑞士日内瓦举行的2024年“人工智能造福人类全球峰会”上,绘画机器人演示作画。
图源:新华社
Nature文章认为
当前学术论文作者
在面对出版商出售其版权作品时
几乎无权干涉
对于公开发表的文章
也没有现成机制来确认这些内容
是否被用作AI训练数据
在大语言模型使用中
如何建立更加公平的机制
保护创作者的权益
值得学术界和版权界广泛讨论
AI数据不够
论文来“凑”
人工智能大模型发展的三大要素
是数据、算法、算力
随着AI技术的快速发展
对训练数据的需求日益旺盛
有媒体称
2021年末
正在训练GPT-4的OpenAI
遇到一个棘手的问题
其训练已耗尽互联网上
可靠的英文文本资源
当时
为了处理这个问题
OpenAI用Youtube平台的视频音频
转录成大量的对话文本
之后进行训练
7月2日,工作人员在2024全球数字经济大会数字经济沉浸式体验区与数字人交流。
新华社记者 任超 摄
如今
科技巨头将视角转向了
学术出版商
学术论文作为
科研领域的智慧结晶
成为争相购买的“香饽饽”
以自然语言处理为例
通过大量论文的训练
AI模型可以更好地理解
学术领域的知识
提高其准确性
谷歌、微软等科技巨头
纷纷投入巨资购买语料库
以期在AI领域占据竞争优势
金融时报已经把自己的内容
以相当可观的价格
卖给了OpenAI
社交新闻站点Reddit
也和谷歌达成了类似的协议
这些交易体现出
出版商试图通过合法授权
避免自己的内容被AI模型无偿抓取
训练数据困境
如何破局
和出版商合作
只是科技公司解决
训练数据不足问题的缩影
近期
经济学人杂志发布文章
《AI公司很快将耗尽大部分互联网数据》
预测互联网上可用的
人类文本数据将在四年后耗尽
4月23日,在德国汉诺威工博会上,参观者与一款智能机器人进行“石头剪子布”游戏。
新华社记者 任鹏飞 摄
面对这样的问题
OpenAI创始人、CEO山姆 奥特曼
已经提出了一种解决方法:
像OpenAI这样的公司
最终会转向使用AI生成的数据
(也被称为合成数据)来训练AI
开发人员在创建愈发强大技术的同时
也会减少对受版权保护数据的依赖
当然
这种技术路径是否可行
目前仍存争议
Nature杂志的一篇封面文章认为
如果放任大模型
用自动生成的数据训练自己
AI可能会自我退化
在短短几代内将原始内容
迭代成无法挽回的胡言乱语
除了合成数据的办法
公共数据的进一步开放共享
也被视为一条行之有效的路径
兴业证券报告指出
加强公共数据的开放开发
是当前解决数据分散
提升训练数据质量的重要举措
参考丨Nature、澎湃新闻、财联社、21世纪经济报道