-
大模型时代“得数据者得天下”,但数据侵权如何界定?
最后更新: 2024-01-04 12:09:41(文/陈济深 编辑/吕栋)
2023年以来,随着生成式AI的爆火,其不仅一定程度上给用户提供了便利,也在不断重塑互联网行业的竞争格局,中外诸多厂商均加入了大模型开发的战局,也间接引发了诸多的版权纠纷。
本周,纽约时报起诉OpenAI和微软违规收集其新闻进行训练一事(纽约时报起诉OpenAI和微软“不劳而获”,要求消灭),再次将大模型开发中涉嫌违规采集数据的问题暴露在公众视野之下。
据不完全统计,今年仅在美国加州,就已经有数十起针对大模型开发商违规使用数据的诉讼。
这些诉讼频发的背后是目前版权法案中,存在大模型对数据极度渴求和数据供应难以迅速增长的矛盾,“先授权后使用”的现有版权法律体系并无法匹配AI时代的数据使用方式,也引发了法律监管的新问题。
大模型训练阶段究竟涉及哪些版权利用行为,这一过程可能存在哪些侵权风险?而全球监管部门面对这个问题,也给出了各自的解答。
数据为王,版权诉讼战频发
在大模型爆炸性发展的2023年,纽约时报起诉OpenAI和微软只不过是贯彻全年版权诉讼大战的一个缩影。
今年1月,图库网站Getty Images对AI图像生成器研发公司Stability AI提起法律诉讼,指其非法复制和处理版权图像作为模型训练数据。
4月,环球音乐集团发函要求Spotify等音乐流媒体平台切断AI公司的访问权限,以阻止其版权歌曲被用于训练模型和生成音乐。
6月,国内的教培巨头学而思也被爆出,未经授权利用合作伙伴笔神作文数据进行大模型训练导致的纷争。
据不完全统计,自2022年11月至2023年10月,仅美国加州北区法院便已经受理了10起,版权人起诉Stability AI、Open AI、Meta、Alphabet等AIGC研发企业未经授权,利用版权作品进行模型训练的案件。
在被告名单上,可以看到各个互联网巨头均在其中,而侵权诉讼频发的背后则是大模型企业对于数据的极度渴求。
有业内人士对观察者网表示:“目前的大模型竞争时代下,相比算法,得数据者得天下。”
一方面,训练数据是大模型训练的基石和燃料,如果没有数据,大模型的训练就无法开展和持续。另一方面,当前技术领域的研究显示,各家大模型在算法层区别并不大,并且具有同质化的趋势。在此背景下,训练数据就成了真正区分且影响大模型性能的重要因素之一。
以OpenAI的几代GPT模型为例,训练数据上,GPT-1预训练数据量仅有5GB;到了GPT-2,这个数据则增加至40GB;而在GPT3模型下,OpenAI用以训练模型的数据集数据量达到了惊人的45TB,而相比GPT3的1750亿参数规模,GPT4相传达到了100万亿规模的参数,对于数据的需求呈指数型飙升。
相比需求的爆炸性增长,对于各家大模型企业而言,自身数据和公开数据的供应显然难以满足这种指数型的需求,从互联网和其他友商那“搭便车”成了行业内公开的秘密,也成为了目前版权诉讼频发的根本原因。
为了应对“偷数据”频发的现象,除了通过诉讼手段外,不少互联网企业也利用了技术手段开启防御模式。
目前,有多家处在“数据提供端”的公司对数据抓取、开源等做出了反应。比如X(原名Twitter)限制了用户每天能查看的推文数量,几乎使数据提供服务无法使用。马斯克对此曾表示,这是对“数据抓取”和“系统操纵”的必要反应。
2023年4月,Reddit官方宣布将对调用其API的公司收费,原因正是OpenAI、谷歌等公司利用该平台上的数据训练模型。
此外,IT技术问答网站Stack Overflow也计划向AI大模型的开发者及公司收取数据访问费用。
标签 AI大模型- 责任编辑: 陈济深
-
净利润“腰斩式”下滑,南航物流IPO募资数十亿买飞机
2024-01-04 11:51 观网财经-金融 -
时隔一年央行重启PSL,释放了什么政策信号?
2024-01-03 16:54 -
苹果仍主导全球高端机市场,余承东称华为要在中国“全面反攻”
2024-01-03 15:10 观网财经-科创 -
外媒紧盯:特斯拉首次被比亚迪超越
2024-01-03 10:46 观察者头条 -
对这项重要资源,八部门联合发布方案
2024-01-03 10:21 -
“爱泼斯坦案”数百份密封文件将公布,克林顿代号“无名氏36”
2024-01-01 14:37 -
长光卫星闯关科创板,经营活动净现金流持续为负
2023-12-31 15:47 -
“大错特错”!阿根廷宣布不加入金砖
2023-12-30 22:49 金砖国家 -
盒马CEO侯毅首谈农业品牌化:一二三产联动是趋势
2023-12-30 18:56 观网财经-互联网 -
1个月开出12家新店,大润发母公司高鑫零售加速多业态布局
2023-12-30 18:54 观网财经-互联网 -
采销固定薪酬翻倍、业绩激励上不封顶,京东重回奔腾年代
2023-12-29 21:26 观网财经-互联网 -
RTX 4090被禁售后,英伟达在中国市场推出“阉割版”
2023-12-29 18:55 观网财经-科创 -
央行:进一步提升境外来华人士的支付便利化
2023-12-29 18:31 观网财经-金融 -
统计局最终核实2022年GDP,比初步核算数减少5483亿元
2023-12-29 16:11 中国经济 -
日企控股的硅片生产商欲登陆A股,目标估值超200亿
2023-12-29 15:11 观网财经-金融 -
招商银行“逆向讨薪”近6000万
2023-12-29 14:59 -
外国人持证可在线开A股账户,头部券商已上线相关功能
2023-12-29 14:52 股市 -
华为:预计今年收入超7000亿,挑战依然严峻
2023-12-29 11:06 观网财经-科创 -
2023年人民币对美元中间价全年累计下跌近1.7%
2023-12-29 11:06 -
“半年没还月供了”,业主发帖:600万买入现挂280万没人要
2023-12-29 09:15 观网财经-房产
相关推荐 -
催泪弹、橡皮子弹乱飞,特朗普要求“解放”洛杉矶 评论 162“几天内,俄将发动巨大、残酷且无情的报复” 评论 274大问题暴露了,MAGA两派在这事上根本谈不拢 评论 92“要稳住这帮人,特朗普越来越难了” 评论 101“加州千人围攻美联邦大楼”,白宫炮轰:这是造反! 评论 3711直击印度痛点!俄罗斯要与印度合作“增强版”苏-57E,会给中国带来多大麻烦?评论 193 赞 323美国“靓丽的风景线”来了!喜闻乐见评论 157 赞 99475岁老人独自去游乐园被拒入园,游乐园设年龄“上限”门槛合理吗?评论 138 赞 35如何看待79岁的特朗普,在6月8日这天上空军一号的时候,差点摔了一跤?评论 103 赞 56如何看待北大辛德勇教授,怀疑“采药昆仑”石刻乃今人伪刻?评论 88 赞 88稀土将成为中国管制世界的手段评论 82 赞 729局面加速雪崩,马斯克凶多吉少!评论 65 赞 910我还是要劝年轻人要有信心评论 61 赞 5最新闻 Hot
-
催泪弹、橡皮子弹乱飞,特朗普要求“解放”洛杉矶
-
欧洲车企学上了:中国流行的技术,能帮助降价
-
以军登上“环保少女”搭乘的救援船,目前船只失联
-
身家1458亿元!泡泡玛特“85后”创始人王宁成河南新首富
-
“英国人直接在方向盘上睡着了”
-
“要稳住这帮人,特朗普越来越难了”
-
班农“爆猛料”:他俩曾大打出手
-
发完拒签令隔天就改口,美国务院:恢复处理
-
中非军事合作,美国又“担忧”了
-
马斯克“越过红线”,美政府急寻SpaceX替代品
-
马斯克删帖了
-
“加州千人围攻美联邦大楼”,白宫炮轰:这是造反!
-
“乌方拒收阵亡士兵遗体是自我种族灭绝”
-
“超越日本,中国首次跃居第一”
-
“苦谈五轮,依旧无果”
-
万斯“劝架”:马斯克犯了大错,但希望他归队
-