首页 > 资讯 > 综合 > 正文
2023-12-17 19:55

Meta不顾自己律师的警告,使用受版权保护的书籍进行人工智能训练

纽约:

meta平台的律师曾警告该公司,使用数千本盗版书籍来训练其人工智能模型存在法律风险,但根据今年夏天提起的一项版权侵权诉讼的新文件,该公司还是这么做了。

周一深夜提交的新文件整合了喜剧演员莎拉·西尔弗曼(Sarah Silverman)、普利策奖得主迈克尔·查邦(Michael Chabon)和其他知名作家对Facebook和Instagram所有者提起的两起诉讼,他们指控meta未经许可使用他们的作品来训练其人工智能语言模型Llama。

上个月,一名加州法官驳回了西尔弗曼的部分诉讼,并表示他将允许两位作者修改他们的主张。

meta没有立即回应对这些指控发表评论的请求。

周一提起的新诉讼包括一名与meta有关联的研究人员讨论在Discord服务器上采购数据集的聊天记录,这可能是一个重要证据,表明meta意识到其对这些图书的使用可能不受美国版权法的保护。

在诉状中引用的聊天记录中,研究人员蒂姆·德特默斯(Tim Dettmers)描述了他与meta的法律部门就使用图书文件作为训练数据是否“合法”进行的反复讨论。

“在Facebook,有很多人有兴趣与(T) (P)文件合作,包括我自己,但由于法律原因,我们目前无法使用它,”德特默斯在2021年写道,根据诉状,他指的是一个数据集元数据,该数据集元数据已被承认用于训练其第一个版本的羊驼。

前一个月,德特默斯写道,meta的律师告诉他,“如果他们接受过这些数据的培训,就不能使用这些数据,或者不能发布模型,”起诉书称。

虽然德特默斯没有描述律师们的担忧,但他在聊天中的同行们认为,“拥有有效版权的书籍”最可能是担忧的来源。他们表示,对数据的培训应该“属于合理使用”,这是一项美国法律原则,旨在保护某些未经许可使用受版权保护的作品。

德特默斯是华盛顿大学的博士生,他告诉路透社,他无法立即对这些说法发表评论。

科技公司今年面临着内容创作者的一系列诉讼,内容创作者指控它们剽窃受版权保护的作品,以构建生成式人工智能模型,这些模型在全球引起了轰动,并引发了投资狂潮。

如果成功,这些案例可能会抑制生成式人工智能的热潮,因为它们可能会迫使人工智能公司向艺术家、作家和其他内容创作者支付使用他们作品的费用,从而提高构建数据密集型模型的成本。

与此同时,欧洲监管人工智能的新临时规定可能会迫使企业披露它们用来训练模型的数据,这可能使它们面临更大的法律风险。

meta在2月份发布了Llama大型语言模型的第一个版本,并发布了用于训练的数据集列表,包括“ThePile的Books3部分”。起诉书称,收集该数据集的人曾在其他地方说过,该数据集包含196,640本书。

该公司没有透露其最新型号“羊驼2”(Llama 2)的训练数据,该车型已于今年夏天投入商业使用。

对于月活跃用户少于7亿的公司来说,Llama 2是免费的。在科技行业,它的发布被视为生成式人工智能软件市场的潜在游戏规则改变者,有可能颠覆OpenAI和谷歌等对其模型收费的公司的主导地位。