在当地时间周三晚间向美国加利福尼亚州北区地方法院提交的最新文件中,针对 meta 案件的原告(包括畅销书作家莎拉·西尔弗曼 (Sarah ) 和塔-内希西·科茨 (Ta- ))在一些证词中描述了 meta 的情况:透露扎克伯格批准了 meta 使用名为 Llama 相关训练的数据集。

IT之家注:它自称为“链接聚合器”,提供来自 、 、 、 Hill 等出版商的盗版作品。它曾多次因侵犯版权而被起诉、关闭、并被罚款数千万美元。
根据 meta 的证词,原告律师表示,尽管 meta 的人工智能执行团队和其他员工提出了担忧,但扎克伯格还是批准使用该数据集来训练至少一个 Llama 模型。文件中援引 meta 员工的话说,他们在内部“知道这是盗版”,并指出使用该数据集“可能会削弱 meta 与监管机构的谈判地位”。

该文件还引用了一份备忘录,指出 meta AI 团队在“升级到 MZ”后已“获准使用”。这里的“MZ”显然是“Mark ”的缩写。
周三的文件还披露了新的指控,称 meta 可能试图通过删除数据中的版权标记来掩盖侵权行为。

原告律师表示,meta 工程师 为 Llama 团队编写了一个脚本,用于删除电子书中的版权信息,据称 meta 还删除了“用于训练 Llama 的科学期刊文章和其他数据”。 “版权标记已被删除。”这一发现表明,meta 不仅仅是出于培训目的而删除版权信息,而且还可能试图掩盖其侵权行为,因为删除版权信息会阻止 Llama 输出可能揭示“侵权”的版权信息”。
meta还在证词中透露,它已被下载,一些meta工程师对此表示担忧。下载是一种通过网络共享文件的方法,要求下载者还“播种”,即上传他们试图获取的文件。

原告律师表示,meta 实质上通过下载实施了另一种形式的版权侵权,帮助传播盗版内容。不仅如此,meta还通过减少上传文件数量来掩盖其侵权行为。
该文件指出,meta 生成人工智能部门的负责人 Ahmed Al-Dahle 批准了下载,并忽略了 对其可能“不合法”的担忧。

原告律师表示:“如果meta未经授权直接购买或借用原告的作品并训练Llama模型,将构成版权侵权。meta选择绕开合法渠道,加入非法网络来证明其侵权。”


