这名 26 岁的男子已在该公司工作了四年,他指控该公司侵犯版权,并于上月底被发现死在他位于旧金山的公寓中。
旧金山警方表示,11月26日下午1点左右,他们接到电话要求查看他的健康状况,但到达后发现他已经死亡。
这位举报人手中的信息将在诉讼中发挥关键作用。
如今,他却意外去世。
法医办公室确定死因是自杀。警方还表示,“没有发现他杀的证据”。
他在X上的最后一个帖子是介绍他对培训是否违法的想法和分析。
他还强调,希望这不要被解读为对其本身的批评。
如今,网友们纷纷在这条帖子下表达哀悼。

布拉吉的朋友也表示,他很聪明,看上去不像是会自杀的人。
举报人警告:训练模型时违反原则
参与了开发过程和底层模型。
他在今年10月发表的一篇博文中指出,该公司利用新闻和其他网站的信息来训练其人工智能模型,违反了“合理使用”原则。
博客地址:
然而,他在公开指控违反美国版权法后仅三个月就去世了。
为什么11月底的事件到12月中旬才曝光?网友们也纷纷表示质疑
事实上,自 2022 年底公开发布以来,它已经面临作家、程序员、记者和其他团体的一波又一波的诉讼。
他们认为,通过非法使用自己的版权材料来训练AI模型,该公司的估值已升至超过1500亿美元,但他们只享受了果实。
今年10月23日,《纽约时报》发表了对习近平的采访,习近平指出,数据被利用的企业和企业家的利益正在受到损害。

“如果你同意我的观点,你就必须离开公司。这对于整个互联网生态系统来说不是一个可持续的模式。”
一个理想主义者的死亡
他在加利福尼亚长大,十几岁的时候,他发现了一份关于让人工智能自己玩雅达利游戏的报告,并对此产生了兴趣。
高中毕业后的空档年,我开始探索其背后的关键概念——神经网络数学系统。
本科就读于加州大学伯克利分校,主修计算机科学。在大学期间,他相信人工智能可以给社会带来巨大的好处,比如治愈疾病、延缓衰老。在他看来,我们可以创造某种科学家来解决此类问题。
2020年,他和一群伯克利毕业生一起去上班。
然而,加入并担任研究员两年后,他的想法开始发生变化。
在那里,他被分配了为 GPT-4 收集互联网数据的任务,GPT-4 是一个神经网络,花了几个月的时间分析互联网上几乎所有的英语文本。
认为这种做法违反了美国关于已发表作品的“合理使用”法。今年10月底,他在个人网站上发表文章论证了这一观点。

目前没有已知因素可以证明其训练数据的使用是合理的。然而,应该指出的是,这些论点并不限于此。类似的讨论也适用于各个领域的许多生成式人工智能产品。
《纽约时报》的律师表示,它拥有“独特且相关的文件”,这将在针对《纽约时报》的诉讼中极为有利。
在准备收集证据之前,《纽约时报》提到,至少有12人(大多是前任或现任员工)拥有对案件有帮助的材料。
它的估值在过去一年里翻了一番,但新闻机构认为该公司和微软抄袭并盗用了自己的文章,严重损害了他们的商业模式。
诉讼称——
微软和微软轻而易举地攫取了为当地报纸做出贡献的记者、记者、评论员、编辑和其他人的劳动成果——完全无视这些创作者和出版商为当地社区提供新闻的努力,更不用说他们的合法权利了。
这些指控均被坚决否认。他们强调,大型模型训练的所有工作均符合“合理使用”的法律规定。
为什么数据没有“合理使用”?
为什么会违反“合理使用”?详细的分析在一篇冗长的博客文章中进行了阐述。
他引用了 1976 年《版权法》第 107 条中“合理使用”的定义。

是否符合“合理使用”,应考虑的因素包括以下四个因素:
(1) 使用的目的和性质,包括使用是商业性质还是非营利教育目的; (2) 受版权保护的作品的性质; (3) 使用部分相对于整个受版权保护的作品的数量和重要性; (四)使用对版权作品潜在市场或价值的影响。
按(4)、(1)、(2)、(3)的顺序进行详细论证。
因素(4):对版权作品的潜在市场影响
因为训练集对市场价值的影响会根据数据源的不同而有所不同,而且由于训练集不是公开的,所以这个问题无法直接回答。
然而,一些研究可以量化这一结果。
《生成式人工智能对在线知识社区的影响》发现,Stack 发布后流量下降了约 12%。
此外,推出后每个主题提出的问题数量有所下降。
提问者的平均账户年龄在发帖后也呈上升趋势,这表明新成员要么没有加入,要么正在离开社区。
显然,Stack 并不是唯一受影响的网站。例如,家庭作业帮助网站 Chegg 在报告其增长受到损害后,其股价下跌了 40%。

当然,像这样的模型开发商也与Stack、美联社、新闻集团等签署了数据许可协议。
但签订协议后,这些数据是否就被认为是“合理使用”呢?
综上所述,鉴于数据许可市场的存在,在未获得类似许可协议的情况下使用受版权保护的数据进行培训也构成对市场的损害,因为它剥夺了版权所有者的合法收入来源。
因素(1):使用目的和性质,无论是商业目的还是教育目的
书评者可能会在评论中引用一本书的摘录,尽管这可能会损害该书的市场价值,但它仍然被认为是合理使用,因为不存在替代或竞争。
替代性使用和非替代性使用之间的这种区别源于 1841 年的马什诉马什案,这是确立合理使用原则的里程碑式案件。
问题出现了 - 作为一种商业产品,它是否具有与用于训练它的数据类似的目的?
显然,在此过程中,会创建与原始内容直接竞争的替代内容。
例如,如果你想知道“为什么浮点计算中0.1+0.2=0.”这样的编程问题,你可以直接问这个问题(左),而不必搜索Stack(右)。


