这些行动背后的逻辑都在于,当今大型语言模型训练的大量数据资源来自于互联网。然而就训练生成式人工智能而言,似乎已经难有更多的免费午餐。
一方面,《纽约时报》、CNN、路透社和The Verge的母公司Vox Media最近阻止了OpenAI的GPT爬虫访问数据。另一方面,一些组织认为基于其数据进行训练构成版权侵权。
最近,《纽约时报》在美国联邦法院起诉OpenAI和微软,指控这两家科技公司非法使用“数百万篇”受《纽约时报》版权保护的文章,帮助开发ChatGPT和必应等工具背后的人工智能模型。这是一系列诉讼中最新的一起,也是关注度最高的一起,这些诉讼指控各种科技和人工智能公司侵犯了媒体公司、摄影网站、图书作者和艺术家的知识产权。
一些法律专家表示,这些案件加在一起,有可能动摇蓬勃发展的生成式人工智能行业的基础,但它们也可能落空。这是因为科技公司可能会严重依赖一个过去对它们很有帮助的法律概念:“合理使用”原则。
从广义上讲,版权法区分了逐字抄袭别人的作品和“重新混合”或将其用于新的、创造性的用途,前者通常属于非法。康奈尔大学数字和信息法教授詹姆斯·格里梅尔曼(James Grimmelmann)在接受《华盛顿邮报》采访时表示,人工智能系统令人困惑的是,在这种情况下,它们似乎两者都在做。
OpenAI和微软已经在进行类似的辩护。去年11月,OpenAI在提交给美国版权局的一份文件中写道:“我们认为,人工智能模型的训练符合合理使用的条件,完全符合现有的先例,即技术创新者以变革性方式使用受版权保护的材料,这完全符合版权法。”
格里梅尔曼则表示,生成式人工智能代表了“这一重大的技术变革,它可以制作任何东西的混合版本”。“挑战在于,这些模型还可以明目张胆地记住它们训练过的作品,并经常复制出几乎一模一样的作品。”他说,这是“传统上版权法禁止的核心内容”。
|