ChatGPT还能飞多远？

【大中小】【打印】

	ChatGPT还能飞多远？
	http://www.CRNTT.com 2023-02-14 18:01:08

　　预训练“机器人”潜藏侵权风险和监管隐忧

　　以ChatGPT为代表的预训练模型“机器人”，在预训练过程中需要“投喂”海量数据，才能使得模型能够成功理解人类语言并模拟出愈加真实的类人表达方式。

　　据OpenAI的相关论文透露，ChatGPT的训练集使用了总计约320TB的文字信息，涵盖超4000亿词和约31亿个网页，其中包括来自新闻、博客、社交媒体的内容。

　　但这种未经授权获取文本数据的预训练方式已引发争议和不满。推特（Twitter）现任首席执行官埃隆·马斯克就于近日宣布，叫停ChatGPT访问Twitter数据库来获取培训数据，声称“需要更多瞭解OpenAI的治理结构和未来收入计划”。

　　无独有偶，近日，拥有国际性体育资源的盖蒂图片社对同为人工智能企业的Stability　AI提起诉讼，指责其未经许可从其数据库中复制了1200多万张图片，用于建立竞争性业务，并侵犯了该公司的版权和商标保护权。

　　张勇东表示，类似ChatGPT这样的预训练模型，其训练数据往往来源于书籍、网站等，而其用于训练的语料未经授权，存在版权风险。且这种训练过程往往不对外公开，训练数据也不对外公布，因此版权拥有者并不知情。待模型完成后，生成的内容往往是原始训练数据的某种组合，对外服务过程中就会存在侵犯原始版权的问题。

　【第1页第2页第3页第4页第5页第6页第7页】　

【大中小】【打印】扫描二维码访问中评社微信

相关新闻：

智算为人工智能夯实“算力底座” (2023-02-14 18:00:39)
ChatGPT取代医生？辅助而非代替 (2023-02-14 17:37:05)
找准切入点　加速AI落地 (2023-02-14 17:36:34)
人工智能进入“深度学习＋”阶段 (2023-02-14 17:36:16)
第四届中国人工智能大赛正式启动 (2023-02-14 17:35:41)
韩国初创企业发布AI芯片 (2023-02-14 16:27:52)
ChatGPT　创新之后的待解之问 (2023-02-13 15:59:34)
北京拥有人工智能核心企业1048家 (2023-02-13 15:58:38)
智算为人工智能夯实“算力底座” (2023-02-13 10:21:03)
《大公报》与ChatGPT对话实测 (2023-02-11 12:52:12)