Stichting Brein 获取大量非法数据用于离线 AI 训练

本文最后更新于 14 8 月, 2024

版权组织 Stichting Brein 下线了荷兰的一个数据集，该数据集是用于训练人工智能 (AI) 的数据集。据该组织称，这是荷兰首次发生这种情况。

Brein 自己谈到了一个“大型数据集”，根据该组织的说法，该数据集包含数万本书的非法副本、来自 Nu.nl 等网站的新闻文章中的数百万行内容以及来自非法网站的无数电影和电视剧的字幕。来源。导演巴斯蒂安·范拉姆肖斯特也表示，他知道创作者是谁，但出于隐私原因不能透露。

使用数据集

该数据集旨在训练所谓的语言模型，用行话来说，这些模型称为大型语言模型。该数据集的创建者已书面承诺 Brein 不再使用它，并提供了有关接收者的信息。该基金会目前正在检查这些数据是否已被人工智能模型实际使用。若属实，将追究当事人的责任。

版权侵权材料是训练人工智能时的一个主要问题。最近的研究表明，荷兰图像制作者的作品在未经许可的情况下被用来训练著名的人工智能图像生成器，包括 DALL-E 和 Midjourney。

在美国，《纽约时报》和 ChatGPT 的制造商 OpenAI 之间目前正在提起诉讼。该报指责该公司未经许可使用大量报纸文章来训练人工智能。 OpenAI 认为使用这些数据是被允许的。

施蒂廷·布赖因

和朋友分享