Tumblr 和 Wordpress 将向 OpenAI 出售用户数据

WordPress 和 Tumblr 背后的公司 Automattic 正在洽谈通过将其数据出售给 MidJourney 和 OpenAI 等人工智能公司来通过用户内容获利。来自博客平台 Tumblr 和 WordPress.com 的数据将用于训练 AI 模型。

尽管交易细节尚不清楚，但这一消息引起了用户的担忧，担心这两个博客平台上的私人内容可能被滥用。 404 Media 还表示，Automattic 内部出现了内部冲突，因为收集的内容包括不打算保留在公司内部的私人数据。

为了应对这种强烈反对，Automattic 将推出一项新功能，允许用户选择不共享人工智能训练数据。该公司在一篇博客文章中确认了其致力于为 Tumblr 和 Wordpress 用户提供对其内容的更多控制权。提到发布一个设置 “阻止人工智能公司的探索”，解释说领先的人工智能探索平台默认被屏蔽。

开发人工智能模型的公司使用博客内容的问题不仅限于 Automattic 公司管理的平台。 OpenAI 和 Google 都使用爬虫机器人从所有网站收集信息来训练他们的人工智能模型。该过程类似于搜索引擎收集数据。

如何阻止 OpenAI 和 Gemini (Bard) 从您的博客获取数据？

如果您是博客或网站的所有者，并且不希望其中的数据用于训练 OpenAI 和 Gemini 人工智能模型，您可以阻止机器人（爬虫）访问内容。 This restriction can be set via the file robots.txt。

OpenAI Crawlers

User-agent: GPTBot
Disallow: /

Gemini Crawlers

User-agent: Google-Extended
Disallow: /

保存包含新行的 robots.txt 文件后，转到 Google Console 以： Settings > robots.txt > click pe meniul cu cele trei puncte, click “Request a recrawl“。

对于 Tumblr 和 Wordpress 用户来说，可以通过 Automattic 公司提供的工具来阻止 OpenAI 或其他人工智能开发公司从博客检索数据的访问。