WordPress 和 Tumblr 背后的公司 Automattic 正在洽谈通过将其数据出售给 MidJourney 和 OpenAI 等人工智能公司来通过用户内容获利。来自博客平台 Tumblr 和 WordPress.com 的数据将用于训练 AI 模型。
尽管交易细节尚不清楚,但这一消息引起了用户的担忧,担心这两个博客平台上的私人内容可能被滥用。 404 Media 还表示,Automattic 内部出现了内部冲突,因为收集的内容包括不打算保留在公司内部的私人数据。
为了应对这种强烈反对,Automattic 将推出一项新功能,允许用户选择不共享人工智能训练数据。该公司在一篇博客文章中确认了其致力于为 Tumblr 和 Wordpress 用户提供对其内容的更多控制权。提到发布一个设置 “阻止人工智能公司的探索”,解释说领先的人工智能探索平台默认被屏蔽。
开发人工智能模型的公司使用博客内容的问题不仅限于 Automattic 公司管理的平台。 OpenAI 和 Google 都使用爬虫机器人从所有网站收集信息来训练他们的人工智能模型。该过程类似于搜索引擎收集数据。
如何阻止 OpenAI 和 Gemini (Bard) 从您的博客获取数据?
如果您是博客或网站的所有者,并且不希望其中的数据用于训练 OpenAI 和 Gemini 人工智能模型,您可以阻止机器人(爬虫)访问内容。 This restriction can be set via the file robots.txt。
OpenAI Crawlers
User-agent: GPTBot
Disallow: /
Gemini Crawlers
User-agent: Google-Extended
Disallow: /
保存包含新行的 robots.txt 文件后,转到 Google Console 以: Settings > robots.txt > click pe meniul cu cele trei puncte, click “Request a recrawl“。

有关的: GPT-5和OpenAi开发的新攻击者GPTBOT网络
对于 Tumblr 和 Wordpress 用户来说,可以通过 Automattic 公司提供的工具来阻止 OpenAI 或其他人工智能开发公司从博客检索数据的访问。