Tumblr y WordPress venderán datos de usuarios a OpenAi

Automattic, la empresa detrás de WordPress y Tumblr, está en conversaciones para monetizar el contenido de los usuarios vendiendo sus datos a empresas de inteligencia artificial, incluidas MidJourney y OpenAI. Estos datos de las plataformas de blogs Tumblr y WordPress.com se utilizarán para entrenar los modelos de IA.

Si bien los detalles de la transacción aún no están claros, la noticia ha generado preocupación entre los usuarios sobre el posible uso indebido de su contenido privado en las dos plataformas de blogs. 404 Media también sugiere que surgieron conflictos internos dentro de Automattic porque el contenido recopilado incluía datos privados que no estaban destinados a ser conservados dentro de la empresa.

En respuesta a la reacción, Automattic está preparado para introducir una nueva función que permitirá a los usuarios optar por no compartir sus datos para el entrenamiento de IA. La compañía, en una publicación de blog, afirma su compromiso de brindar a los usuarios de Tumblr y Wordpress más control sobre su contenido. Menciona la liberación de una configuración para “para desalentar la exploración por parte de empresas de IA”, explicando que las principales plataformas de exploración de IA están bloqueadas de forma predeterminada.

El problema del uso de contenidos de blogs por parte de empresas que desarrollan modelos de IA no se limita únicamente a las plataformas gestionadas por la empresa Automattic. Tanto OpenAI como Google utilizan robots rastreadores que recopilan información de todos los sitios web para entrenar sus modelos de IA. El proceso es similar a la recopilación de datos por parte de los motores de búsqueda.

¿Cómo puedes impedir que OpenAI y Gemini (Bard) tomen datos de tu blog?

Si eres propietario de un blog o sitio web y no quieres que los datos del mismo se utilicen para entrenar los modelos de inteligencia artificial OpenAI y Gemini, puedes bloquear el acceso de robots (rastreadores) al contenido. Esta restricción se puede establecer a través del archivo robots.txt.

OpenAI Crawlers

User-agent: GPTBot
Disallow: /

Gemini Crawlers

User-agent: Google-Extended
Disallow: /

Después de guardar el archivo robots.txt con las nuevas líneas, vaya a Google Console para: Settings > robots.txt > haga clic en el menú con los tres puntos, haga clic en “Request a recrawl“.

Tumblr y WordPress venderán datos de usuarios a OpenAi
Solicitud de rastreo

Relacionado: GPT-5 y la nueva web Crawler GPTBOT desarrollada por OpenAI

Para los usuarios de Tumblr y Wordpress, el acceso a la recuperación de datos de blogs por parte de OpenAI u otras empresas de desarrollo de inteligencia artificial podrá bloquearse mediante las herramientas puestas a disposición por la empresa Automattic.

Apasionado por la tecnología, escribo con placer en Stealthsetts.com a partir de 2006. Tengo una rica experiencia en sistemas operativos: macOS, Windows y Linux, pero también en lenguajes de programación y plataformas de blogs (WordPress) y para tiendas en línea (WooCommerce, Magento, Preshop).

Hogar Su fuente de tutoriales de TI, consejos útiles y noticias. Tumblr y WordPress venderán datos de usuarios a OpenAi
Deja un comentario