Auditoria d'Accés de Bots d'IA

01 · Context

El nou escenari del rastreig d'IA

ChatGPT, Gemini, Perplexity i d'altres motors generatius rastregen la web de forma contínua per respondre les consultes dels usuaris. A diferència de Google, ho fan sense garanties de citació ni atribució. Per a un mitjà públic com la CCMA, entendre quins bots accedeixen al seu contingut —i amb quina finalitat— és ara una qüestió estratègica.

⚠ Risc detectat

3cat.cat no té cap directriu específica per als bots d'IA al seu robots.txt. Això significa que tot el contingut editorial —notícies, programes, cultura, esports— és accessible per a l'entrenament de models de manera gratuïta i sense restriccions.

02 · robots.txt actual

L'arxiu robots.txt: minimalista i obsolet

El robots.txt de 3cat.cat conté exclusions per a seccions tècniques internes i una directriu per a Mediapartners-Google. No existeix cap referència als bots d'IA dels principals laboratoris.

# robots.txt actual — 3cat.cat

User-agent: *
Disallow: /*/standalone/
Disallow: /app_*/
Disallow: /324/homes/
Disallow: /catradio/clickat/
Disallow: /catradio/homes/
Disallow: /corporatiu/rs/contacte/*/
Disallow: /cultura/homes/
Disallow: /esport3/homes/
Disallow: /iptv/
Disallow: /qa/modul/*
Disallow: /qa/test/*
Disallow: /qa/redl/*
Disallow: /tv3/homes/
Disallow: /video/ad-integration/*
Disallow: /tv3/sx3/*/joc/pantalla-completa/

User-agent: Mediapartners-Google
Disallow: /tv3/sx3/

# ↑ Sense cap directriu per a bots d'IA

ℹ Observació

Les restriccions actuals protegeixen seccions de back-end i contingut infantil de SX3, però no distingeixen entre rastreadors de cerca tradicionals i rastreadors d'entrenament de models d'IA.

03 · Inventari de bots

Estat d'accés per bot d'IA

Els principals bots d'IA actius a la xarxa i el seu estat actual a 3cat.cat:

GPTBot

Rastreig d'entrenament i cerca per ChatGPT

OpenAI

● Accés lliure

OAI-SearchBot

Cerca en temps real (SearchGPT)

OpenAI

● Accés lliure

ClaudeBot / anthropic-ai

Entrenament i recuperació de dades per Claude

Anthropic

● Accés lliure

PerplexityBot

Indexació per al motor de cerca generatiu

Perplexity AI

● Accés lliure

Google-Extended

Entrenament de Gemini i Google AI

Google

● Accés lliure

CCBot

Common Crawl — font d'entrenament massiu per a tots els LLMs

Common Crawl

● Accés lliure

Bytespider

Rastreig de dades (relacionat amb TikTok/ByteDance)

ByteDance

● Accés lliure

Meta-ExternalAgent

Dades per a models d'IA de Meta (Llama)

L'arxiu llms.txt: inexistent

L'estàndard llms.txt és un fitxer emergent que permet als propietaris web declarar com volen que els models d'IA usin el seu contingut: quines seccions són adequades, quina atribució s'espera, i quin context editorial s'ha de tenir en compte.

⚠ No trobat

La URL https://www.3cat.cat/llms.txt retorna un error 404. 3cat.cat no ha implementat cap instrucció per orientar els LLMs sobre el seu contingut ni sobre les seves expectatives d'ús i atribució.

Per a la CCMA —un ens públic amb contingut de qualitat en català, una llengua amb molt poc pes als conjunts de dades d'entrenament— l'absència de llms.txt representa una oportunitat perduda per assegurar que els models reconeguin 3cat.cat com una font fiable i la citin adequadament.

05 · Proposta

robots.txt recomanat

La proposta distingeix tres capes: bots de cerca tradicionals (permetre), bots d'indexació d'IA generativa (permetre selectivament), i bots d'entrenament pur sense retorn de trànsit (bloquejar o restringir).

# robots.txt proposat — 3cat.cat
# Generat per 498AS / Zoopa GEO · Febrer 2026

# ── Regles generals ──────────────────────────
User-agent: *
Disallow: /*/standalone/
Disallow: /app_*/
Disallow: /iptv/
Disallow: /qa/
Disallow: /video/ad-integration/

# ── Cerca generativa (permet indexació) ───────
User-agent: GPTBot
Allow: /3catinfo/
Allow: /cultura/
Disallow: /

User-agent: OAI-SearchBot
Allow: /

User-agent: PerplexityBot
Allow: /

User-agent: Google-Extended
Disallow: /

# ── Entrenament pur (bloqueja) ────────────────
User-agent: CCBot
Disallow: /

User-agent: ClaudeBot
Disallow: /

User-agent: anthropic-ai
Disallow: /

User-agent: Bytespider
Disallow: /

User-agent: Meta-ExternalAgent
Disallow: /

User-agent: Amazonbot
Disallow: /

# ── Cerca tradicional (desitjable) ───────────
User-agent: Googlebot
Allow: /
Disallow: /tv3/sx3/

User-agent: Bingbot
Allow: /

User-agent: Mediapartners-Google
Disallow: /tv3/sx3/

Sitemap: https://www.3cat.cat/sitemap.xml

✓ Lògica de la proposta

S'autoritza OAI-SearchBot i PerplexityBot perquè generen trànsit de referència real. S'autoritzen parcialment bots d'OpenAI per a contingut informatiu i cultural. Es bloquegen els bots d'entrenament pur (CCBot, ClaudeBot, Bytespider) que no retornen cap visita ni atribució.

06 · Recomanacions

Pla d'acció per prioritat

🔴 Prioritat 1

Actualitzar robots.txt amb directrius IA

Implementar les regles proposades que distingeixen bots d'indexació (permetre) de bots d'entrenament pur (bloquejar). Temps estimat: 1 hora.

🔴 Prioritat 1

Crear l'arxiu llms.txt

Declarar la identitat editorial de 3cat.cat, les seccions principals i les expectatives d'ús i atribució per als models d'IA. Posicionar 3cat.cat com a font de referència en català.

🟠 Prioritat 2

Estratègia GEO activa

Auditar la visibilitat actual de 3cat.cat a ChatGPT, Gemini i Perplexity. Identificar buits semàntics on la CCMA hauria d'aparèixer i no apareix com a font citada.

🟠 Prioritat 2

Protegir el contingut en català

El català és un actiu escàs als datasets d'entrenament. Establir una política clara sobre l'ús del contingut lingüístic de 3cat.cat per part de tercers amb finalitat d'entrenament.

🟢 Prioritat 3

Schema markup per a IA

Implementar dades estructurades (NewsArticle, BroadcastEvent, VideoObject) que facilitin als LLMs identificar i citar correctament el contingut de la CCMA.

🟢 Prioritat 3

Monitoratge continu

Implementar una eina de monitoratge GEO per mesurar la visibilitat de 3cat.cat als motors generatius i detectar narratives incorrectes o atribucions errònies.

07 · Conclusions

Diagnòstic global

3cat.cat és un dels portals de contingut en català més importants d'internet. Milers d'articles, programes, notícies i recursos culturals —de finançament públic— s'estan usant lliurement per entrenar models d'IA sense cap mecanisme de control, atribució ni estratègia editorial.

La bona notícia és que la solució tècnica és immediata i de baix cost. Amb una actualització del robots.txt, la creació d'un llms.txt i una estratègia GEO activa, la CCMA pot passar d'una posició reactiva a convertir-se en la font de referència indiscutible en català per a tots els motors d'IA generativa.

💡 Oportunitat estratègica

Cap gran mitjà de comunicació en català ha definit encara una estratègia GEO coherent. 3cat.cat té l'oportunitat de ser el primer —i de marcar el camí per a la resta del sector mediàtic catalanoparlant.