Auditoria de seguretat · IA

Accés de Bots d'IA
a 3cat.cat

Informe d'auditoria tècnica · Generative Engine Optimization

Data Febrer 2026
Domini analitzat www.3cat.cat
Elaborat per 498AS / Zoopa GEO
9
Bots d'IA amb
accés lliure
0
Directrius
específiques IA
llms.txt
no trobat
01 · Context

El nou escenari del rastreig d'IA

ChatGPT, Gemini, Perplexity i d'altres motors generatius rastregen la web de forma contínua per respondre les consultes dels usuaris. A diferència de Google, ho fan sense garanties de citació ni atribució. Per a un mitjà públic com la CCMA, entendre quins bots accedeixen al seu contingut —i amb quina finalitat— és ara una qüestió estratègica.

⚠ Risc detectat
3cat.cat no té cap directriu específica per als bots d'IA al seu robots.txt. Això significa que tot el contingut editorial —notícies, programes, cultura, esports— és accessible per a l'entrenament de models de manera gratuïta i sense restriccions.
02 · robots.txt actual

L'arxiu robots.txt: minimalista i obsolet

El robots.txt de 3cat.cat conté exclusions per a seccions tècniques internes i una directriu per a Mediapartners-Google. No existeix cap referència als bots d'IA dels principals laboratoris.

# robots.txt actual — 3cat.cat

User-agent: *
Disallow: /*/standalone/
Disallow: /app_*/
Disallow: /324/homes/
Disallow: /catradio/clickat/
Disallow: /catradio/homes/
Disallow: /corporatiu/rs/contacte/*/
Disallow: /cultura/homes/
Disallow: /esport3/homes/
Disallow: /iptv/
Disallow: /qa/modul/*
Disallow: /qa/test/*
Disallow: /qa/redl/*
Disallow: /tv3/homes/
Disallow: /video/ad-integration/*
Disallow: /tv3/sx3/*/joc/pantalla-completa/

User-agent: Mediapartners-Google
Disallow: /tv3/sx3/

# ↑ Sense cap directriu per a bots d'IA
ℹ Observació
Les restriccions actuals protegeixen seccions de back-end i contingut infantil de SX3, però no distingeixen entre rastreadors de cerca tradicionals i rastreadors d'entrenament de models d'IA.
03 · Inventari de bots

Estat d'accés per bot d'IA

Els principals bots d'IA actius a la xarxa i el seu estat actual a 3cat.cat:

GPTBot
Rastreig d'entrenament i cerca per ChatGPT
OpenAI
● Accés lliure
OAI-SearchBot
Cerca en temps real (SearchGPT)
OpenAI
● Accés lliure
ClaudeBot / anthropic-ai
Entrenament i recuperació de dades per Claude
Anthropic
● Accés lliure
PerplexityBot
Indexació per al motor de cerca generatiu
Perplexity AI
● Accés lliure
Google-Extended
Entrenament de Gemini i Google AI
Google
● Accés lliure
CCBot
Common Crawl — font d'entrenament massiu per a tots els LLMs
Common Crawl
● Accés lliure
Bytespider
Rastreig de dades (relacionat amb TikTok/ByteDance)
ByteDance
● Accés lliure
Meta-ExternalAgent
Dades per a models d'IA de Meta (Llama)
Meta
● Accés lliure
Amazonbot
Rastreig per a Alexa i serveis d'Amazon AI
Amazon
● Accés lliure
Googlebot
Indexació de cerca tradicional
Google
✓ Desitjable
Bingbot
Indexació de cerca Microsoft Bing
Microsoft
✓ Desitjable
04 · llms.txt

L'arxiu llms.txt: inexistent

L'estàndard llms.txt és un fitxer emergent que permet als propietaris web declarar com volen que els models d'IA usin el seu contingut: quines seccions són adequades, quina atribució s'espera, i quin context editorial s'ha de tenir en compte.

⚠ No trobat
La URL https://www.3cat.cat/llms.txt retorna un error 404. 3cat.cat no ha implementat cap instrucció per orientar els LLMs sobre el seu contingut ni sobre les seves expectatives d'ús i atribució.

Per a la CCMA —un ens públic amb contingut de qualitat en català, una llengua amb molt poc pes als conjunts de dades d'entrenament— l'absència de llms.txt representa una oportunitat perduda per assegurar que els models reconeguin 3cat.cat com una font fiable i la citin adequadament.

05 · Proposta

robots.txt recomanat

La proposta distingeix tres capes: bots de cerca tradicionals (permetre), bots d'indexació d'IA generativa (permetre selectivament), i bots d'entrenament pur sense retorn de trànsit (bloquejar o restringir).

# robots.txt proposat — 3cat.cat
# Generat per 498AS / Zoopa GEO · Febrer 2026

# ── Regles generals ──────────────────────────
User-agent: *
Disallow: /*/standalone/
Disallow: /app_*/
Disallow: /iptv/
Disallow: /qa/
Disallow: /video/ad-integration/

# ── Cerca generativa (permet indexació) ───────
User-agent: GPTBot
Allow: /3catinfo/
Allow: /cultura/
Disallow: /

User-agent: OAI-SearchBot
Allow: /

User-agent: PerplexityBot
Allow: /

User-agent: Google-Extended
Disallow: /

# ── Entrenament pur (bloqueja) ────────────────
User-agent: CCBot
Disallow: /

User-agent: ClaudeBot
Disallow: /

User-agent: anthropic-ai
Disallow: /

User-agent: Bytespider
Disallow: /

User-agent: Meta-ExternalAgent
Disallow: /

User-agent: Amazonbot
Disallow: /

# ── Cerca tradicional (desitjable) ───────────
User-agent: Googlebot
Allow: /
Disallow: /tv3/sx3/

User-agent: Bingbot
Allow: /

User-agent: Mediapartners-Google
Disallow: /tv3/sx3/

Sitemap: https://www.3cat.cat/sitemap.xml
✓ Lògica de la proposta
S'autoritza OAI-SearchBot i PerplexityBot perquè generen trànsit de referència real. S'autoritzen parcialment bots d'OpenAI per a contingut informatiu i cultural. Es bloquegen els bots d'entrenament pur (CCBot, ClaudeBot, Bytespider) que no retornen cap visita ni atribució.
06 · Recomanacions

Pla d'acció per prioritat

🔴 Prioritat 1
Actualitzar robots.txt amb directrius IA
Implementar les regles proposades que distingeixen bots d'indexació (permetre) de bots d'entrenament pur (bloquejar). Temps estimat: 1 hora.
🔴 Prioritat 1
Crear l'arxiu llms.txt
Declarar la identitat editorial de 3cat.cat, les seccions principals i les expectatives d'ús i atribució per als models d'IA. Posicionar 3cat.cat com a font de referència en català.
🟠 Prioritat 2
Estratègia GEO activa
Auditar la visibilitat actual de 3cat.cat a ChatGPT, Gemini i Perplexity. Identificar buits semàntics on la CCMA hauria d'aparèixer i no apareix com a font citada.
🟠 Prioritat 2
Protegir el contingut en català
El català és un actiu escàs als datasets d'entrenament. Establir una política clara sobre l'ús del contingut lingüístic de 3cat.cat per part de tercers amb finalitat d'entrenament.
🟢 Prioritat 3
Schema markup per a IA
Implementar dades estructurades (NewsArticle, BroadcastEvent, VideoObject) que facilitin als LLMs identificar i citar correctament el contingut de la CCMA.
🟢 Prioritat 3
Monitoratge continu
Implementar una eina de monitoratge GEO per mesurar la visibilitat de 3cat.cat als motors generatius i detectar narratives incorrectes o atribucions errònies.
07 · Conclusions

Diagnòstic global

3cat.cat és un dels portals de contingut en català més importants d'internet. Milers d'articles, programes, notícies i recursos culturals —de finançament públic— s'estan usant lliurement per entrenar models d'IA sense cap mecanisme de control, atribució ni estratègia editorial.

La bona notícia és que la solució tècnica és immediata i de baix cost. Amb una actualització del robots.txt, la creació d'un llms.txt i una estratègia GEO activa, la CCMA pot passar d'una posició reactiva a convertir-se en la font de referència indiscutible en català per a tots els motors d'IA generativa.

💡 Oportunitat estratègica
Cap gran mitjà de comunicació en català ha definit encara una estratègia GEO coherent. 3cat.cat té l'oportunitat de ser el primer —i de marcar el camí per a la resta del sector mediàtic catalanoparlant.