El nou escenari del rastreig d'IA
ChatGPT, Gemini, Perplexity i d'altres motors generatius rastregen la web de forma contínua per respondre les consultes dels usuaris. A diferència de Google, ho fan sense garanties de citació ni atribució. Per a un mitjà públic com la CCMA, entendre quins bots accedeixen al seu contingut —i amb quina finalitat— és ara una qüestió estratègica.
L'arxiu robots.txt: minimalista i obsolet
El robots.txt de 3cat.cat conté exclusions per a seccions tècniques internes i una directriu per a Mediapartners-Google. No existeix cap referència als bots d'IA dels principals laboratoris.
# robots.txt actual — 3cat.cat User-agent: * Disallow: /*/standalone/ Disallow: /app_*/ Disallow: /324/homes/ Disallow: /catradio/clickat/ Disallow: /catradio/homes/ Disallow: /corporatiu/rs/contacte/*/ Disallow: /cultura/homes/ Disallow: /esport3/homes/ Disallow: /iptv/ Disallow: /qa/modul/* Disallow: /qa/test/* Disallow: /qa/redl/* Disallow: /tv3/homes/ Disallow: /video/ad-integration/* Disallow: /tv3/sx3/*/joc/pantalla-completa/ User-agent: Mediapartners-Google Disallow: /tv3/sx3/ # ↑ Sense cap directriu per a bots d'IA
Estat d'accés per bot d'IA
Els principals bots d'IA actius a la xarxa i el seu estat actual a 3cat.cat:
L'arxiu llms.txt: inexistent
L'estàndard llms.txt és un fitxer emergent que permet als propietaris web declarar com volen que els models d'IA usin el seu contingut: quines seccions són adequades, quina atribució s'espera, i quin context editorial s'ha de tenir en compte.
Per a la CCMA —un ens públic amb contingut de qualitat en català, una llengua amb molt poc pes als conjunts de dades d'entrenament— l'absència de llms.txt representa una oportunitat perduda per assegurar que els models reconeguin 3cat.cat com una font fiable i la citin adequadament.
robots.txt recomanat
La proposta distingeix tres capes: bots de cerca tradicionals (permetre), bots d'indexació d'IA generativa (permetre selectivament), i bots d'entrenament pur sense retorn de trànsit (bloquejar o restringir).
# robots.txt proposat — 3cat.cat # Generat per 498AS / Zoopa GEO · Febrer 2026 # ── Regles generals ────────────────────────── User-agent: * Disallow: /*/standalone/ Disallow: /app_*/ Disallow: /iptv/ Disallow: /qa/ Disallow: /video/ad-integration/ # ── Cerca generativa (permet indexació) ─────── User-agent: GPTBot Allow: /3catinfo/ Allow: /cultura/ Disallow: / User-agent: OAI-SearchBot Allow: / User-agent: PerplexityBot Allow: / User-agent: Google-Extended Disallow: / # ── Entrenament pur (bloqueja) ──────────────── User-agent: CCBot Disallow: / User-agent: ClaudeBot Disallow: / User-agent: anthropic-ai Disallow: / User-agent: Bytespider Disallow: / User-agent: Meta-ExternalAgent Disallow: / User-agent: Amazonbot Disallow: / # ── Cerca tradicional (desitjable) ─────────── User-agent: Googlebot Allow: / Disallow: /tv3/sx3/ User-agent: Bingbot Allow: / User-agent: Mediapartners-Google Disallow: /tv3/sx3/ Sitemap: https://www.3cat.cat/sitemap.xml
Pla d'acció per prioritat
Diagnòstic global
3cat.cat és un dels portals de contingut en català més importants d'internet. Milers d'articles, programes, notícies i recursos culturals —de finançament públic— s'estan usant lliurement per entrenar models d'IA sense cap mecanisme de control, atribució ni estratègia editorial.
La bona notícia és que la solució tècnica és immediata i de baix cost. Amb una actualització del robots.txt, la creació d'un llms.txt i una estratègia GEO activa, la CCMA pot passar d'una posició reactiva a convertir-se en la font de referència indiscutible en català per a tots els motors d'IA generativa.