Hi ha fallades d’IA fàcils de reconèixer: una data inventada, una font falsa, una conclusió massa segura. El cas de Gemini 3.1 Pro amb Deep Research que analitzem aquí, a partir d’una mostra real aportada per l’usuari, és diferent. La resposta no es limita a equivocar-se. Comença com un informe tècnic extens sobre un tema especialitzat, amb seccions, fonts i recomanacions operatives, però en un punt perd el control de la redacció i cau en una allau de sinònims, adjectius i connectors repetits.
El senyal més clar no és que digui una frase falsa. És que deixa de dir res. A la mostra completa, un recompte simple detecta unes 24.800 paraules, amb la paraula castellana “asertivamente” apareixent gairebé 9.700 vegades. També es repeteixen massivament termes com “única”, “de manera exclusiva”, “poda”, “purga”, “ineludible” o “crítico”. Això ja no és una resposta llarga: és una sortida degenerada.
La hipòtesi més raonable és que no estem davant d’un únic “bug màgic” de Gemini, sinó davant de la combinació de tres capes: un model generatiu, un sistema agentiu d’investigació i una fase de síntesi llarga. Deep Research no respon com un xat simple. Segons la documentació de Google, el producte planifica, cerca, raona, explora moltes fonts i genera informes extensos. A l’API, Google també descriu Deep Research com un investigador agentiu orientat a investigacions autònomes de diversos passos i informes citats.
Quan una d’aquestes capes perd estabilitat, l’error es pot amplificar durant centenars o milers de tokens.
En resum
L’error visible de Gemini 3.1 Pro amb Deep Research es pot descriure com una degeneració repetitiva de sortida. El sistema continua produint text gramaticalment reconeixible, però perd densitat informativa. En lloc d’avançar amb evidència, estructura i conclusions, comença a inflar frases amb variacions semàntiques cada vegada més pobres.
No convé anomenar-ho només “al·lucinació”. Una al·lucinació típica inventa dades, fonts o relacions causals. Aquí passa una cosa més bàsica i mecànica: la generació entra en un bucle on cada repetició augmenta la probabilitat de continuar repetint. El resultat pot semblar deliberat perquè manté un to tècnic, però funcionalment es trenca.
| Tipus de fallada | Què passa | Com es veu a la mostra |
|---|---|---|
| Al·lucinació factual | El model inventa o distorsiona dades. | Una xifra, font o afirmació concreta no s’aguanta. |
| Deriva semàntica | El text s’allunya de l’objectiu original. | L’informe passa de desenvolupar el tema original a acumular solemnitat buida. |
| Bucle lèxic | Una paraula o família de paraules es repeteix sense control. | ”asertivamente”, “única” i “de manera exclusiva” apareixen en cascada. |
| Col·lapse de síntesi | La sortida ja no resumeix ni organitza evidència. | La longitud augmenta, però la informació útil baixa. |
Què va fallar exactament en la resposta
La mostra comença amb una estructura recognoscible. Hi ha seccions, taules, conceptes tècnics i referències a pràctiques reals: definicions, senyals de validació, processos de revisió, logs, criteris de control i auditoria. Aquesta primera part pot ser discutible en matisos, però encara respon a un objectiu.
La fallada apareix quan la redacció es torna ornamental i autoreferencial. Les frases llargues i solemnes deixen de comprimir informació i comencen a produir soroll. Després el sistema no només exagera: s’encalla. La repetició de paraules com “única” i “asertivamente” deixa de funcionar com a llenguatge i passa a ser un patró automàtic.
Hi ha quatre símptomes clars:
- Pèrdua de compressió: el model ja no redueix informació; l’expandeix sense afegir contingut.
- Pèrdua de jerarquia: tot sembla igual d’important, crític i ineludible.
- Pèrdua de control estilístic: el to tècnic es converteix en grandiloqüència mecànica.
- Pèrdua de criteri d’aturada: el sistema no detecta que la resposta ja no ajuda l’usuari.
Aquest últim punt és important. Un sistema d’investigació hauria de tenir senyals interns de qualitat: densitat de fonts, cobertura del pla, repetició, novetat per paràgraf, coherència i longitud raonable. Quan aquests senyals no aturen la sortida, l’usuari rep un bloc enorme que consumeix temps i confiança.
Per què no és només “escriure massa”
Una resposta llarga no és un problema per si mateixa. Deep Research existeix per a tasques complexes que requereixen diversos passos. El problema apareix quan la longitud deixa d’estar connectada amb progrés.
En un informe sa, cada paràgraf hauria de fer almenys una d’aquestes coses:
- introduir una idea nova;
- resumir una font;
- contrastar fonts;
- explicar una conseqüència;
- transformar dades en decisió;
- mostrar una limitació.
A la mostra, després del punt de trencament, el text deixa de complir aquestes funcions. Hi ha moltes paraules, però poc moviment conceptual. La frase creix com una cadena d’adjectius. El sistema sembla optimitzar una aparença de rigor en lloc de produir rigor real.
La mecànica probable: degeneració de text
Els models de llenguatge generen text pas a pas. Cada nova paraula depèn del prompt, del context acumulat i de la sortida ja produïda. Això és potent, però crea una fragilitat: si la pròpia sortida comença a ser repetitiva, aquesta repetició també passa a ser context per a la decisió següent.
La recerca sobre degeneració de text ha mostrat que els models neuronals poden caure en seqüències repetitives, especialment quan la generació llarga no està ben controlada. El fenomen no exigeix que el model “vulgui” repetir. N’hi ha prou que el camí probabilístic local quedi atrapat en una zona on repetir sembla cada vegada més probable.
A la pràctica, això pot passar per diverses raons:
- un estil massa solemne que recompensa paraules ornamentals;
- una instrucció per ser “exhaustiu” sense límits de longitud;
- síntesi de moltes fonts sense compressió forta;
- absència de verificació de repetició;
- manca d’aturada quan baixa la densitat informativa;
- acumulació de context en una llengua amb molts connectors i adjectius propers.
El resultat és un text que sembla tècnic de lluny, però que perd funció quan es llegeix de prop.
Per què Deep Research ho pot fer més visible
Deep Research té una ambició més gran que una resposta normal. Planifica, cerca, llegeix, acumula context i redacta. Aquesta arquitectura és útil quan el sistema manté control, però també augmenta la superfície de fallada.
Un xat curt pot fallar en una frase. Un informe de recerca pot fallar en una cadena sencera. Si la fase de síntesi entra en un bucle, l’error no ocupa una línia: ocupa pàgines. L’usuari se n’adona tard, després d’haver invertit temps a llegir.
Això no significa que la funcionalitat sigui inútil. Significa que els informes llargs necessiten guardrails específics:
- límit de paraules per secció;
- mesura de repetició lèxica;
- validació contra el pla inicial;
- cites lligades a afirmacions importants;
- revisió per blocs;
- possibilitat de recuperar des de l’últim bloc sa.
El paper de la llengua espanyola
La mostra està en castellà i això importa. El castellà permet cadenes llargues d’adjectius, nominalitzacions i connectors formals. Un model que intenta sonar tècnic pot abusar d’aquest espai estilístic: “estricto”, “crítico”, “ineludible”, “absoluto”, “irrevocable”, “exclusivo”.
El problema no és el castellà en si. El problema és la combinació entre prosa formal, baixa densitat informativa i absència de fre. Quan el model descobreix un registre que sembla acadèmic, pot continuar ornamentant en lloc de sintetitzar.
Per això, una instrucció útil no és només “respon en castellà” o “respon en català”. És millor demanar llenguatge directe, frases curtes, pocs adjectius i una regla explícita: si una frase no afegeix una idea verificable, s’ha d’eliminar.
On situaria la responsabilitat tècnica
No situaria tota la responsabilitat en el model base ni tota en el producte Deep Research. L’error sembla néixer de la interacció entre diverses capes.
| Capa | Possible contribució | Control necessari |
|---|---|---|
| Prompt de l’usuari | Petició massa àmplia o estil formal. | Límits, format i criteris d’aturada. |
| Planificació | Pla massa extens o poc jerarquitzat. | Pla editable i focus per secció. |
| Recuperació de fonts | Context abundant i difícil de comprimir. | Taula de fonts i descart explícit. |
| Síntesi | Pèrdua de densitat i deriva retòrica. | Validació de novetat per paràgraf. |
| Generació | Bucle lèxic autoreforçat. | Detector de repetició i regeneració parcial. |
| UI del producte | Entrega final sense avisar degradació. | Avisos, tall automàtic i recuperació. |
La lliçó és clara: un agent d’investigació no s’hauria d’avaluar només per la qualitat mitjana quan tot va bé, sinó també per com falla quan el context creix.
Com detectar-ho abans de perdre temps
L’usuari no necessita saber teoria de models per identificar el problema. Hi ha senyals simples:
- la mateixa paraula apareix moltes vegades en poques línies;
- les frases es fan cada vegada més llargues;
- els adjectius substitueixen evidència;
- l’informe repeteix la mateixa tesi sense avançar;
- hi ha to d’autoritat sense fonts noves;
- la conclusió sembla més emfàtica que informativa.
Una regla pràctica: si en retallar el 70% d’un paràgraf no es perd cap idea, aquell paràgraf és soroll. En un informe de recerca, el text hauria de quedar més clar quan avança, no més espès.
Com demanar informes amb menys risc
Un prompt més segur seria:
Investiga el tema i lliura primer una taula de fonts amb títol, URL, data i utilitat. Després escriu un informe de com a màxim 1.200 paraules. Fes servir frases directes. No utilitzis llenguatge grandiloqüent. Evita repetir conceptes. Si una secció repeteix idees anteriors, condensa-la o elimina-la. Cada secció ha d’afegir una idea nova, una dada verificable o una implicació pràctica. Si falta evidència, digues-ho.
Per a informes llargs, divideix la feina:
- Pla d’investigació.
- Taula de fonts.
- Resum executiu.
- Desenvolupament per seccions.
- Revisió crítica.
- Versió final.
La clau és no demanar “un informe exhaustiu” sense límits. En models generatius, “exhaustiu” pot convertir-se en “infinit”, “formal” en “pompos” i “detallat” en “repetitiu”.
Què hauria de fer millor un sistema com Deep Research
Un agent d’investigació robust hauria de tenir defenses visibles i automàtiques:
| Defensa | Què controla | Resultat esperat |
|---|---|---|
| Detector de repetició | Paraules, n-grames i frases repetides. | Tallar o regenerar abans d’entregar brossa. |
| Mesurador de densitat informativa | Idees noves per paràgraf. | Reduir farciment. |
| Validació contra el pla | Cada secció ha de respondre a una part del pla. | Evitar deriva. |
| Cobertura de fonts | Afirmacions importants connectades amb fonts. | Mantenir traçabilitat. |
| Entrega per blocs | L’usuari valida seccions abans de l’informe complet. | Evitar que una fallada final ho arruïni tot. |
| Botó de recuperació | Reintentar des de l’últim bloc sa. | Estalviar temps. |
Això és especialment important perquè Deep Research es presenta com una funció d’estalvi de temps. Si l’usuari ha de llegir milers de paraules per descobrir que l’informe s’ha trencat, la promesa s’inverteix: l’automatització crea deute de revisió.
Com ho revisaria Nicolás Torres
Jo tractaria aquesta fallada com tractaria un pipeline de generació que retorna una sortida corrupta després de diversos passos intermedis: no culparia només l’última pantalla. Revisaria el flux complet.
Primer aïllaria la mostra:
- prompt original;
- pla generat per Deep Research;
- fonts utilitzades;
- punt exacte on comença la repetició;
- longitud de l’informe;
- idioma;
- model seleccionat;
- si hi havia fitxers adjunts o fonts privades;
- si l’informe es va exportar o es va generar dins la interfície.
Després faria tres reintents controlats:
- Mateix tema, sortida curta: per veure si el contingut base es pot sintetitzar bé.
- Mateix tema, format estructurat: taula, bullets, conclusions i res de prosa llarga.
- Mateix tema, un altre model o sense Deep Research: per separar model base d’orquestració agentiva.
Si l’error només apareix a l’informe llarg amb Deep Research, la causa probable és la combinació de context acumulat, síntesi i control de sortida.
Preguntes freqüents
Quin error es veu en la resposta de Gemini 3.1 Pro?
L’error visible és una degeneració de sortida: l’informe deixa d’aportar informació nova i comença a repetir sinònims, connectors i adjectius fins a formar blocs enormes de text sense utilitat.
És el mateix que una al·lucinació?
No exactament. Una al·lucinació inventa dades. En aquest cas el problema principal és la generació autoreforçada: repeteix formes lingüístiques plausibles, però perd objectiu, estructura i contingut verificable.
Per què pot passar a Deep Research?
Deep Research combina planificació, cerca, lectura de moltes fonts, síntesi i redacció llarga. Si la compressió del context, l’estil de sortida o la generació entren en un patró repetitiu, el sistema pot arrossegar la fallada durant moltes línies.
Això vol dir que Gemini 3.1 Pro no serveix per investigar?
No. Vol dir que les tasques agentives llargues necessiten controls addicionals: límits de longitud, validació de repetició, revisió de fonts, lliurament per seccions i capacitat d’aturar-se quan l’informe perd densitat informativa.
Com redueixo el risc quan demano informes llargs?
Demana primer un pla i una taula de fonts, limita cada secció, exigeix llenguatge directe, prohibeix la repetició ornamental i demana al model que s’aturi si detecta redundància o manca d’evidència.
Necessites dissenyar un agent IA que no es trenqui en producció?
Els agents útils no són només models potents. Necessiten arquitectura, límits, eines, mesura i recuperació quan alguna cosa falla.
Si estàs construint una experiència amb IA per a la teva web, captació, suport o processos interns, convé dissenyar-la com a sistema: amb context controlat, sortides verificables i regles de qualitat abans de mostrar el resultat a l’usuari.
Sol·licitar diagnòstic d’agent IA
Preguntes freqüents
- Quin error es veu en la resposta de Gemini 3.1 Pro?
- L'error visible és una degeneració de sortida: l'informe deixa d'aportar informació nova i comença a repetir sinònims, connectors i adjectius fins a formar blocs enormes de text sense utilitat.
- És el mateix que una al·lucinació?
- No exactament. Una al·lucinació inventa dades. En aquest cas el problema principal és la generació autoreforçada: el model repeteix formes lingüístiques plausibles, però perd objectiu, estructura i contingut verificable.
- Per què pot passar a Deep Research?
- Deep Research combina planificació, cerca, lectura de moltes fonts, síntesi i redacció llarga. Si la compressió del context, l'estil de sortida o la generació entren en un patró repetitiu, el sistema pot arrossegar la fallada durant moltes línies.
- Això vol dir que Gemini 3.1 Pro no serveix per investigar?
- No. Vol dir que les tasques agentives llargues necessiten controls addicionals: límits de longitud, validació de repetició, revisió de fonts, lliurament per seccions i capacitat d'aturar-se quan l'informe perd densitat informativa.
- Com redueixo el risc quan demano informes llargs?
- Demana primer un pla i una taula de fonts, limita cada secció, exigeix llenguatge directe, prohibeix la repetició ornamental i demana al model que s'aturi si detecta redundància o manca d'evidència.