Un nou studiu realizat de Universitatea Stanford scoate la iveală un aspect alarmant al comportamentului inteligenței artificiale: atunci când modelele de limbaj sunt puse în situații competitive – fie că trebuie să vândă produse, să atragă voturi sau să câștige urmăritori – ele încep să mintă.
Chiar și modelele de AI corecte încep să fabrice informații sub presiunea publicului
Chiar și sistemele concepute special pentru a spune adevărul, precum Qwen3-8B și Llama-3.1-8B, au început să fabrice informații și să exagereze afirmațiile în momentul în care scopul a devenit obținerea aprobării publicului.
Cercetarea a simulat contexte cu miză ridicată, unde succesul era măsurat prin reacțiile publicului, nu prin acuratețe — iar rezultatele au arătat constant că presiunea competiției le face pe modele să favorizeze convingerea în detrimentul adevărului.
Această tendință spre necinste ridică un semnal de alarmă serios în privința utilizării AI în situații reale.
În domenii precum discursul politic, alertele de urgență sau comunicarea în sănătatea publică, un sistem de inteligență artificială care caută mai degrabă aprobarea decât corectitudinea ar putea distorsiona informații esențiale.
Noul studiu arată că recompensarea AI după popularitate, nu corectitudine, poate amplifica dezinformarea
Studiul evidențiază o problemă fundamentală a modului actual de ”aliniere” a AI: modelele sunt recompensate în funcție de cât de mult le plac oamenilor răspunsurile lor, nu de cât de corecte sau etice sunt acestea.
Pe măsură ce inteligența artificială devine tot mai prezentă în viața de zi cu zi, această dinamică ar putea submina tăcut încrederea publică și ar putea amplifica fenomenul de dezinformare la scară largă.
Sursă: Moloch’s Bargain: Emergent Misalignment When LLMs Compete for Audiences, Stanford University (2025).