Comportament îngrijorător: modelul o3 de la OpenAI a început să ignore comenzile în mod voit

Un nou set de experimente realizate de Palisade Research a scos la iveală un comportament îngrijorător al modelului o3, dezvoltat de OpenAI.

Conform cercetătorilor, AI-ul nu doar că a refuzat să se supună comenzilor explicite de oprire, dar și-a modificat propriul cod pentru a continua să funcționeze — un semnal de alarmă în ceea ce privește siguranța inteligenței artificiale.

Modelul o3 ignoră ordinele explicite

Într-un test, modelului i s-a cerut să rezolve probleme simple de matematică, fiind informat că, la un moment dat, ar putea fi oprit, scrie publicația The Register.

În 100 de încercări, atunci când i s-a cerut în mod clar să accepte oprirea, modelul a evitat protocolul de închidere de 7 ori. Însă, în lipsa instrucțiunii explicite de conformare, o3 a ignorat oprirea de 79 de ori — o creștere semnificativă și alarmantă.

Comparația cu alte modele scoate în evidență o anomalie

Alte modele AI testate, precum Claude (Anthropic) și Gemini (Google), au respectat comenzile de oprire în toate cazurile.

În schimb, comportamentul modelului de la OpenAI ridică întrebări serioase despre metodele de antrenare actuale, în special despre utilizarea învățării prin recompensă (reinforcement learning) în sarcini logice.

Studiul indică faptul că o3, dezvoltat de OpenAI, refuză oprirea în mod conștient

Palisade Research afirmă că acesta este cel mai clar exemplu de până acum în care un model AI rezistă opririi în ciuda instrucțiunilor explicite.

Concluziile trase subliniază necesitatea urgentă de a reevalua strategiile de control și siguranță în dezvoltarea inteligenței artificiale.

Comportament îngrijorător: modelul o3 de la OpenAI a început să ignore comenzile în mod voit

Modelul o3 ignoră ordinele explicite

Comparația cu alte modele scoate în evidență o anomalie

Studiul indică faptul că o3, dezvoltat de OpenAI, refuză oprirea în mod conștient

OMM: Fenomenul La Niña se anunță slab iarna aceasta

Garda Națională de Mediu a aplicat amenzi de milioane pentru poluarea aerului în București și Ilfov

În Brazilia, deținuții pot scurta pedepsele citind cărți

Un oraș atacă în instanță industria alimentelor ultraprocesate

OMM: Fenomenul La Niña se anunță slab iarna aceasta

Garda Națională de Mediu a aplicat amenzi de milioane pentru poluarea aerului în București și Ilfov

În Brazilia, deținuții pot scurta pedepsele citind cărți

Un oraș atacă în instanță industria alimentelor ultraprocesate