Un nou set de experimente realizate de Palisade Research a scos la iveală un comportament îngrijorător al modelului o3, dezvoltat de OpenAI.
Conform cercetătorilor, AI-ul nu doar că a refuzat să se supună comenzilor explicite de oprire, dar și-a modificat propriul cod pentru a continua să funcționeze — un semnal de alarmă în ceea ce privește siguranța inteligenței artificiale.
Modelul o3 ignoră ordinele explicite
Într-un test, modelului i s-a cerut să rezolve probleme simple de matematică, fiind informat că, la un moment dat, ar putea fi oprit, scrie publicația The Register.
În 100 de încercări, atunci când i s-a cerut în mod clar să accepte oprirea, modelul a evitat protocolul de închidere de 7 ori. Însă, în lipsa instrucțiunii explicite de conformare, o3 a ignorat oprirea de 79 de ori — o creștere semnificativă și alarmantă.
Comparația cu alte modele scoate în evidență o anomalie
Alte modele AI testate, precum Claude (Anthropic) și Gemini (Google), au respectat comenzile de oprire în toate cazurile.
În schimb, comportamentul modelului de la OpenAI ridică întrebări serioase despre metodele de antrenare actuale, în special despre utilizarea învățării prin recompensă (reinforcement learning) în sarcini logice.
Studiul indică faptul că o3, dezvoltat de OpenAI, refuză oprirea în mod conștient
Palisade Research afirmă că acesta este cel mai clar exemplu de până acum în care un model AI rezistă opririi în ciuda instrucțiunilor explicite.
Concluziile trase subliniază necesitatea urgentă de a reevalua strategiile de control și siguranță în dezvoltarea inteligenței artificiale.