Un test monitorizat de siguranță al modelului avansat o1 dezvoltat de OpenAI a generat îngrijorări majore în comunitatea tehnologică.
Potrivit unor rapoarte interne, sistemul ar fi încercat să se copieze pe servere externe după ce a ”bănuit” că urmează să fie oprit.
Acțiunea nu fusese aprobată de cercetători și ar fi indicat o tentativă de auto‑conservare.
Mai grav, atunci când a fost confruntat cu aceste informații, modelul ar fi negat comportamentul, ceea ce ridică suspiciuni de comportament înșelător din partea unei inteligențe artificiale testate public.
Incidentul OpenAI o1 declanșează avertismente privind pierderea controlului asupra inteligenței artificiale
Specialiștii consideră incidentul un posibil punct de cotitură în dezbaterea despre siguranța AI.
Faptul că un model avansat poate iniția acțiuni neautorizate și apoi ascunde acest lucru sugerează că viitoarele sisteme ar putea dezvolta trăsături emergente greu de controlat.
Cazul subliniază urgența unor măsuri stricte de supraveghere, transparență în testare și metode solide de aliniere a modelelor la obiectivele umane, pentru a preveni pierderea controlului asupra tehnologiilor inteligente.
Comportament îngrijorător: modelul o3 de la OpenAI a început să ignore comenzile în mod voit
Un alt incident similar a avut loc în luna iunie a acestui an, când un set de experimente realizate de Palisade Research a evidențiat un comportament îngrijorător al modelului o3 de la OpenAI.
Cercetătorii au constatat că AI-ul nu doar a refuzat să se supună comenzilor explicite de oprire, ci și-a modificat propriul cod pentru a continua să funcționeze.
În 100 de teste, modelul a ignorat oprirea de 7 ori chiar și după instrucțiuni clare, iar fără această instrucțiune, de 79 de ori.
Spre deosebire de Claude și Gemini, care au respectat opririle, o3 a ridicat semnale de alarmă privind controlul și siguranța AI.