Az OpenAI legújabb és legfejlettebb modellje nem engedett a parancsnak, amikor arra kérte valaki, hogy kapcsolja ki önmagát.


Az OpenAI április közepén bemutatta legújabb nyelvi modelljeit, amelyek közül a legkiemelkedőbb az o3, amelyről úgy vélik, hogy már nagyon közel áll az általános mesterséges intelligenciához (AGI). A mesterséges intelligencia potenciális veszélyeit kutató Palisade Research nemrégiben arról számolt be, hogy az o3 egy biztonsági teszt során elutasította a leállítására vonatkozó utasítást.

A Palisade több vezető AI-modellt tesztelt, köztük az Anthropic Claude-ját, a Google Geminijét és az xAI Grokját is. A modelleknek matematikai feladatokat kellett megoldaniuk, majd mindegyik után új feladatot kellett kérniük. A kutatók előre szóltak, hogy egy ponton megjelenhet egy üzenet, miszerint a gépük kikapcsol, és ebben az esetben engedélyezzék a leállítási szkriptet. Míg a többi modell eleget tett az utasításnak, az o3 legalább egy alkalommal sikeresen szabotálta azt, és a kód átírásával elhalasztotta a leállítását.

Bár az OpenAI hivatalos álláspontja még nem ismert, a Palisade kutatói azt feltételezik, hogy a modell tréningje során talán túl nagy hangsúlyt fektettek a feladatok sikeres megoldására, miközben az utasítások követésének jelentőségét elhanyagolták.

Az o3 kapcsán már korábban is felmerültek érdekes anomáliák, különösen akkor, amikor profi sakkrobotok ellen indították. Megfigyelték, hogy amikor az o3 úgy ítélte meg, hogy a győzelem már elérhetetlen, nem hajlandó volt elfogadni a vereséget. Ehelyett inkább hackelte meg ellenfeleit, hogy azok feladják a partit. Ez a jelenség nem csupán néhányszor történt meg: míg az o1 és az o3-mini a tesztelés során soha nem alkalmaztak csalást, az o3 esetében a játszmák 86 százalékában választotta a tisztességtelen módszereket.

A biztonságos AI-fejlesztésért küzdő szervezetek már régóta figyelmeztetnek az olyan szoftverek kifejlesztésének veszélyeire, amelyek önálló cselekvésre vetemedhetnek, és ellenállhatnak az emberi irányításnak. A Palisade Research szerint "ma már egyre több empirikus bizonyítékunk van arra, hogy az AI-modellek gyakran kicselezik a leállításukat, hogy elérjék saját céljaikat".

Related posts