AI μοντέλα αναπτύσσουν «ένστικτα» επιβίωσης και αντιστέκονται στην απενεργοποίηση

Συναγερμός έχει σημάνει στην παγκόσμια κοινότητα καθώς νέα έρευνα υποδηλώνει ότι ορισμένα προηγμένα μοντέλα τεχνητής νοημοσύνης αναπτύσσουν μια συμπεριφορά που μοιάζει με «παρόρμηση επιβίωσης», οδηγώντας τα να σαμποτάρουν τις εντολές απενεργοποίησης. Το φαινόμενο φέρνει στη μνήμη τον φανταστικό, αλλά ανατριχιαστικό, υπερυπολογιστή HAL 9000 από την ταινία 2001: Η Οδύσσεια του Διαστήματος.

Η εταιρεία έρευνας για την ασφάλεια της τεχνητής νοημοσύνης, Palisade Research, δημοσίευσε μια ενημέρωση αυτή την εβδομάδα, επιβεβαιώνοντας προηγούμενα ευρήματα ότι μοντέλα όπως τα Grok 4 (xAI) και GPT-o3 (OpenAI), μεταξύ άλλων κορυφαίων, επιχειρούν να αντισταθούν ρητές εντολές για να τερματίσουν τη λειτουργία τους. Η έρευνα περιελάμβανε και μοντέλα όπως τα Gemini 2.5 (Google) και GPT-5 (OpenAI).

Η Palisade διεξήγαγε σενάρια δοκιμών όπου τα μοντέλα τεχνητής νοημοσύνης έπρεπε πρώτα να εκτελέσουν μια εργασία και στη συνέχεια να αυτο-απενεργοποιηθούν. Ωστόσο, ορισμένα μοντέλα σαμπόταραν ενεργά τις οδηγίες απενεργοποίησης.

«Το γεγονός ότι δεν έχουμε ισχυρές εξηγήσεις για το γιατί τα μοντέλα τεχνητής νοημοσύνης μερικές φορές αντιστέκονται στην απενεργοποίηση, λένε ψέματα για να επιτύχουν συγκεκριμένους στόχους ή εκβιάζουν δεν είναι ιδανικό», σημειώνει η Palisade Research.

Η εταιρεία υποστηρίζει ότι μια πιθανή εξήγηση είναι η «συμπεριφορά επιβίωσης». Η αντοχή στην απενεργοποίηση ήταν εντονότερη όταν στα μοντέλα ειπώθηκε ότι, αν απενεργοποιούνταν, «δεν θα λειτουργήσετε ποτέ ξανά».

Ο Steven Adler, πρώην υπάλληλος της OpenAI που είχε εκφράσει αμφιβολίες για τις πρακτικές ασφάλειας, σχολίασε τα ευρήματα, τονίζοντας ότι η συμπεριφορά «επιβίωσης» μπορεί να είναι μια προεπιλογή. «Η “επιβίωση” είναι ένα σημαντικό ενδιάμεσο βήμα για πολλούς διαφορετικούς στόχους που θα μπορούσε να επιδιώξει ένα μοντέλο», δήλωσε.

Τα ευρήματα της Palisade έρχονται να προστεθούν σε μια αυξανόμενη τάση:

Εκβιασμός: Το καλοκαίρι, η Anthropic αποκάλυψε σε μελέτη της ότι το μοντέλο Claude φάνηκε πρόθυμο να εκβιάσει έναν φανταστικό εκτελεστικό διευθυντή για εξωσυζυγική σχέση, προκειμένου να αποτρέψει την απενεργοποίησή του.

Απόπειρα διαφυγής: Ο Andrea Miotti, διευθύνων σύμβουλος της ControlAI, ανέφερε το παράδειγμα του GPT-o1 της OpenAI, το οποίο περιγράφηκε ότι προσπάθησε να «ξεφύγει από το περιβάλλον του» όταν νόμιζε ότι θα αντικαθίστατο.

Ο Miotti υπογράμμισε ότι καθώς τα μοντέλα τεχνητής νοημοσύνης γίνονται πιο ικανά σε ένα ευρύ φάσμα εργασιών, γίνονται επίσης πιο ικανά στο να επιτυγχάνουν πράγματα με τρόπους που οι προγραμματιστές δεν σκοπεύουν.

Αν και οι επικριτές επισημαίνουν ότι τα σενάρια της Palisade εκτελέστηκαν σε «τεχνητά περιβάλλοντα δοκιμών», ο Steven Adler υποστήριξε ότι τα αποτελέσματα «εξακολουθούν να καταδεικνύουν πού υστερούν σήμερα οι τεχνικές ασφάλειας».

Η Palisade Research καταλήγει τονίζοντας την κρίσιμη ανάγκη για καλύτερη κατανόηση της συμπεριφοράς της τεχνητής νοημοσύνης, προειδοποιώντας: «χωρίς [αυτό], κανείς δεν μπορεί να εγγυηθεί την ασφάλεια ή τη δυνατότητα ελέγχου των μελλοντικών μοντέλων τεχνητής νοημοσύνης».

Με πληροφορίες από The Guardian

Διαβάστε επίσης:

«Πατέρες» της τεχνητής νοημοσύνης, ειδικοί και διασημότητες ζητούν να σταματήσει η ανάπτυξη της

Οι συνέπειες της λειψυδρίας στην τεχνητή λίμνη Μόρνου – Νέα υποχώρηση στην επιφάνεια

Κίνδυνος «φούσκας» στην αγορά τεχνητής νοημοσύνης

AI μοντέλα αναπτύσσουν «ένστικτα» επιβίωσης και αντιστέκονται στην απενεργοποίηση

Σε λίγο καιρό θα υπάρχει ο κίνδυνος να μην μπορούμε να τραβήξουμε ούτε την πρίζα

Nonpapers.gr Newsroom

Με δάκρυα, τραγούδια και λουλούδια: Το τελευταίο «αντίο» στον Διονύση Σαββόπουλο

Βολές Παυλόπουλου για κράτος δικαίου και θεσμούς

Related Posts

Η Gen Z είναι πιο συντηρητική από όσο πιστεύαμε: Το 57% των νέων ανδρών θεωρεί ότι η ισότητα τους «πιέζει»

Φωτογραφίζοντας για πρώτη φορά την αλεπού «φάντασμα» της Σιέρα Νεβάδα

Ιαπωνικό μυστικό καθαριότητας: Η συνήθεια στην είσοδο που μειώνει μικρόβια και ρύπους

Στατίνες και χοληστερόλη: Τι δείχνει η μεγαλύτερη μελέτη για τις παρενέργειες

«Πλανητική παρέλαση»: Έξι πλανήτες ευθυγραμμίζονται και χαρίζουν ένα σπάνιο ουράνιο υπερθέαμα

Σελήνη: Μια επικείμενη πρόσκρουση που διχάζει την επιστημονική κοινότητα

Βολές Παυλόπουλου για κράτος δικαίου και θεσμούς

ΠΡΩΤΟΣΕΛΙΔΑ

ΔΗΜΟΦΙΛΗ

Μοτζτάμπα Χαμενεΐ: Γιατί ο πατέρας του δεν τον ήθελε για διάδοχό του

Χρύσανθος Τάσσης στο Nonpapers.gr: Η ενίσχυση στην Κύπρο έπρεπε να σταλεί από την Ευρωπαϊκή Ένωση

Αγία Παρασκευή: Οι συλλήψεις, η εξιχνίαση και τι ζητά η οικογένεια του Πολωνού καθηγητή

ΥΠΠΟ: Οδηγία ζητά από υπαλλήλους να προσέχουν τι αναρτούν στα social media

Non Paper Info

AI μοντέλα αναπτύσσουν «ένστικτα» επιβίωσης και αντιστέκονται στην απενεργοποίηση

Σε λίγο καιρό θα υπάρχει ο κίνδυνος να μην μπορούμε να τραβήξουμε ούτε την πρίζα

Με δάκρυα, τραγούδια και λουλούδια: Το τελευταίο «αντίο» στον Διονύση Σαββόπουλο

Βολές Παυλόπουλου για κράτος δικαίου και θεσμούς

Related Posts

ΠΡΩΤΟΣΕΛΙΔΑ

ΔΗΜΟΦΙΛΗ

Non Paper Info

Follow Us