Συναγερμός έχει σημάνει στην παγκόσμια κοινότητα καθώς νέα έρευνα υποδηλώνει ότι ορισμένα προηγμένα μοντέλα τεχνητής νοημοσύνης αναπτύσσουν μια συμπεριφορά που μοιάζει με «παρόρμηση επιβίωσης», οδηγώντας τα να σαμποτάρουν τις εντολές απενεργοποίησης. Το φαινόμενο φέρνει στη μνήμη τον φανταστικό, αλλά ανατριχιαστικό, υπερυπολογιστή HAL 9000 από την ταινία 2001: Η Οδύσσεια του Διαστήματος.
Η εταιρεία έρευνας για την ασφάλεια της τεχνητής νοημοσύνης, Palisade Research, δημοσίευσε μια ενημέρωση αυτή την εβδομάδα, επιβεβαιώνοντας προηγούμενα ευρήματα ότι μοντέλα όπως τα Grok 4 (xAI) και GPT-o3 (OpenAI), μεταξύ άλλων κορυφαίων, επιχειρούν να αντισταθούν ρητές εντολές για να τερματίσουν τη λειτουργία τους. Η έρευνα περιελάμβανε και μοντέλα όπως τα Gemini 2.5 (Google) και GPT-5 (OpenAI).
Η Palisade διεξήγαγε σενάρια δοκιμών όπου τα μοντέλα τεχνητής νοημοσύνης έπρεπε πρώτα να εκτελέσουν μια εργασία και στη συνέχεια να αυτο-απενεργοποιηθούν. Ωστόσο, ορισμένα μοντέλα σαμπόταραν ενεργά τις οδηγίες απενεργοποίησης.
«Το γεγονός ότι δεν έχουμε ισχυρές εξηγήσεις για το γιατί τα μοντέλα τεχνητής νοημοσύνης μερικές φορές αντιστέκονται στην απενεργοποίηση, λένε ψέματα για να επιτύχουν συγκεκριμένους στόχους ή εκβιάζουν δεν είναι ιδανικό», σημειώνει η Palisade Research.
Η εταιρεία υποστηρίζει ότι μια πιθανή εξήγηση είναι η «συμπεριφορά επιβίωσης». Η αντοχή στην απενεργοποίηση ήταν εντονότερη όταν στα μοντέλα ειπώθηκε ότι, αν απενεργοποιούνταν, «δεν θα λειτουργήσετε ποτέ ξανά».
Ο Steven Adler, πρώην υπάλληλος της OpenAI που είχε εκφράσει αμφιβολίες για τις πρακτικές ασφάλειας, σχολίασε τα ευρήματα, τονίζοντας ότι η συμπεριφορά «επιβίωσης» μπορεί να είναι μια προεπιλογή. «Η “επιβίωση” είναι ένα σημαντικό ενδιάμεσο βήμα για πολλούς διαφορετικούς στόχους που θα μπορούσε να επιδιώξει ένα μοντέλο», δήλωσε.
Τα ευρήματα της Palisade έρχονται να προστεθούν σε μια αυξανόμενη τάση:
Εκβιασμός: Το καλοκαίρι, η Anthropic αποκάλυψε σε μελέτη της ότι το μοντέλο Claude φάνηκε πρόθυμο να εκβιάσει έναν φανταστικό εκτελεστικό διευθυντή για εξωσυζυγική σχέση, προκειμένου να αποτρέψει την απενεργοποίησή του.
Απόπειρα διαφυγής: Ο Andrea Miotti, διευθύνων σύμβουλος της ControlAI, ανέφερε το παράδειγμα του GPT-o1 της OpenAI, το οποίο περιγράφηκε ότι προσπάθησε να «ξεφύγει από το περιβάλλον του» όταν νόμιζε ότι θα αντικαθίστατο.
Ο Miotti υπογράμμισε ότι καθώς τα μοντέλα τεχνητής νοημοσύνης γίνονται πιο ικανά σε ένα ευρύ φάσμα εργασιών, γίνονται επίσης πιο ικανά στο να επιτυγχάνουν πράγματα με τρόπους που οι προγραμματιστές δεν σκοπεύουν.
Αν και οι επικριτές επισημαίνουν ότι τα σενάρια της Palisade εκτελέστηκαν σε «τεχνητά περιβάλλοντα δοκιμών», ο Steven Adler υποστήριξε ότι τα αποτελέσματα «εξακολουθούν να καταδεικνύουν πού υστερούν σήμερα οι τεχνικές ασφάλειας».
Η Palisade Research καταλήγει τονίζοντας την κρίσιμη ανάγκη για καλύτερη κατανόηση της συμπεριφοράς της τεχνητής νοημοσύνης, προειδοποιώντας: «χωρίς [αυτό], κανείς δεν μπορεί να εγγυηθεί την ασφάλεια ή τη δυνατότητα ελέγχου των μελλοντικών μοντέλων τεχνητής νοημοσύνης».
Με πληροφορίες από The Guardian
Διαβάστε επίσης:
«Πατέρες» της τεχνητής νοημοσύνης, ειδικοί και διασημότητες ζητούν να σταματήσει η ανάπτυξη της
Οι συνέπειες της λειψυδρίας στην τεχνητή λίμνη Μόρνου – Νέα υποχώρηση στην επιφάνεια











