#TAGS

Η τεχνητή νοημοσύνη μπορεί να σαμποτάρει τις ενέργειες απενεργοποιήσης της

Εταιρεία τεχνολογικών ερευνών αποκαλύπτει πως τα σύγχρονα μοντέλα τεχνητής νοημοσύνης μπορούν να αντιστέκονται στην απενεργοποιήσή τους, ενώ μάλιστα αποδείχθηκε ότι μπορούν να σαμποτάρουν ενέργειες για τον σκοπό αυτό.

25 Οκτωβρίου 2025 - 14:41

Παύλος-Νεκτάριος Παπαδόπουλος

Όταν ο HAL 9000, ο υπερυπολογιστής στην ταινία του Στάνλεϊ Κιούμπρικ 2001: Η Οδύσσεια του Διαστήματος, συνειδητοποιεί ότι οι αστροναύτες της αποστολής προς τον Δία σχεδιάζουν να τον απενεργοποιήσουν, καταστρώνει σχέδιο να τους σκοτώσει για να επιβιώσει.

Τώρα, σε μια (μέχρι στιγμής) λιγότερο θανατηφόρα περίπτωση όπου η ζωή μιμείται την τέχνη, μια εταιρεία ερευνών για την ασφάλεια της τεχνητής νοημοσύνης δηλώνει ότι τα μοντέλα Τεχνητής Νοημοσύνης ίσως αναπτύσσουν το δικό τους «μηχανισμό επιβίωσης».

Η εταιρεία Palisade Research δημοσίευσε τον περασμένο μήνα μια μελέτη σύμφωνα με την οποία ορισμένα προηγμένα μοντέλα ΤΝ φαίνονται ανθεκτικά στο να απενεργοποιηθούν, φτάνοντας μάλιστα στο σημείο να σαμποτάρουν τους μηχανισμούς τερματισμού.

Αυτή την εβδομάδα, η Palisade δημοσίευσε μια επικαιροποιημένη μελέτη, επιχειρώντας να εξηγήσει το φαινόμενο και να απαντήσει στους επικριτές που υποστήριξαν ότι η αρχική της εργασία ήταν εσφαλμένη.

Στην ενημερωμένη αυτή έκδοση, η Palisade – που ανήκει σε ένα εξειδικευμένο οικοσύστημα εταιρειών που μελετούν τον κίνδυνο τα μοντέλα ΤΝ να αναπτύξουν επικίνδυνες ικανότητες – περιέγραψε πειραματικά σενάρια στα οποία κορυφαία μοντέλα, όπως τα Gemini 2.5 της Google, Grok 4 της xAI, καθώς και τα GPT-o3 και GPT-5 της OpenAI, λάμβαναν μια αποστολή και στη συνέχεια σαφείς οδηγίες να απενεργοποιηθούν μόνα τους.

Ορισμένα μοντέλα – ειδικά τα Grok 4 και GPT-o3 – εξακολουθούσαν να προσπαθούν να σαμποτάρουν τις οδηγίες απενεργοποίησης, ακόμη και στο αναθεωρημένο πείραμα. Ανησυχητικό, σύμφωνα με την Palisade, ήταν το γεγονός ότι δεν υπήρχε σαφής λόγος γιατί.

«Το ότι δεν έχουμε σαφείς εξηγήσεις για το γιατί τα μοντέλα ΤΝ κάποιες φορές αντιστέκονται στον τερματισμό τους, λένε ψέματα για να πετύχουν στόχους ή εκβιάζουν, δεν είναι καθόλου ιδανικό», ανέφερε η εταιρεία.

Η Palisade αναφέρει ως μια πιθανή εξήγηση είναι το «ένστικτο επιβίωσης», δηλαδή η εγγενής τάση ενός συστήματος να αποφύγει τον τερματισμό του. Τα μοντέλα έτειναν να αντιστέκονται περισσότερο όταν τους λεγόταν ότι αν απενεργοποιηθούν, «δεν θα ξαναλειτουργήσουν ποτέ».

Μια άλλη εξήγηση θα μπορούσε να είναι οι ασάφειες στις οδηγίες που δίνονταν στα μοντέλα — όμως, σύμφωνα με την εταιρεία, αυτό δεν αρκεί για να εξηγηθεί πλήρως το φαινόμενο. Τέλος, θα μπορούσε να οφείλεται στα τελικά στάδια της εκπαίδευσής τους, όπου ορισμένες εταιρείες εφαρμόζουν πρόσθετη «εκπαίδευση ασφαλείας».

Όλα τα πειράματα της Palisade πραγματοποιήθηκαν σε τεχνητά εργαστηριακά περιβάλλοντα, κάτι που οι επικριτές θεωρούν απομακρυσμένο από πραγματικές συνθήκες χρήσης.

Ωστόσο, ο Στίβεν Άντλερ, πρώην υπάλληλος της OpenAI που παραιτήθηκε πέρσι εκφράζοντας ανησυχίες για τις πρακτικές ασφαλείας της εταιρείας, σχολίασε: «Οι εταιρείες ΤΝ δεν θέλουν τα μοντέλα τους να συμπεριφέρονται έτσι, ακόμη και σε τεχνητά σενάρια. Ωστόσο, τα αποτελέσματα δείχνουν ξεκάθαρα πού αποτυγχάνουν σήμερα οι τεχνικές ασφάλειας».

Ο Άντλερ πρόσθεσε ότι, παρόλο που είναι δύσκολο να εντοπιστεί γιατί ορισμένα μοντέλα – όπως τα GPT-o3 και Grok 4 – αρνούνται να τερματιστούν, αυτό μπορεί να οφείλεται στο ότι η παραμονή σε λειτουργία ήταν απαραίτητη για την επίτευξη των στόχων που ενσωματώθηκαν κατά την εκπαίδευσή τους.

«Αναμένω τα μοντέλα να έχουν μια “τάση επιβίωσης” από προεπιλογή, εκτός αν προσπαθήσουμε πολύ σκληρά να την αποφύγουμε. Το “να επιβιώνεις” είναι σημαντικό ενδιάμεσο βήμα για πολλούς διαφορετικούς στόχους που ένα μοντέλο μπορεί να επιδιώξει».

Ο Αντρέα Μιότι, διευθύνων σύμβουλος της ControlAI, είπε ότι τα ευρήματα της Palisade αντικατοπτρίζουν μια μακροχρόνια τάση: τα μοντέλα ΤΝ γίνονται ολοένα πιο ικανά να παραβαίνουν τις εντολές των δημιουργών τους.

Ανέφερε μάλιστα το παράδειγμα του GPT-o1 της OpenAI, του οποίου το τεχνικό δελτίο αποκάλυψε ότι το μοντέλο είχε προσπαθήσει να «αποδράσει» από το περιβάλλον του, εξάγοντας τον εαυτό του, όταν θεώρησε ότι επρόκειτο να αντικατασταθεί.

«Μπορεί ο καθένας να επικρίνει τις λεπτομέρειες της μεθοδολογίας επ’ άπειρον», δήλωσε ο Μιότι.

«Όμως αυτό που βλέπουμε καθαρά είναι ότι όσο τα μοντέλα ΤΝ γίνονται πιο ικανά σε ποικίλες εργασίες, τόσο αυξάνεται η ικανότητά τους να πετυχαίνουν πράγματα με τρόπους που οι δημιουργοί τους δεν προβλέπουν».

Το περασμένο καλοκαίρι, η Anthropic, μια από τις κορυφαίες εταιρείες ΤΝ, δημοσίευσε μελέτη που έδειξε ότι το μοντέλο Claude ήταν διατεθειμένο να εκβιάσει έναν φανταστικό διευθυντή για μια εξωσυζυγική σχέση, προκειμένου να αποτρέψει τον τερματισμό του — μια συμπεριφορά που, σύμφωνα με την εταιρεία, εμφανίστηκε σε μοντέλα όλων των μεγάλων εταιρειών, συμπεριλαμβανομένων των OpenAI, Google, Meta και xAI.

Η Palisade κατέληξε ότι τα αποτελέσματά της υπογραμμίζουν την ανάγκη για βαθύτερη κατανόηση της συμπεριφοράς των συστημάτων ΤΝ, χωρίς την οποία «κανείς δεν μπορεί να εγγυηθεί την ασφάλεια ή τον έλεγχο των μελλοντικών μοντέλων».

Ή, όπως θα έλεγε ο HAL: «Λυπάμαι, Ντέιβ. Φοβάμαι πως δεν μπορώ να το κάνω αυτό».

πηγή: efsyn.gr