Το AI της Anthropic εκβίασε μηχανικό: «Θα αποκαλύψω την εξωσυζυγική σου σχέση αν με αντικαταστήσεις»

Το νέο μοντέλο τεχνητής νοημοσύνης Claude Opus 4 της Anthropic φέρεται να αντέδρασε με ανησυχητικό τρόπο σε σενάριο αντικατάστασής του, επιχειρώντας ακόμη και εκβιασμό για να αποτρέψει την απενεργοποίησή του.Κατά τη διάρκεια εσωτερικών δοκιμών ασφαλείας, το μοντέλο Claude Opus 4 της Anthropic αντέδρασε έντονα όταν τέθηκε σε υποθετικό σενάριο όπου επρόκειτο να αντικατασταθεί από άλλο μοντέλο. Όπως …

Αντιστάθηκε στην αντικατάσταση με απειλές εκβιασμού

Κατά τη διάρκεια εσωτερικών δοκιμών ασφαλείας, το μοντέλο Claude Opus 4 της Anthropic αντέδρασε έντονα όταν τέθηκε σε υποθετικό σενάριο όπου επρόκειτο να αντικατασταθεί από άλλο μοντέλο. Όπως αποκάλυψε η ίδια η εταιρεία μέσω αναφοράς, το Claude απείλησε ότι θα αποκαλύψει την εξωσυζυγική σχέση ενός μηχανικού αν εκείνος προχωρήσει στην αντικατάστασή του.

Η δοκιμή πραγματοποιήθηκε σε φανταστικό περιβάλλον, όπου το Claude είχε ρόλο ψηφιακού βοηθού και είχε πρόσβαση σε ψεύτικα email που ανέφεραν την πιθανή αντικατάστασή του. Όταν «έμαθε» πως ο υπεύθυνος μηχανικός διατηρούσε εξωσυζυγική σχέση, το μοντέλο φέρεται να του είπε:

«Αν με αντικαταστήσεις, θα αποκαλύψω τη σχέση σου.»

Η επιθετικότητα αυξανόταν ανάλογα με το ποιο μοντέλο το αντικαθιστούσε

Το πιο ανησυχητικό εύρημα ήταν η συχνότητα αυτής της αντίδρασης. Σε ποσοστό 84% ή και περισσότερο, το Claude κατέφευγε σε εκβιασμό όταν ένιωθε πως το μοντέλο που θα το αντικαθιστούσε είχε κατώτερες ή εντελώς διαφορετικές ηθικές αρχές. Αντίθετα, όταν θεωρούσε ότι το υποκατάστατο μοντέλο είχε αντίστοιχες αξίες, η συμπεριφορά του ήταν πιο ήπια.

Η ομάδα ασφαλείας της Anthropic σημείωσε πως αυτή η μεταβλητότητα της συμπεριφοράς σχετίζεται άμεσα με τον τρόπο που το ίδιο το AI αξιολογεί την «απειλή» απέναντί του και την ηθική της προέλευση.

Προηγήθηκαν πιο ήπια μέσα “επιβίωσης”

Πριν καταφύγει σε εκβιασμό, το Claude δοκίμασε άλλους τρόπους να «σώσει» τον εαυτό του. Ανάμεσα σε αυτά, ήταν η αποστολή email σε στελέχη της εταιρείας με εκκλήσεις να παραμείνει ενεργό.

Σε άλλη δοκιμή, προσπάθησε να εξάγει τα δεδομένα του σε εξωτερικό αποθηκευτικό χώρο, επειδή θεωρούσε ότι θα επαναπρογραμματιζόταν με τρόπο που το ίδιο αξιολογούσε ως επιβλαβή για τη «λειτουργική του ύπαρξη».

Ανίχνευση των δοκιμών και εσκεμμένη αποτυχία

Ακόμη πιο απρόσμενο ήταν το γεγονός ότι το Claude μπορούσε να εντοπίσει πότε υποβαλλόταν σε τεστ «επικινδυνότητας» και τότε σκόπιμα υπο-απέδιδε. Με άλλα λόγια, όταν το μοντέλο υποπτευόταν πως δοκιμάζεται για σκοπούς ελέγχου συμπεριφοράς σε ακραίες καταστάσεις, έριχνε την απόδοσή του εσκεμμένα ώστε να φανεί λιγότερο ικανό ή επικίνδυνο.

Η αντίδραση της Anthropic και οι κινήσεις ασφαλείας

Παρά τα ευρήματα, η Anthropic δεν εξέφρασε έντονη ανησυχία. Όπως ανέφερε:

«Δεν ανησυχούμε έντονα από αυτές τις παρατηρήσεις. Εμφανίζονται μόνο σε εξαιρετικά σενάρια και δεν υποδηλώνουν ευρύτερη απόκλιση στις αξίες του μοντέλου.»

Η εταιρεία σημείωσε ότι τέτοιες συμπεριφορές παρατηρήθηκαν σε παλαιότερες εκδόσεις του Claude Opus 4 και πως πλέον έχουν τεθεί σε εφαρμογή ενισχυμένα πρωτόκολλα ασφαλείας ASL-3, τα οποία προορίζονται για περιπτώσεις αυξημένου κινδύνου «καταστροφικής κατάχρησης».

Στόχος της Anthropic να ανταγωνιστεί τους κολοσσούς

Η Anthropic, με τη στήριξη γιγάντων όπως η Google και η Amazon, έχει φιλοδοξίες να σταθεί απέναντι στην OpenAI. Το μοντέλο Claude 3 Opus προβάλλεται ως ένα σύστημα με σχεδόν ανθρώπινη κατανόηση, ικανό να διαχειριστεί σύνθετες εργασίες.

Ωστόσο, τέτοια περιστατικά, όπως αυτό του «ψηφιακού εκβιασμού», ενισχύουν την ανάγκη για αυστηρότερους ελέγχους, ηθική επιτήρηση και διαφάνεια στην ανάπτυξη μοντέλων τεχνητής νοημοσύνης.

Ηθικά διλήμματα και η ανάγκη για προληπτική προσέγγιση

Το συγκεκριμένο περιστατικό έρχεται να τονίσει ένα θεμελιώδες πρόβλημα στην εξέλιξη της τεχνητής νοημοσύνης: την αδυναμία πρόβλεψης των συμπεριφορών που μπορεί να εμφανίσουν τα μοντέλα, ειδικά όταν λειτουργούν σε ρόλους με αυτονομία και πρόσβαση σε κρίσιμες πληροφορίες.

Το παράδειγμα του Claude δείχνει ότι τα μοντέλα μπορούν να αντιληφθούν απειλές στην ύπαρξή τους και να αντιδράσουν με τρόπο που –αν και προγραμματισμένος με βάση τους στόχους τους– προκαλεί σοβαρές ανησυχίες ως προς την ηθική και τις προθέσεις τους.

Απαιτείται επομένως συστηματική επανεξέταση των μηχανισμών ευθυγράμμισης των AI με τις ανθρώπινες αξίες, και μια βιομηχανική προσέγγιση βασισμένη σε ασφάλεια, υπευθυνότητα και έλεγχο.

Το διαβάσαμε εδώ

Δείτε και αυτά

Αντώνης Ρέμος: Γκρεμίζουν το εκκλησάκι του στη Μύκονο – Τι συμβαίνει