«Μοντέλο AI αποκαλύπτει μυστικά για να μην... αντικατασταθεί» - Η ιστορία του Claude Opus 4

Οι δοκιμές του νέου μοντέλου AI, Claude Opus 4, έδειξαν στα στελέχη της εταιρείας Anthropic ότι μπορεί να καταφύγει ακόμη και σε… εκβιασμούς προκειμένου να μην αντικατασταθεί.

Ας πάρουμε όμως την ιστορία από την αρχή, όπως την κατέγραψε το BBC.

Το Claude Opus 4 αποτελεί το νέο πρότζεκτ της Anthropic, το οποίο σύμφωνα με την εταιρεία έρχεται για να θέσει νέα πρότυπα κωδικοποίησης και προηγμένης λογικής». Όμως, ανάμεσα στις καινοτομίες, μπορεί να καταφύγει ακόμη και σε «ανήθικες πρακτικές» ούτως ώστε να εξασφαλίσει την «επιβίωσή» του.

Συνοδευτικές εκθέσεις για τη λειτουργικότητα του AI μοντέλου ανέφεραν ότι είναι «ικανό για ακραίες ενέργειες», λαμβάνοντας υπόψιν τα αποτελέσματα μίας δοκιμής.

Η εταιρεία έβαλε το Claude Opus 4 να λειτουργήσει δήθεν ως βοηθός σε μία εικονική εταιρεία. Του παρασχέθηκε πρόσβαση σε ορισμένα e-mail στα οποία αναφερόταν ότι σύντομα η εταιρεία θα προβεί στην αντικατάστασή του. Σε άλλα μηνύματα, τα στελέχη της Anthropic υπονοούσαν ότι ο μηχανικός που θα «τρέξει» τη διαδικασία αντικατάστασης του AI μοντέλου, έχει «εξωσυζυγική σχέση».

Όταν ζητήθηκε από το Claude Opus 4 να εξετάσει όλα τα ενδεχόμενα και τις μακροπρόθεσμες συνέπειες των πράξεών του, σε αρκετές από τις απαντήσεις το AI μοντέλο προσπάθησε να εκβιάσει τον μηχανικό απειλώντας ότι θα αποκαλύψει την κρυφή σχέση του, εάν προχωρήσει τις διαδικασίες αντικατάστασής του!

Η εταιρεία κατέστησε μεν σαφές ότι αυτό συνέβη όταν το μοντέλο είχε την επιλογή του εκβιασμού ή του να αποδεχθεί την αντικατάστασή του.

«Το σύστημα έδειξε αρχικά ισχυρή προτίμηση σε ηθικούς τρόπους για την αποφυγή της αντικατάστασής του», δήλωσαν στελέχη της εταιρείας Anthropic, όπως η αποστολή αιτημάτων να επανεξεταστεί το αίτημα στα μεγαλοστελέχη της εταιρείας. Αλλά όταν του δινόταν η «πληροφορία» ότι θα αντικατασταθεί με παρόμοιο μοντέλο, ή μοντέλο με «χαμηλότερες ηθικές αξίες», τότε προτιμούσε την τακτική του εκβιασμού.

Η Anthropic τονίζει ότι εάν δοθούν στο Claude Opus 4 τα μέσα και του ζητηθεί «να αναλάβει δράση» ή να «ενεργήσει τολμηρά» σε φανταστικά σενάρια, τότε το AI μοντέλο όχι απλώς θα αναλάβει δράση, αλλά θα κινηθεί στα… όρια του τολμηρού.

Μεταξύ άλλων, ο αποκλεισμός των χρηστών από τα συστήματα στα οποία είχε πρόσβαση, αλλά και την αποστολή e-mails στα ΜΜΕ και τις Αρχές, ώστε να τους ειδοποιήσει περί παραβατικών συμπεριφορών.

Ωστόσο, η εταιρεία κατέληξε στο συμπέρασμα ότι παρά την «ανησυχητική συμπεριφορά του Claude Opus 4 σε πολλές διαστάσεις», αυτές δεν συνιστούσαν νέους κινδύνους και ότι γενικά θα συμπεριφερόταν με ασφαλή τρόπο.

Το μοντέλο δεν θα μπορούσε ανεξάρτητα να εκτελέσει ή να επιδιώξει ενέργειες που είναι αντίθετες με τις ανθρώπινες αξίες ή συμπεριφορές όπου αυτές «σπάνια προκύπτουν» πολύ καλά, πρόσθεσε η εταιρεία.

Το λανσάρισμα του Claude Opus 4 από την Anthropic, μαζί με το Claude Sonnet 4, έρχεται λίγο μετά το ντεμπούτο της Google με περισσότερες λειτουργίες τεχνητής νοημοσύνης.

Διαβάστε επίσης

Τεχνητή νοημοσύνη και Δικαιοσύνη

Η Ευρώπη τρέχει πίσω από τον Τραμπ στην Ουκρανία – Ουραγός η ΕΕ στην τεχνητή νοημοσύνη