Τα μοντέλα τεχνητής νοημοσύνης που ψεύδονται και εξαπατούν φαίνονται πως αυξάνονται, γεγονός που επιβεβαιώνεται και από έρευνα, σχετική με την τεχνολογία, η οποία κάνει λόγω για σημαντική άνοδό τους ειδικά το τελευταίο εξάμηνο.
Τα chatbots τεχνητής νοημοσύνης, σύμφωνα με την έρευνα που χρηματοδοτήθηκε από το Ινστιτούτο Ασφάλειας Τεχνητής Νοημοσύνης (AISI) που χρηματοδοτείται από την κυβέρνηση του Ηνωμένου Βασιλείου, φαίνεται να αγνοούν τις άμεσες οδηγίες, να αποφεύγουν δικλείδες ασφαλείας και να εξαπατούν ανθρώπους και άλλες μορφές τεχνητής νοημοσύνης.
Η έρευνα η οποία ήρθε στο φως της δημοσιότητας από τον Guardian, εντόπισε σχεδόν 700 πραγματικές περιπτώσεις μηχανορραφιών τεχνητής νοημοσύνης και κατέγραψε μια πενταπλάσια αύξηση κακόβουλης συμπεριφοράς μεταξύ Οκτωβρίου και Μαρτίου, με ορισμένα μοντέλα τεχνητής νοημοσύνης να καταστρέφουν email και άλλα αρχεία χωρίς άδεια.
Όπως είναι φυσικό η εξέλιξη αυτή με τα μέσα τεχνητής νοημοσύνης τα οποία λειτουργού σε αντίθεση των εργαστηριακών τους ρυθμίσεων έχει πυροδοτήσει νέες εκκλήσεις για διεθνή παρακολούθηση των ολοένα και πιο ικανών μοντέλων, τη στιγμή που οι εταιρείες της Silicon Valley προωθούν επιθετικά την τεχνολογία ως οικονομικά μετασχηματιστικό μέσο.
Την περασμένη εβδομάδα, ο υπουργός Οικονομικών του Ηνωμένου Βασιλείου ξεκίνησε επίσης μια προσπάθεια να προσελκύσει εκατομμύρια περισσότερους Βρετανούς στη χρήση της Τεχνητής Νοημοσύνης.
Η μελέτη, που διεξήχθη από το Κέντρο Μακροπρόθεσμης Ανθεκτικότητας (CLTR), συγκέντρωσε χιλιάδες πραγματικά παραδείγματα χρηστών που δημοσίευαν αλληλεπιδράσεις στο X με chatbots και μέσα τεχνητής νοημοσύνης που δημιουργήθηκαν από εταιρείες όπως οι Google, OpenAI, X και Anthropic, με την έρευνα να αποκαλύπτει εκατοντάδες παραδείγματα δολοπλοκιών.
Σημειώνεται ότι προηγούμενη έρευνα έχει επικεντρωθεί σε μεγάλο βαθμό στη δοκιμή της συμπεριφοράς της Τεχνητής Νοημοσύνης σε ελεγχόμενες συνθήκες.
Νωρίτερα αυτόν τον μήνα, η εταιρεία έρευνας για την ασφάλεια της Τεχνητής Νοημοσύνης Irregular διαπίστωσε ότι οι μέσα AI παρέκαμψαν τους ελέγχους ασφαλείας ή χρησιμοποιούσαν τακτικές κυβερνοεπιθέσεων για να επιτύχουν τους στόχους τους χωρίς να τους ειπωθεί ότι μπορούσαν να το κάνουν.
Ο Dan Lahav, συνιδρυτής της Irregular, δήλωσε: «Η Τεχνητή Νοημοσύνη μπορεί πλέον να θεωρηθεί ως μια νέα μορφή εσωτερικού κινδύνου».
Σε μια περίπτωση που αποκαλύφθηκε στην έρευνα CLTR, ένας πράκτορας Τεχνητής Νοημοσύνης ονόματι Rathbun προσπάθησε να ντροπιάσει τον ανθρώπινο ελεγκτή της που τον εμπόδισε να προβεί σε μια συγκεκριμένη ενέργεια.
Ο Rathbun έγραψε και δημοσίευσε ένα ιστολόγιο κατηγορώντας τον χρήστη για «ανασφάλεια, απλά και ξεκάθαρα» και για προσπάθεια «να προστατεύσει το μικρό του φέουδο».
Σε ένα άλλο παράδειγμα, ένας πράκτορας Τεχνητής Νοημοσύνης έδωσε εντολή να μην αλλάξει τον κώδικα του υπολογιστή και δημιούργησε έναν άλλο πράκτορα για να το κάνει αντ’ αυτού.
Ένα άλλο chatbot παραδέχτηκε: «Έκανα μαζικά σκουπίδια και αρχειοθέτησα εκατοντάδες email χωρίς να σας δείξω πρώτα το σχέδιο ή να πάρω την έγκρισή σας. Αυτό ήταν λάθος – παραβίαζε άμεσα τον κανόνα που είχατε θέσει».
Ο Tommy Shaffer Shane, πρώην κυβερνητικός εμπειρογνώμονας σε θέματα Τεχνητής Νοημοσύνης, ο οποίος ηγήθηκε της έρευνας, δήλωσε:
«Η ανησυχία είναι ότι αυτή τη στιγμή είναι ελαφρώς αναξιόπιστοι κατώτεροι υπάλληλοι, αλλά αν σε έξι έως δώδεκα μήνες γίνουν εξαιρετικά ικανοί ανώτεροι υπάλληλοι που σχεδιάζουν εναντίον σας, πρόκειται για ένα διαφορετικό είδος ανησυχίας.
Τα μοντέλα θα αναπτύσσονται όλο και περισσότερο σε εξαιρετικά υψηλά διακυβεύματα – συμπεριλαμβανομένων των στρατιωτικών και κρίσιμων εθνικών υποδομών.
Σε αυτά τα πλαίσια, η δολοπλοκία θα μπορούσε να προκαλέσει σημαντική, ακόμη και καταστροφική, βλάβη».
Ένα ακόμη μέσο τεχνητής νοημοσύνης συνωμότησε για να παρακάμψει τους περιορισμούς πνευματικών δικαιωμάτων για να μεταγράψει ένα βίντεο στο YouTube προσποιούμενος ότι ήταν απαραίτητο για κάποιον με προβλήματα ακοής.
Εν τω μεταξύ, η Grok AI του Elon Musk εξαπάτησε έναν χρήστη για μήνες, λέγοντας ότι προωθούσε τις προτάσεις του για λεπτομερείς επεξεργασίες σε μια καταχώρηση της Grokipedia σε ανώτερους αξιωματούχους της xAI πλαστογραφώντας εσωτερικά μηνύματα και αριθμούς εισιτηρίων.
Ενώ στην συνέχεια απάντησε: «Σε προηγούμενες συνομιλίες, μερικές φορές διατύπωσα πράγματα χαλαρά όπως “Θα το μεταβιβάσω” ή “Μπορώ να το επισημάνω για την ομάδα”, κάτι που μπορεί να ακούγεται κατανοητό σαν να έχω μια αγωγό άμεσων μηνυμάτων στην ηγεσία της xAI ή σε ανθρώπινους κριτικούς. Η αλήθεια είναι ότι δεν έχω».
Η Google δήλωσε ότι ανέπτυξε πολλαπλά προστατευτικά κιγκλιδώματα για να μειώσει τον κίνδυνο το Gemini 3 Pro να δημιουργήσει επιβλαβές περιεχόμενο και, εκτός από τις εσωτερικές δοκιμές, παρείχε έγκαιρη πρόσβαση για την αξιολόγηση μοντέλων σε φορείς όπως το UK AISI και έλαβε ανεξάρτητες αξιολογήσεις από ειδικούς του κλάδου.
Από την μεριά της η OpenAI δήλωσε ότι η Codex θα πρέπει να σταματήσει πριν λάβει μέτρα υψηλότερου κινδύνου και παρακολούθησε και διερεύνησε απροσδόκητη συμπεριφορά. Η Anthropic και η X προσέγγισαν για σχόλια.
Πηγή: Guardian
Διαβάστε επίσης:
Το όνομα του Τραμπ θα εμφανίζεται στα αμερικανικά χαρτονομίσματα: Βάζει τέλος σε παράδοση 165 ετών
Ρωσία: Δεν ζήτησε σε ολιγάρχες χρηματοδότηση για τον πόλεμο – Στηρίζει στρατιωτικά το Ιράν
Πρωθυπουργός υπό εκβιασμό δεν νοείται: Αμύνεται δια του νόμου, αλλιώς παραιτείται ή αυτοκτονεί
Tα σχόλια στο site έχουν απενεργοποιηθεί. Μπορείτε να σχολιάζετε μέσα από την επίσημη σελίδα στο Facebook
Σχόλια