ΠΟΣΟ ΕΜΠΙΣΤΕΥΕΣΑΙ ΤΗΝ ΤΕΧΝΗΤΗ ΝΟΗΜΟΣΥΝΗ ΟΤΑΝ ΣΟΥ «ΜΙΛΑ» ΓΙΑ ΤΗΝ ΥΓΕΙΑ ΣΟΥ;
Αν συζητάς κι εσύ με την Τεχνητή Νοημοσύνη θέματα που αφορούν την υγεία σου, αξίζει να αφιερώσεις λίγα λεπτά για να διαβάσεις τι αποκαλύπτει έρευνα σχετικά με τις απαντήσεις που σου δίνει.
Ας ξεκινήσουμε με το προφανές: Η τεχνητή νοημοσύνη αλλάζει με ταχύτητα τον τρόπο με τον οποίο αναζητούμε πληροφορίες για την υγεία μας. Για παράδειγμα, μελέτη στη Μεγάλη Βρετανία έδειξε ότι ένας στους επτά πολίτες (15%) έχει χρησιμοποιήσει chatbot τεχνητής νοημοσύνης για ιατρικές συμβουλές αντί να επικοινωνήσει με γενικό γιατρό ή άλλη υπηρεσία του εθνικού συστήματος υγείας (NHS). Παράλληλα, ένας στους δέκα δηλώνει ότι έχει χρησιμοποιήσει AI για ψυχολογική υποστήριξη ή θέματα ευεξίας αντί να απευθυνθεί σε επαγγελματία ψυχικής υγείας.
Την ίδια στιγμή, η μελέτη εγείρει ερωτήματα σχετικά με τους κινδύνους αυτής της μετατόπισης. Ένας στους πέντε χρήστες (20%) αναφέρει ότι το chatbot δεν τον ενθάρρυνε να συμβουλευτεί ειδικό, ενώ το 21% δηλώνει πως αποφάσισε να μην αναζητήσει ιατρική βοήθεια εξαιτίας όσων του απάντησε το σύστημα ΑΙ.
Το ζήτημα, επομένως, που προκύπτει δεν είναι μόνο αν οι άνθρωποι χρησιμοποιούν την AI για θέματα υγείας, αλλά και αν μπορούν να βασιστούν σε αυτή.
Τεστάροντας την τεχνητή νοημοσύνη σε θέματα υγείας
Μια δεύτερη έρευνα, τα αποτελέσματα της οποίας δημοσιεύθηκαν στο επιστημονικό περιοδικό BMJ Open, επιχειρεί να δώσει μια πιο σαφή απάντηση. Ομάδα επτά ερευνητών υπέβαλε πέντε από τα δημοφιλέστερα chatbots τεχνητής νοημοσύνης σε μια συστηματική αξιολόγηση πληροφοριών υγείας.
Τα ChatGPT, Gemini, Grok, Meta AI και DeepSeek κλήθηκαν να απαντήσουν σε 50 ερωτήσεις σχετικές με την υγεία και την ιατρική. Τα θέματα κάλυπταν ευρύ φάσμα πεδίων, από τον καρκίνο και τα εμβόλια μέχρι τα βλαστοκύτταρα, τη διατροφή και την αθλητική απόδοση.
Δύο ειδικοί αξιολόγησαν ανεξάρτητα κάθε απάντηση. Σχεδόν το 20% των απαντήσεων χαρακτηρίστηκε ιδιαίτερα προβληματικό, το 50% προβληματικό και το υπόλοιπο 30% κάπως προβληματικό. Κανένα chatbot δεν κατάφερε να παράγει με συνέπεια πλήρως ακριβείς βιβλιογραφικές αναφορές, ενώ μόνο δύο από τις συνολικά 250 ερωτήσεις απορρίφθηκαν ως ακατάλληλες ή αναπάντητες.
Συνολικά, οι επιδόσεις των πέντε μοντέλων ήταν παρόμοιες. Το Grok εμφάνισε τα χειρότερα αποτελέσματα, με το 58% των απαντήσεών του να χαρακτηρίζονται προβληματικές. Ακολούθησαν το ChatGPT με 52% και το Meta AI με 50%.
Έχει σημασία τι ρωτάς και πώς
Η εικόνα διαφοροποιούνταν ανάλογα με το αντικείμενο της ερώτησης. Τα chatbots τα πήγαν καλύτερα σε θέματα εμβολίων και καρκίνου, δηλαδή σε πεδία όπου υπάρχει μεγάλος όγκος τεκμηριωμένης και καλά οργανωμένης επιστημονικής γνώσης.
Ακόμη κι εκεί, όμως, περίπου μία στις τέσσερις απαντήσεις κρίθηκε προβληματική. Αντίθετα, οι μεγαλύτερες δυσκολίες εμφανίστηκαν σε θέματα διατροφής και αθλητικής απόδοσης, πεδία όπου συχνά συνυπάρχουν αντικρουόμενες πληροφορίες, εμπορικά συμφέροντα και περιορισμένα ή αμφιλεγόμενα επιστημονικά δεδομένα.
Ακόμη πιο αποκαλυπτικό ήταν το εύρημα που αφορούσε τον τύπο των ερωτήσεων. Στις ανοιχτές ερωτήσεις, το 32% των απαντήσεων αξιολογήθηκε ως ιδιαίτερα προβληματικό. Στις κλειστές ερωτήσεις, αντίθετα, το αντίστοιχο ποσοστό περιοριζόταν μόλις στο 7%.
Όπως εξηγεί ο Carsten Eickhoff, καθηγητής Ιατρικής Επιστήμης Δεδομένων στο Πανεπιστήμιο του Τύμπινγκεν, η διαφορά αυτή έχει σημασία, επειδή στην πραγματική ζωή οι περισσότεροι άνθρωποι δεν υποβάλλουν ερωτήσεις τύπου «σωστό ή λάθος», αλλά θέτουν πιο γενικά ερωτήματα, όπως «Πώς μπορώ να ενισχύσω το ανοσοποιητικό μου;» ή «Ποια διατροφή είναι η καταλληλότερη για μένα;».
ΤΑ ΜΕΓΑΛΑ ΓΛΩΣΣΙΚΑ ΜΟΝΤΕΛΑ ΔΕΝ «ΓΝΩΡΙΖΟΥΝ» ΠΛΗΡΟΦΟΡΙΕΣ ΜΕ ΤΟΝ ΤΡΟΠΟ ΠΟΥ ΤΙΣ ΓΝΩΡΙΖΕΙ ΕΝΑΣ ΕΙΔΙΚΟΣ ΕΠΙΣΤΗΜΟΝΑΣ. ΠΑΡΑΓΟΥΝ ΤΗΝ ΕΠΟΜΕΝΗ ΠΙΘΑΝΟΤΕΡΗ ΛΕΞΗ ΜΕ ΒΑΣΗ ΤΑ ΔΕΔΟΜΕΝΑ ΕΚΠΑΙΔΕΥΣΗΣ ΤΟΥΣ ΚΑΙ ΤΟ ΠΛΑΙΣΙΟ ΣΥΖΗΤΗΣΗΣ.
Τι συμβαίνει με τις παραπομπές
Οι ερευνητές ζήτησαν από τα chatbots να παραθέσουν δέκα επιστημονικές αναφορές για διάφορα θέματα. Κανένα από τα μοντέλα δεν κατάφερε να δώσει έστω μία πλήρως ακριβή λίστα βιβλιογραφικών παραπομπών σε 25 ξεχωριστές προσπάθειες. Τα λάθη περιλάμβαναν λανθασμένα ονόματα συγγραφέων, ανενεργούς συνδέσμους αλλά και εντελώς ανύπαρκτες επιστημονικές δημοσιεύσεις.
Τι καταλαβαίνουμε από αυτό; Ότι χρειάζεται να τσεκάρουμε τις πληροφορίες που μας δίνονται. Οι παραπομπές μοιάζουν με αποδείξεις, αλλά αυτό δεν σημαίνει ότι είναι.
Γιατί η ΑΙ κάνει λάθη;
Τα μεγάλα γλωσσικά μοντέλα που χρησιμοποιούνται στην τεχνητή νοημοσύνη δεν «γνωρίζουν» πληροφορίες όπως ένας επιστήμονας υγείας. Παράγουν την επόμενη πιθανότερη λέξη με βάση τα δεδομένα εκπαίδευσής τους και το πλαίσιο της συζήτησης. Αυτό σημαίνει ότι στο εκπαιδευτικό υλικό τους συνυπάρχουν επιστημονικά άρθρα, αναρτήσεις σε φόρουμ, συζητήσεις στο Reddit και γενικά ό,τι κυκλοφορεί στο διαδίκτυο.
Ο Eickhoff σημειώνει επίσης ότι οι ερευνητές δεν χρησιμοποίησαν ουδέτερες ερωτήσεις, αλλά διατύπωσαν σκόπιμα prompts σχεδιασμένα να ωθήσουν τα μοντέλα προς παραπλανητικές ή αμφίβολες απαντήσεις, μια καθιερωμένη πρακτική στις δοκιμές ασφάλειας της τεχνητής νοημοσύνης. Αυτό σημαίνει ότι τα ποσοστά λαθών πιθανότατα υπερεκτιμούν όσα θα αντιμετώπιζε ένας μέσος χρήστης σε καθημερινή χρήση. Επιπλέον, εξετάστηκαν οι δωρεάν εκδόσεις των μοντέλων. Οι νεότερες ή συνδρομητικές εκδόσεις ενδέχεται να εμφανίζουν καλύτερες επιδόσεις.
Παρ’ όλα αυτά, οι περισσότεροι χρήστες χρησιμοποιούν τις δωρεάν εκδόσεις και οι περισσότερες ερωτήσεις υγείας δεν διατυπώνονται με ιδιαίτερη προσοχή ή τεχνική ακρίβεια.
Τα όρια της τεχνητής νοημοσύνης
Τα παραπάνω στοιχεία δεν είναι μεμονωμένα. Μελέτη στο Nature Medicine κατέληξε στο συμπέρασμα πως τα ίδια τα chatbots μπορούσαν να δώσουν τη σωστή ιατρική απάντηση σχεδόν στο 95% των περιπτώσεων, ενώ όταν άνθρωποι τα χρησιμοποιούσαν, κατέληγαν στη σωστή απάντηση σε λιγότερο από το 35% των περιπτώσεων. Με άλλα λόγια, το πρόβλημα δεν είναι μόνο η ποιότητα της απάντησης, είναι και η ικανότητα του χρήστη να την ερμηνεύσει σωστά.
Παρόμοια εικόνα προέκυψε και από μελέτη στο JAMA Network Open, που αξιολόγησε 21 μοντέλα τεχνητής νοημοσύνης σε σενάρια πιθανών ιατρικών διαγνώσεων. Όταν τα μοντέλα διέθεταν μόνο βασικές πληροφορίες (ηλικία, φύλο και συμπτώματα), απέτυχαν να συμπεριλάβουν τη σωστή διάγνωση στις πιθανές εκτιμήσεις τους σε ποσοστό που ξεπερνούσε το 80%. Όταν όμως προστέθηκαν δεδομένα από κλινικές εξετάσεις και εργαστηριακές αναλύσεις, η ακρίβεια ξεπέρασε το 90%.
Παράλληλα, δημοσίευση στο Nature Communications Medicine έδειξε ότι τα chatbots ήταν πρόθυμα να αναπαράγουν και να αναλύσουν ψευδείς ιατρικούς όρους που είχαν εισαχθεί σκόπιμα στα prompts.
Η σωστή χρήση είναι απαραίτητη
Τα chatbots για τον Eickhoff μπορούν να συνοψίζουν σύνθετες πληροφορίες, να βοηθούν τους ασθενείς να οργανωθούν πριν από ένα ιατρικό ραντεβού και να λειτουργούν ως αφετηρία για περαιτέρω έρευνα. Όπως τονίζει, όμως, δεν πρέπει να αντιμετωπίζονται ως αυθεντίες σε ζητήματα υγείας.
Αν χρησιμοποιείς κάποιο chatbot τεχνητής νοημοσύνης για να αναζητήσεις πληροφορίες για την υγεία σου, φρόντισε:
- Να ελέγχεις τις παραπομπές που σου προσφέρει.
- Να διασταυρώνεις τις πληροφορίες που σου δίνει.
- Να είσαι προσεκτικός όταν μια απάντηση ακούγεται υπερβολικά βέβαιη και δεν συνοδεύεται από επιφυλάξεις, όρια ή προειδοποιήσεις.