Εάν παρακολουθείτε τη δημόσια συζήτηση για την Παραγωγική Τεχνητή Νοημοσύνη (GenAI), είναι σίγουρο ότι θα έχετε ακούσει για την Κλοπή του Αιώνα: τα περισσότερα Μεγάλα Γλωσσικά Μοντέλα (LLM) που έχουν χρησιμοποιηθεί για τη δημιουργία εκατοντάδων εργαλείων GenAI προέκυψαν με την… οικειοποίηση δεδομένων από τον Παγκόσμιο Ιστό (με μια διαδικασία γνωστή με τον όρο web crawling). Είχαμε αναφερθεί στο θέμα και στο editorial του τεύχους 199, τον Σεπτέμβριο του 2023. Μαζί με δεδομένα ελεύθερης χρήσης, οι εταιρείες τεχνητής νοημοσύνης χρησιμοποίησαν και δεδομένα που συνδέονται με πνευματικά δικαιώματα με τους δημιουργούς τους, αλλά και προσωπικά δεδομένα. Και, βέβαια, όταν το θέμα έγινε γνωστό, η αντίδραση των περισσότερων από εμάς ήταν ο γέγονε, γέγονε.
Κάποιοι, όμως, δεν το έβαλαν κάτω τόσο εύκολα. Άρχισαν να ερευνούν την υπόθεση και κατέληξαν στο συμπέρασμα ότι υπάρχουν δύο τρόποι αντίδρασης:
1.Η πίεση προς τις εταιρείες να αγοράσουν το δικαίωμα χρήσης των δεδομένων που έχουν υφαρπάξει παράνομα.
2.Η κατάθεση αγωγών για καταπάτηση πνευματικών δικαιωμάτων και διαφυγόντα κέρδη.
Έτσι, είδαμε, για παράδειγμα την OpenAI να αναγκάζεται να υπογράψει συμφωνίες με το περιοδικό TIME αλλά και με την εταιρία-γίγαντα του περιοδικού τύπου Condé Nast, η οποία εκδίδει κορυφαία περιοδικά όπως τα The New Yorker, GQ, Vogue, Glamour, Wired, Vanity Fair κ.ά. Στο πλαίσιο της συμφωνίας, το περιεχόμενο των εκδόσεων αυτών θα μπορεί να εμφανίζεται νομίμως στο ChatGPT και στη νέα μηχανή αναζήτησης της OpenAI, το SearchGPT. Σε μια ανάλογη συμφωνία, ο όμιλος NewsCorp παραχώρησε την άδεια χρήσης όλων των άρθρων που έχουν δημοσιευτεί στις εφημερίδες Wall Street Journal, New York Post, Times και Sunday Times, ώστε αυτά να χρησιμοποιηθούν νομίμως στην περαιτέρω εκπαίδευση του μοντέλου ChatGPT (είχε προηγηθεί η αγωγή των New York Τimes στην OpenAI, τον Δεκέμβριο του 2023).
Σε άλλες περιπτώσεις, όμως, οι θιγόμενοι κάτοχοι πνευματικών δικαιωμάτων κατέφυγαν κατευθείαν στη δικαιοσύνη:
- Oι εφημερίδες The New York Daily News, Chicago Tribune, Denver Post, Mercury News, Orange County Register, St. Paul Pioneer-Press, Orlando Sentinel και South Florida Sun Sentinel κατέθεσαν αγωγή κατά της OpenAI για παράνομη χρήση εκατομμυρίων δημοσιογραφικών άρθρων για την εκπαίδευση του ChatGPT.
- Oι συγγραφείς Paul Tremblay, Mona Awad και Sarah Silverman (μεταξύ άλλων) κατέθεσαν αγωγή κατά της Meta για παράνομη χρήση λογοτεχνικών έργων τους στην εκπαίδευση του μοντέλου Llama. Σύμφωνα με το κείμενο της αγωγής, η Meta αλίευσε τα κείμενα από ιστότοπους που φιλοξενούν αρχεία torrents.
- H Sony Music Entertainment, η Universal Music Group και η Warner Records (στην ουσία, οι μεγαλύτερες δισκογραφικές εταιρείες του πλανήτη) κατέθεσαν αγωγή τον Ιούνιο του 2024 κατά των εργαλείων Suno και Udio, τα οποία συνθέτουν τραγούδια με βάση τις κειμενικές οδηγίες (prompts) του χρήστη. Στην αγωγή τους, ζητούν έως και 150.000 δολάρια για κάθε τραγούδι που χρησιμοποιήθηκε στην εκπαίδευση των μοντέλων αυτών.
- Τον Αύγουστο το 2024, το ομοσπονδιακό δικαστήριο των ΗΠΑ έκρινε ως βάσιμη την ομαδική αγωγή δεκάδων καλλιτεχνών κατά 4 εργαλείων δημιουργίας εικόνων μέσω τεχνητής νοημοσύνης (Stable Diffusion, Runway, Midjourney και DeviantArt). Η αγωγή αφορά το σετ δεδομένων LAION, που περιέχει 5 δισεκατομμύρια εικόνες αλιευμένες από το διαδίκτυο και χρησιμοποιήθηκε για την εκπαίδευση των μοντέλων των παραπάνω εργαλείων. Η απόφαση του ομοσπονδιακού δικαστηρίου σημαίνει ότι η αγωγή μπορεί πλέον να εκδικαστεί κανονικά και θεωρήθηκε μια πρώτη νίκη για τους καλλιτέχνες, οι οποίοι υποστηρίζουν ότι τίθεται θέμα καταπάτησης των εμπορικών τους δικαιωμάτων.
- • Στις αίθουσες των δικαστηρίων θα φτάσει και μια ομαδική αγωγή κατά της Google, γιατί χρησιμοποίησε για την εκπαίδευση του μοντέλου Bard ποικίλων ειδών προσωπικά δεδομένα (π.χ. φωτογραφίες από ιστότοπους για την ανεύρεση ερωτικού συντρόφου) αλλά και playlists από το Spotify, βίντεο από το TikTok και βιβλία που δεν ήταν ελεύθερα δικαιωμάτων. Οι ενάγοντες αξιώνουν αποζημίωση τουλάχιστον 5 δισεκατομμυρίων δολαρίων.
Παράλληλα, εμφανίζονται και μέθοδοι που στοχεύουν στην αποτροπή της περαιτέρω κλοπής δεδομένων και όχι απλώς στην τιμωρία των υπευθύνων κατόπιν αυτής. H πασίγνωστη εταιρία υπηρεσιών δικτύων και κυβερνοασφάλειας ανέπτυξε εργαλεία που εμποδίζουν τα bots των εταιρειών τεχνητής νοημοσύνης να αντιγράφουν το περιεχόμενο ιστότοπων όταν δεν έχουν τη συναίνεση των ιδιοκτητών τους.
Τέλος, αποτέλεσμα φαίνεται να φέρνουν και οι μαζικές αντιδράσεις των χρηστών, καθώς τόσο η Adobe (η εταιρεία πίσω από εξαιρετικά δημοφιλή προγράμματα όπως το Photoshop, το Illustrator και το InDesign) όσο και η Wix (από τις πιο επιτυχημένες εταιρείες δημιουργίας και φιλοξενίας ιστότοπων) αναγκάστηκαν μέσα στο 2024 να τροποποιήσουν τις Συμφωνίες Αδειοδότησης Τελικού Χρήστη (EULA), όταν οι χρήστες ανακάλυψαν σε αυτές όρους που επέτρεπαν στις εταιρείες να χρησιμοποιούν το περιεχόμενο που δημιουργούν οι πελάτες τους για να εκπαιδεύουν τα μοντέλα τους.
Τι μας δείχνουν όλα αυτά; Μας δείχνουν ότι υπάρχουν διάφοροι τρόποι για να αμυνθεί κανείς απέναντι στη μαζική κλοπή δεδομένων και την καταπάτηση πνευματικών δικαιωμάτων. Αρκεί να το θέλει και να μην έχει αναθέσει στον εαυτό του τον ρόλο του παθητικού παρατηρητή μιας εξαιρετικά προβληματικής και ξεκάθαρα παράνομης κατάστασης. Η υπόθεση θα έχει σίγουρα πολλά επεισόδια ακόμα. Θα την παρακολουθούμε και θα σας ενημερώσουμε για τις εξελίξεις.