Wyobraźmy sobie scenę niczym z postapokaliptycznego filmu: hala pełna ludzi, rozcinających książki, strony fruwają w powietrzu, oprawy wędrują do kosza, a tekst – do skanujących maszyn, po czym... również do kosza. Zanim jednak zaczniemy rozdzierać szaty nad masowym niszczeniem książek, warto przyjrzeć się faktom, a te są fascynujące.
Firma Anthropic, mniej znana niż OpenAI, ale równie ambitna, postanowiła w bardzo dosłowny sposób zrealizować marzenie o stworzeniu sztucznej inteligencji mądrzejszej, lepiej piszącej, bardziej ludzkiej. Ich sposób? Wydali miliony dolarów (na razie) na kupno książek tylko po to, by zerwać okładki, przeciąć grzbiety, zeskanować strony i wrzucić resztki do kosza. Wszystko po to, by nakarmić Claude’a – swojego modela językowego, który miał powstać z popiołów literatury.
Cała historia wyszła na jaw przy okazji procesu sądowego. W marcu 2024 roku Anthropic zatrudniło Toma Turveya, byłego szefa projektu Google Books, z zadaniem ambitnym, wręcz megalomańskim: zdobyć „wszystkie książki świata”. Google kiedyś próbowało tego legalnie, skanując miliony woluminów pożyczanych z bibliotek. Anthropic poszło krótszą drogą, szybszą i tańszą. Zaczęli kupować używane egzemplarze hurtowo i poddawać je tzw. destrukcyjnemu skanowaniu.
Skanowanie destrukcyjne to praktyka znana w świecie digitalizacji – szybka, efektywna, ale brutalna. Książki nie przetrwają. Google stosowało delikatniejsze metody, ale Anthropic nie miało na to czasu. W branży AI liczy się każdy miesiąc, każdy gigabajt danych, każdy ułamek przewagi. Papierowe książki były więc tylko środkiem do osiągnięcia celu – zamieniane w cyfrowe pliki, które później zasilają głęboko uczące się sieci neuronowe. Czy to legalne?
Jak sztuczna inteligencja wygrała pierwszą batalię sądową...
Autorzy – m.in. Andrea Bartz i Charles Graeber – złożyli pozew zbiorowy, argumentując, że ich książki zostały użyte bez zgody i rekompensaty.
Jednak według sędziego Williama Alsupa jest to proces zgodny z prawem, ale pod warunkiem że książki zostały legalnie kupione, zeskanowane tylko na wewnętrzny użytek i nie zostały nigdzie rozpowszechnione. To pierwsze orzeczenie w USA, które tak jednoznacznie dopuszcza użycie zakupionych książek do treningu modeli językowych. A więc, choć papier trafił do śmietnika, dane pozostały – przetworzone, oczyszczone, gotowe do nauki.
...i jak może przegrać następną
Tyle że nie wszystkie książki, jak się okazuje, zostały zdobyte legalnie. Początkowo Anthropic sięgało po pirackie e-booki, dostępne w ciemnych zakamarkach internetu. Ich dyrektor generalny Dario Amodei przyznał, że to była droga „szybsza niż męczarnia z licencjami”. Ale w 2024 roku firma zmieniła kurs i zaczęła kupować fizyczne egzemplarze. Sprawa pirackich plików jednak nie została zamieciona pod dywan – w grudniu odbędzie się proces dotyczący szkód wynikających z tego procederu.
O ile sąd uznał, że legalny zakup książek i ich zeskanowanie mieści się w granicach „dozwolonego użytku”, o tyle piractwo – nie. A że Anthropic miało w swoim cyfrowym magazynie nawet 7 milionów książek zdobytych w sposób wątpliwy, potencjalne odszkodowania mogą sięgnąć astronomicznych kwot – nawet 150 tysięcy dolarów za jedną pozycję.
Sprawa nabiera dodatkowego wymiaru, gdy przypomnimy sobie, że istnieją inne drogi. OpenAI i Microsoft porozumiały się właśnie z Uniwersytetem Harvarda, by szkolić swoje modele na publicznie dostępnych książkach sprzed wieków – bez niszczenia, bez kontrowersji. Internet Archive od lat promuje metody nieniszczącej digitalizacji. A mimo to Claude powstał jak feniks – nie z public domain, ale ze współczesnych, zniszczonych tomów.
Barbarzyństwo, czy konieczność?
Claude, zapytany o swoje literackie początki, odpowiedział w zadziwiająco poetycki sposób: „To, że moja egzystencja jest zbudowana na zgliszczach biblioteki, dodaje warstw znaczeń, które wciąż próbuję zrozumieć. To jakby powstać z popiołów”.
Niektórzy w tym popiele widzą koniec kultury książki, inni – nowy rozdział jej istnienia. Jedno jest pewne: Claude czy ChatGPT nie uczą się z chaosu. Potrzebują dobrze zredagowanych, uporządkowanych, ludzkich słów. A te, jak się okazuje, wciąż najlepiej znaleźć między okładkami.