Gestolen literatuur: de verborgen brandstof van AI-taalmodellen

FFrits 21 augustus 2023 16:08

Er is nu bewijs dat populaire AI-taalmodellen getraind zijn met gestolen teksten van bekende auteurs, waaronder bestsellers. Deze onthulling werpt nieuwe vragen op over auteursrechten en de ethiek van AI-training.

Illegaal gekopieerde boeken als AI-leerstof

Het was al langer een vermoeden: kunstmatige intelligentie die leert van gestolen literatuur. Dit vermoeden is nu bevestigd. Naast openbaar beschikbare teksten, zoals die van Wikipedia, blijken AI-taalmodellen als ChatGPT getraind te zijn met een schat aan boeken die zonder toestemming en betaling zijn gebruikt. Dit omvat een indrukwekkende verzameling van minimaal 170.000 boeken.

Het bewijs voor deze beschuldigingen is te vinden in 'The Pile', een gigantische dataset ontwikkeld door EleutherAI. Met een omvang van 886GB omvat deze dataset onder andere Wikipedia-teksten, YouTube-ondertitels, transcripten van het Europees Parlement, en de beruchte Books3-set. Deze set bestaat uit duizenden boeken van auteurs als Stephen King, Zadie Smith en Haruki Murakami. Zowel Meta's LLaMA als een taalmodel van Microsoft hebben gebruik gemaakt van 'The Pile'.

De intentie achter Books3

Het idee achter Books3 was niet om auteursrechten te schenden, maar om de ontwikkeling van AI toegankelijker te maken. Shawn Presser, de maker achter Books3, wilde een monopolie op AI-ontwikkeling voorkomen. Door een grote dataset voor iedereen beschikbaar te stellen, wilde hij vermijden dat alleen vermogende bedrijven AI konden ontwikkelen. Zonder Books3 zou AI-ontwikkeling exclusief zijn voor bedrijven zoals OpenAI, die over voldoende financiële middelen beschikken om eventuele auteursrechtenschendingen af te kopen.

De discussie over 'fair use' en auteursrechten

Deze ontdekking heeft geleid tot verhitte discussies in de AI-wereld. Sommige AI-ontwikkelaars pleiten voor het concept van 'fair use', waardoor auteursrechtelijk materiaal gebruikt zou mogen worden voor trainingsdoeleinden zonder dat dit gezien wordt als inbreuk op auteursrechten. De strijd om deze juridische en politieke kwesties is nog niet gestreden, en de uitkomst kan grote gevolgen hebben voor de toekomst van AI-ontwikkeling.

Meer artikelen

Lees ook

Hier zijn een aantal interessante artikelen op andere sites uit ons netwerk.