Internet Archive

The Internet Archive — No Way Back

(Datum: 18-8-2023, bijgewerkt op 1-12-2023), leestijd 17 min.

Het Digitaal Archief van Ontvreemding?

Net bekomen van de massale datahonger van OpenAI, dient zich alweer een volgende uitdaging aan, en wel onder de naam Internet Archive. Op het eerste gezicht lijken die twee elkaars uitersten, de een als omega, de ander als alfa van de vernieuwing. Toch liggen ze dichter bij elkaar dan je denkt; beide zijn speeltjes van Big Tech ondernemers die slim lijken te profiteren van de content van anderen. Maar was OpenAI eigenlijk niet een onderzoeksinstelling, en het Internet Archive een non-profit organisatie ter preservatie van ons aller digitale erfgoed?

Bijna twintig jaar eerder dan OpenAI, werd in 1996 het Internet Archive opgericht door Brewster Kahle met als doel om universele toegang te bieden tot alle kennis en informatie die online beschikbaar is, nu - en in de toekomst. De organisatie is naar Amerikaans recht ingestoken als een non-profitorganisatie die zich toelegt op het archiveren en behouden van het digitale 'culturele' erfgoed. Naast een algemeen digitaal archief, biedt het ook een 'Wayback Machine' die van het internet gekopieerde websites doorzoekbaar maakt in de tijd. Een wat nieuwere toevoeging is de bibilotheekfunctie van gescande boeken. Uiteraard een mooi en nobel streven, maar oprichter Kahle was in de jaren negentig ook de ondernemer achter Alexa. Een firma die middels spyware gebruikers- en sitedata verzamelde en verkocht.

Technisch gezien is het Internet Archive vooral een spin-off van Alexa, dat begin deze eeuw voor een kwart miljard in handen kwam van Amazon. Dit geeft natuurlijk te denken, maar tot 2018 was het Internet Archive een organisatie die content creators en overheden de optie bood om hun informatie niet te laten opnemen in het online (Wayback) archief. Dat was mogelijk door een tekstbestandje (robots.txt) op de webserver te plaatsen met de instructie aan de archiverende bots om de data met rust te laten. Je kunt dit vergelijken met de optie om je webpagina niet in de Google Cache of Index te laten opnemen. Een werkbare optie, omdat het auteurs, content creators en uitgevers de mogelijkheid biedt om over hun eigen informatie (lees eigendom) te beschikken.

Waar ging het mis?

De laatste tijd is het Internet Archive steeds vaker in opspraak vanwege het schenden van auteursrechten. Nadat in maart 2023 de vier grote uitgevers Hachette Book Group, HarperCollins Publishers, John Wiley & Sons en Penguin Random House hun gelijk haalden tegen het Internet Archive wegens schending van hun auteursrechten, volgen nu de twee grote platenlabels. Sony Music Entertainment en Universal Music Group willen niet dat de 78-toerenplaten die onder hun label vallen, online worden gearchiveerd in een daarvoor bestemd Great 78 Project.

De uitgevers en de platenlabels zitten dus met een identiek probleem, ze willen voorkomen dat iedereen zomaar beschermde werken online kan raadplegen onder het mom van archiefbezoek. Het Internet Archive, dat zich weet gesteund door de The Electronic Frontier Foundation (EFF), wil zich daar niet bij neerleggen. Het ziet een bescheidenere rol niet zitten en overtreedt momenteel aan de lopende band auteurs- en privacy rechten. Die laatste rechten worden namelijk ook nodeloos geschonden door het massaal binnenharken van webdata. Dat is een business model dat past bij het Alexa-tijdperk, niet bij een instantie die zich wil presenteren als digitale archivaris én bibliotheek.

Meer bescheidenheid is misschien ook gepast vanwege de vaak matige kwaliteit en controle van de informatie. Zo moest in juli 2021 Europol het Internet Archive zelf verzoeken een grote hoeveelheid propaganda voor Al-Qaeda terreurorganisaties offline te halen. Iets wat ondenkbaar zou zijn bij een kwalitatief hoogwaardig archief als de
Library of Congres. Ook is er de invloed van bijvoorbeeld subReddits, waar moderatoren zeer intensief gebruik maken van archiefdiensten om ervoor te zorgen dat discutabele inhoud die in hun community wordt gedeeld, actief blijft bestaan. Het gaat daarbij niet zelden over samenzweringstheorieën en sterk afwijkende zo niet extreme meningen. Die sterke oververtegenwoordiging van eenzijdige informatie vindt niet alleen plaats op het Internet Archive, maar ook op vergelijkbare sites als Time Travel en ondermijnt de algehele datakwaliteit.

Downfall

De geleidelijke downfall van het Internet Archive komt dan ook niet zomaar uit de lucht vallen. Het begon eigenlijk al in 2017, toen het zag dat veel websites niet (meer) wilden deelnemen aan het project. De organisatie kwam toen tot de merkwaardige conclusie dat de opt-out die websites konden opnemen in hun robots.txt bestand, eigenlijk niet voor het Internet Archive gold. Het was immers (naar de letter) geen zoekmachine. En zo kon het gebeuren dat de bots van het Internet Archive bewust sites gingen kopiëren die expliciet hadden aangegeven dit niet te willen, zoals de New York Times. Het respecteren van de in de robots.txt opgenomen opt-out (met terugwerkende kracht voor domeinen die van eigenaar wisselden) was daarmee van de baan. Wie nu op internet zoekt naar mogelijkheden om een website buiten het archief te houden, vindt echter nog steevast het advies om dat via een uitsluiting in het robots.txt bestand te doen. De realiteit is echter dat die instelling wordt genegeerd. OpenAI respecteert inmiddels de opt-out via het tekstbestandje wel, maar er zijn al zo veel varianten op ChatGPT en Dall-E online, dat het dweilen met de kraan open is. Meer dan 40% van het webverkeer naar websites bestaat inmiddels al uit bots en die willen allemaal maar een ding: data.

Dit eenzijdige proces wordt door de oorspronkelijke eigenaren veelal als schadelijk ervaren. Niet alleen omdat de aan de eigen website toegedachte content elders een geheel ander leven gaat leiden, maar ook vanwege de verminking die daarbij geregeld plaatsvindt. In het kopieerproces treden namelijk vaak fouten op. Dit komt omdat websites die niet gearchiveerd willen worden, vaak ook andere beveiligingsinstellingen gebruiken. Dit heeft tot gevolg dat data (ondersteunende scripts) slechts partieel gekopieerd worden. Het slecht werkende resultaat doet dan al gauw afbreuk aan het imago en kan ook ongewild beveiligingsmechanismes zichtbaar maken.
De meedogenloze datahonger van de Archive bot.
Sites die dit overkomt zullen graag hun content snel verwijderd willen zien. Het Internet Archive maakt verwijdering van goede content echter tot een lastig proces en zadelt verzoekers op met een grote bewijslast. Verzoeken die niet van het domein (waarvoor verwijdering wordt aangevraagd) zelf komen, zijn zo goed als kansloos, dus ook die names een advocaat. Wanneer de content ooit (tijdelijk) van domein is gewisseld, moet verzoeker kunnen aantonen de rechthebbende van de informatie te zijn. Anderzijds is eigendom van het domein geen garantie tot verwijdering. Het verzoek wordt namelijk voor alle betreffende jaren afzonderlijk bekeken. Om direct een copyright claim (DMCA) in te dienen, is af te raden tenzij de schade enorm is. Het maakt de procedure namelijk niet alleen nog formeler, maar ook complexer en zal een gang naar de Amerikaanse rechter tot gevolg kunnen hebben. En anders dan in Europa is het niet vaste regel dat de verliezer de proceskosten betaald.

Om problemen in de toekomst te voorkomen, kunnen de agressieve Archive bots gericht, op server niveau, worden geblokkeerd. Dit kan door voor de volgende IP series, blokkades in te stellen:
207.241.224.0 - 207.241.239.255 en 208.70.24.0 - 208.70.31.255. Dit vergt wel de nodige kennis waarover veel sites helaas niet beschikken. Het gaat ook erg ver wanneer websites zoveel moeite moeten doen om hun werk te beschermen en een copyright notice niet volstaat.

Het Internet Archive heeft vooralsnog oogkleppen op en lijkt momenteel te opereren vanuit een soort van blinde paniek, waarbij de dynamiek van het huidige internet niet meer wordt begrepen. Constructieve communicatie met de scheppende kant van het internet - hetgeen tot een kleiner, maar evenwichtig archief zou kunnen leiden - wordt structureel vermeden. Wel lapt het ondertussen (bewust) alle regelgeving en de legitieme belangen van anderen aan zijn laars. Dat de EPP dit steunt is moeilijk te begrijpen. Zelfs de vaak aangehaalde en ruime Amerikaanse Fair Use doctrine (Titel 17, sectie 107, Copyright Act), die het gebruik van werken zonder toestemming onder voorwaarden toestaat, is niet van toepassing op het integraal kopiëren van boeken, muziek en websites naar een online publiek archief.

Dat niet alle data zich leent voor archivering, en daar kunnen diverse redenen voor bestaan, lijkt voor het Internet Archive maar moeilijk voorstelbaar. Normaliter is een archief de eindbestemming van een informatiestroom en niet een actief medium dat concurreert met actuele data. De naam Archive is dan ook misleidend, de Way Back Machine fungeert immers gewoon als een cache. Wie bijvoorbeeld nu de site van Sony bezoekt, kan dezelfde recente data ook raadplegen op het Wayback Internet Archive. Dat heeft weinig te maken met archivering, maar wel met het ongevraagd aanbieden van een parallelle informatiestroom. Het antwoord op de vraag waarom dit toch gebeurd, moet worden gezocht in het onderliggende business model.

Parasitair Gedrag

Het beweerdelijk 'not-for-profit' business model van het Internet Archive is niet alleen nadelig voor uitgevers, content sites en platenlabels, maar ook voor de indie-auteurs en softwaremakers die bijvoorbeeld in Nederland en het Verenigd Koninkrijk, recht hebben op een leenvergoeding voor elk door een bibliotheek uitgeleend exemplaar. Deze auteurs lopen allemaal inkomsten mis als hun werk in het Internet Archive verschijnt (of door OpenAI wordt herkauwd in een ietwat ander sausje). Dit geldt ook voor andersoortige content waarvoor bezoekers niet meer naar de site van de oorspronkelijke firma gaan, maar het Internet Archive als actief portaal gaan gebruiken. Datzelfde zien we ook al bij OpenAI's ChatGPT gebeuren, waarbij met data van anderen - en zonder bronvermelding - alleen eigen verkeer wordt gegenereerd. En dat brengt ons terug bij mijn opmerking aan het begin van dit artikel, namelijk dat het eigenlijk gewoon gaat om parasitair gedrag. Wie de informatie bedenkt verdient ook de bezoekers en de beloning. Niet degene die er zonder toestemming mee aan de haal gaat.

In dat licht moet ook de 'vrijage' van het Internet Archive met de Brave webbrowser worden bezien. Brave (de 'privacy vriendelijke' browser) stuurt haar gebruikers gericht door naar het Web Archive als de zoekopdracht eindigt bij een pagina die niet meer bestaat. Dan kan de bezoeker zien wat er (ooit) heeft gestaan. Dat dit in de praktijk geregeld botst met de AVG, en inmiddels ook schuurt met de privacywetgeving van verschillende Amerikaanse Staten, hoeft denk ik geen nader betoog. Webpagina's worden verwijderd om een reden en het doel is zelden online archivering. Nu Google - een van de sponsors van het Archive - de cache functie bij haar zoekresultaten lijkt te gaan uitfaseren, zal de druk op de Wayback Machine overigens nog groter worden.

Geen Visie, Wel Winst

In al die zogenaamd altruïstische beweegredenen van het Internet Archive, Brave en OpenAI geloof ik niet zozeer. OpenAI kon het internet kosteloos leegmelken door zich voor te doen als onderzoeksinstelling. Toen nagenoeg alle informatie binnen was, werd het een commerciële firma. Een schaakspel dat raakvlaken vertoont met de Alexa (commercieel) / Internet Archive (non-profit) constructie. En wat te denken van de afspraken die Brave en het Internet Archive in 2017 al maakten over het ontvangen van micro-payments door laatstgenoemde. Het doel daarvan was om verkeer te genereren naar het Archief en zodoende ook geld te verdienen aan onrechtmatig bij elkaar geschraapte content. Dat de oorspronkelijke makers daarmee worden benadeeld is bijzaak, en dat is dus hoe de wereld van Big Tech steeds vaker werkt.

OpenAI en Internet Archive hebben met elkaar gemeen dat ze wereldwijd een kennisprimaat willen vestigen. Tegelijkertijd ontbreekt het deze spelers aan een lange termijn visie. Men realiseert zich niet dat het internet volstroomt met onrechtmatig verkregen en door AI gegenereerde informatie. Informatie die telkens opnieuw wordt herkauwd als
training data voor AI-diensten als ChatGPT en Perplexity AI, en waarvan de dementerende output als digitaal 'cultureel' erfgoed via het geschraapte web in het Internet Archive belandt. Veel nieuwe, originele content dient zich ook niet meer aan. Miljoenen 'kleinere' originele websites zullen immers nauwelijks nog bezoekers en inkomsten ontvangen wanneer hun data ongevraagd in andere Big Tech diensten wordt geïntegreerd. Je wordt nu al zienderogen moe van al die met behulp van AI-diensten in elkaar gedraaide YouTube videos die excelleren in voorspelbaarheid, omdat ze allemaal putten uit dezelfde bron. De gebruikers kun je dat niet kwalijk nemen, want waarom zou je nog individuele websites bezoeken of zelf iets leren (maken), als je het antwoord - of de benodigde informatie - direct via een grotere portal of AI kunt opvragen en hergebruiken.

Deze ontwikkeling is niet alleen funest voor echte content creators, maar ook voor de kennispositie van OpenAI en het Internet Archive zelf. Zonder aanvoer van nieuwe content verliezen zij immers ook hun nut en verdwijnt goede content achter paywalls. Pas nadat de neerwaartse spiraal van deze vicieuze cirkel is doorlopen, kunnen we misschien weer eens gaan nadenken over menselijke creativiteit, en het respecteren en eerlijk belonen hiervan. De uitkomst zou dan best kunnen zijn dat we tot de conclusie komen dat het Big Tech internet, in huidige vorm, zijn beste tijd heeft gehad.

Way Forward

Heeft het Internet Archive dan nog een functie? Zonder meer, en die kan juist heel waardevol zijn wanneer de geloofwaardigheid en autoriteit worden hersteld. Daarvoor zijn wel enkele stappen nodig zoals:
1.
Indexering alleen na voorafgaande redactionele controle op privacy, haat, meerwaarde, volledigheid, politieke belangen derden, etc.).
2.
Het aanbrengen van een duidelijke scheiding tussen (Wayback) archief- en bibliotheekfunctie.
3.
Stoppen met het aanbieden van parallelle, concurrerende informatiestromen en een duidelijke keuze maken of men wil fungeren als archief of cache.
4.
Niet ingraven, maar in gesprek gaan (en blijven) met alle stakeholders.
5.
Alleen talen opnemen die ondersteund worden (geen stofzuigerfunctie).
6.
Geen opname tegen de wil van de rechthebbende (respecteren robots.txt) en betrokkene (data privacy).
7.
Nadenken en beleid publiceren over de omgang met door AI-gegenereerde data.

Dit alles kan leiden tot een archief dat weliswaar kleiner is in omvang, maar wel representatief voor het internet als zodanig, en waarbij geen enorme concessies nodig zijn ten aanzien van goodwill en kwaliteit.

OpenAI

En Sam Altman's OpenAI? Laat ik eerst vooropstellen dat OpenAI's GenAI Model eigenlijk geen echte AI is, het is een zogenaamd Large Language Model (LLM) dat erg goed is in het maken van woordpredicties. Onder the mom van wetenschappelijk onderzoek werden door OpenAI op grote schaal auteursrechtelijk beschermde werken en internet sites gekopieerd om een (gesloten) AI te ‘trainen’ voor commerciële datadiensten. Het systeem zelf heeft geen enkel benul van wat het schrijft. Toen ik eind 2019 kennismaakte met ChatGPT-2 (open source) was ik niettemin redelijk onder de indruk, maar van dat beeld ben ik aan het terugkomen. Het was ook het laatste jaar waarin OpenAI nog de status van non-profit organisatie had.

Het
bedrijf OpenAI ziet het als zijn missie om ervoor te zorgen dat kunstmatige intelligentie de hele mensheid ten goede komt. Vervang je 'mensheid' door 'eigen portemonnee', dan zit je inmiddels dichter bij de waarheid. Wie namelijk de mensheid echt wil helpen, werkt bijvoorbeeld aan AI-technologie die klimaatproblemen en wereldconflicten kan oplossen. Wenkbrauwen fronsend vond ik ook Altman's betoog in de lopende rechtzaken tegen OpenAI. Daarin gaf hij aan dat men een model als ChatGPT niet kan creëren als men alle auteurs en artiesten netjes zou moeten compenseren. Naar analogie betekent dit dat je 1000 unieke oldtimers zou mogen stelen om zo een exclusief autobedrijf te kunnen starten, omdat dit via andere weg niet mogelijk zou zijn. Soms ligt het probleem overigens ook bij de rechthebbende zelf, zoals auteurs die hun manuscript laten redigeren door ChatGPT. Zij geven daarmee onbedoeld hun data weg en uitgevers zijn dan niet meer geïnteresseerd.

Wel heeft OpenAI een grote pot met geld gereserveerd voor langlopende rechtzaken en het vrijwaren van klanten die door OpenAI te gebruiken, inbreuk maken op Intellectuele Eigendomsrechten van derden. Een zeer twijfelachtige constructie van een commerciële firma die met miljardeninvesteringen van Microsoft in het zadel werd geholpen, maar zelf bewust de oorspronkelijk rechthebbenden niet voor hun data betaald.

Trainen

Ook de fictie van het trainen van een AI is louter voor de bühne, door die woordkeuze probeert men te veinzen dat een AI brein, net als een mens, louter leert van de data die het 'ziet'. Hetgeen dan impliceert dat OpenAI geen auteursrechten schendt. Wie begrijpt hoe een LLM (en een Text To Image variant voor afbeeldingen) via machine learning wordt getraind, weet dat er op gewenste output wordt gestuurd en er aanvullende fine tuning plaatsvindt. Feitelijk is het zo dat wat erin wordt gestopt er ook 1 op1 kan worden uitgehaald. Dit is met Dall-E (2 & 3), de plaatjes generator, al diverse malen zwart op wit aangetoond via prompts voor de herkenbare Spongebob en Super Mario figuren. Daarbij is het niet relevant dat een plaatje (altijd vergezeld van een beschrijving) eerst volledig wordt afgebroken tot een onherkenbare set (dit zou dan geen kopie zijn) die via berekeningen weer kan worden opgebouwd. In de praktijk betreft het resultaat van een prompt dan vaak afgeleide werken, maar die zijn evengoed auteursrechtelijk beschermd (in het belang van de oorspronkelijk maker).

Momenteel probeert men het 'prompten' van auteursrechtelijk beschermd materiaal in te dammen met filters, echter het feit dat dit nodig is spreekt boekdelen. Belangrijk daarbij is ook om je te realiseren dat het systeem niet meer weet dan dat het krijgt aangereikt. Die input kant is daarom veel belangrijker dan OpenAI ons wil doen geloven. Het systeem re-genereert data, het creëert niet; een nieuw auteursrecht vestigen via een prompt blijft dan ook een utopie, schendig van de oorspronkelijke auteursrechten de realiteit.

Maar er is nog een andere reden, waardoor ik zo mijn twijfels heb voor de langere termijn. In de IT verwijst 'open' naar open source software, het gaat dan om code die ontworpen is om publiek toegankelijk te zijn zodat iedereen deze kan zien, wijzigen en distribueren naar eigen goeddunken. In de praktijk heeft OpenAI zich ontwikkeld tot een ClosedAI. Het is geen open source, niet transparent, dient geen algemeen belang en is niet gratis, maar parasiteert wel op andermans creaties en persoonlijke data. Bedrijven als Deutsche Bank, Goldman Sachs, Apple, Samsung en Amazon hebben OpenAI's ChatGPT reeds van de werkvloer verbannen, bang dat ze zijn dat bedrijfs- en klantgevoelige data weglekken. Daarbij helpt het niet dat Sam Altman ook druk doende is met biometrie (jouw iris) voor zijn commerciële WorldCoin project. Daarvoor wordt onder andere ook het internet leeggehaald met daarin al onze profielfoto's. Welke toekomst kan je zoiets in deze vorm nog toedichten?

Regelgeving

Waarschijnlijk geen langdurige, want in Amerika wordt inmiddels nagedacht over wetgeving voor het labelen van AI-content. Een initiatief dat samenvalt met de aankondiging van TikTok om synthetic media (AI-gegenereerde content) te verbieden wanneer het niet is voorzien van een duidelijk label. Universal Music, dat het Internet Archive onlangs aanklaagde, is al met Google in gesprek om een model te bedenken dat ervoor zorgt dat de originele artiesten worden betaald wanneer hun stem of compositie in AI gegenereerde producties opduikt. De vraag is natuurlijk wel hoe je dat objectief kunt controleren, maar daar zal vast ook wel weer een AI voor zijn.

Opmerkelijk genoeg is de overeenkomst tussen het Internet Archive en een AI-dienst als Stability AI, die gebruik maakt van datasets als LAION-5B (5,85 miljard afbeeldingen met tekstparen), groter dan gedacht. Daar zit dus óók een hele lange geschiedenis aan teksten, muziek en afbeeldingen achter die nog veel verder terug gaat dan die van het Internet Archive. Deze allemaal bij elkaar geschraapte
training data bevat ook veel auteursrechtelijk beschermd materiaal en daar zit 'm nu juist de pijn. Op de AI-site Artimator kun je bijvoorbeeld je daar gegenereerde prompt-creatie direct verkopen en krijg je dus de inkomsten die de originele auteurs hadden moeten ontvangen. Een vreemde situatie wanneer je bedenkt dat tot op heden creaties zonder enige menselijke inbreng niet beschermd worden door het auteursrecht.

Wat daarom zeker dient te veranderen, is dat artiesten en auteurs zelf vooraf moeten kunnen beslissen of ze in datasets opgenomen willen worden, en zo ja, daarvoor op zijn minst een redelijke vergoeding ontvangen. In Europa ligt dit enigszins in lijn met het omstreden artikel 17 (zie ook art. 29c Auteurswet) van de Europese Copyrightwet (DSM-richtlijn 2019) dat internetplatformen aansprakelijk maakt voor het uploaden van beschermde content naar hun media. De reactie van Big Tech op dit artikel was destijds veelzeggend. Bang dat men was te moeten betalen voor (licentie)rechten van de oorspronkelijke makers, zette men vooral in op het filteren van content. De Europese Unie werd ten onrechte censuur verweten (
de nieuwe Digital Services Act [DSA-verordening 2022 - digitale censuur] is dat overigens wel, maar Big Tech vindt dat niet erg want de DSA raakt hun business model niet) en ik vermoed dat de discussie weer opnieuw zal oplaaien over AI.

Maar hadden we ook niet een AI-Verordening in Europa? Je zou het bijna vergeten, maar deze regelgeving voor AI treedt in 2024 in werking, waarna het in 2026 van kracht zal zijn. De wetgeving is echter niet van toepassing op open source AI systemen en voorzover OpenAI niet open source is, heeft Sam Altman al aangegeven Europa links te laten liggen als aan OpenAI beperkingen worden opgelegd. Dat is interessant want de Verordening, die meer transparantie nastreeft, heeft op onderdelen een mondiaal bereik.

Hoe dit alles afloopt weten we nog niet, daar is namelijk nog geen predictieve AI voor. Spannende tijden zijn het wel, want de vierde industriële revolutie is niet langer louter toekomstmuziek, maar een archiefwaardig historisch feit. Een optekening van een tijd waarin bots met bots communiceren en kwalitatieve data achter een paywall is gevlugd.
Roderic Winkelhorst
Update 14-9-2024: Zoals je waarschijnlijk onlangs hebt gemerkt, heeft Google de Google Cache functie vervangen door een verwijzing naar pagina's in het Wayback Archive. Daarmee lijkt het Internet Archive te zijn verworden tot een actieve online cache. Aangezien de meeste websites op internet er tot nu toe voor kozen om hun pagina niet in de Google Cache te laten opnemen, zal het interessant zijn te zien hoe deze verschuiving in de praktijk uitpakt.
© R.C. Winkelhorst. Alle Rechten Voorbehouden.