Typ "Teddyberen werken aan nieuw AI-onderzoek op de maan in de jaren tachtig" in een van de onlangs uitgebrachte tekst-naar-beeld kunstmatige intelligentie beeldgeneratoren, en na slechts enkele seconden produceert de geavanceerde software een griezelig relevant beeld.
Deze nieuwste trend in synthetische media, die alleen aan je verbeelding gebonden lijkt, heeft velen verrukt, anderen geïnspireerd en sommigen bang gemaakt.
Google, onderzoeksbureau OpenAI en AI-verkoper Stability AI hebben elk een tekst-naar-beeldgenerator ontwikkeld die zo krachtig is dat sommige waarnemers zich afvragen of mensen in de toekomst de fotografische opname nog wel kunnen vertrouwen.
Als computerwetenschapper die gespecialiseerd is in forensisch onderzoek naar afbeeldingen, heb ik veel nagedacht over deze technologie: waartoe ze in staat is, hoe elk van de tools aan het publiek is aangeboden, en welke lessen we kunnen leren nu deze technologie haar ballistische traject voortzet.
Tegenstrijdige aanpak
Hoewel hun digitale voorloper dateert van 1997, zijn de eerste synthetische beelden pas vijf jaar geleden op het toneel verschenen. In hun oorspronkelijke incarnatie waren zogenaamde generative adversarial networks (GANs) de meest gebruikte techniek voor het synthetiseren van beelden van mensen, katten, landschappen en wat dan ook.
Een GAN bestaat uit twee hoofdonderdelen: generator en discriminator. Elk is een soort groot neuraal netwerk, een reeks onderling verbonden processoren die ongeveer overeenkomen met neuronen.
De generator, die een beeld van een persoon moet samenstellen, begint met een willekeurige verzameling pixels en geeft dit beeld door aan de discriminator, die bepaalt of hij het gegenereerde beeld kan onderscheiden van echte gezichten. Zo ja, dan geeft de discriminator feedback aan de generator, die enkele pixels aanpast en het opnieuw probeert. Deze twee systemen staan tegenover elkaar in een contradictoire lus. Uiteindelijk is de discriminator niet in staat het gegenereerde beeld van echte beelden te onderscheiden.
Tekst-naar-beeld
Net toen mensen begonnen te worstelen met de gevolgen van door GAN gegenereerde deepfakes - waaronder video's waarin iemand iets doet of zegt wat hij niet doet - kwam er een nieuwe speler op het toneel: tekst-naar-beeld deepfakes.
In deze laatste incarnatie wordt een model getraind op een enorme reeks afbeeldingen, elk voorzien van een korte tekstbeschrijving. Het model corrumpeert elk beeld geleidelijk totdat er alleen nog visuele ruis overblijft, en traint vervolgens een neuraal netwerk om deze corruptie ongedaan te maken. Door dit proces honderden miljoenen keren te herhalen, wordt het m
Terwijl GAN's alleen in staat zijn een beeld van een algemene categorie te creëren, zijn tekst-naar-beeld synthese-engines krachtiger. Zij kunnen bijna elk beeld creëren, inclusief beelden die een samenspel bevatten tussen mensen en objecten met specifieke en complexe interacties, bijvoorbeeld "De president van de Verenigde Staten die geheime documenten verbrandt terwijl hij bij zonsondergang rond een vreugdevuur op het strand zit."
OpenAI's tekst-naar-beeld generator, DALL-E, veroverde het internet bij de onthulling op 5 januari 2021. Een beta-versie van de tool werd beschikbaar gesteld aan 1 miljoen gebruikers op 20 juli 2022. Gebruikers over de hele wereld hebben schijnbaar eindeloze manieren gevonden om DALL-E op te roepen, wat heerlijke, bizarre en fantastische beelden opleverde.
Allerlei mensen, van computerwetenschappers tot rechtsgeleerden en regelgevers, hebben echter nagedacht over het mogelijke misbruik van de technologie. Diepe vervalsingen zijn al gebruikt voor het maken van niet-vrijwillige pornografie, het plegen van kleinschalige en grootschalige fraude en het voeden van desinformatiecampagnes. Deze nog krachtigere beeldgeneratoren zouden deze misbruiken nog kunnen aanwakkeren.
Drie beeldgeneratoren, drie verschillende benaderingen
Bewust van het mogelijke misbruik weigerde Google zijn tekst-naar-beeld technologie vrij te geven. OpenAI nam een meer open, maar nog steeds voorzichtige aanpak toen het zijn technologie aanvankelijk vrijgaf aan slechts een paar duizend gebruikers (waaronder ikzelf). Ze legden ook beperkingen op aan toegestane tekstaanwijzingen, zoals geen naaktheid, haat, geweld of identificeerbare personen. In de loop van de tijd heeft OpenAI de toegang uitgebreid, een aantal limieten verlaagd en meer functies toegevoegd, waaronder de mogelijkheid om echte foto's semantisch aan te passen en te bewerken.
Stability AI koos voor een andere aanpak en koos voor een volledige release van hun Stable Diffusion zonder beperkingen op wat kan worden gesynthetiseerd. In antwoord op de bezorgdheid over mogelijk misbruik zei de oprichter van het bedrijf, Emad Mostaque: "Uiteindelijk is het de verantwoordelijkheid van mensen of ze ethisch, moreel en legaal met deze technologie omgaan."
Niettemin werd in de tweede versie van Stable Diffusion de mogelijkheid verwijderd om afbeeldingen van NSFW-inhoud en kinderen weer te geven, omdat sommige gebruikers afbeeldingen van kindermisbruik hadden gemaakt. In een reactie op de oproepen tot censuur wees Mostaque erop dat omdat Stable Diffusion open source is, gebruikers vrij zijn om deze functies naar eigen goeddunken weer toe te voegen.
De geest is uit de fles
Wat je ook vindt van de aanpak van Google of OpenAI, Stable AI heeft hun beslissingen grotendeels irrelevant gemaakt. Kort na de open-source aankondiging van Stability AI, verlaagde OpenAI hun waakzaamheid over het genereren van beelden van herkenbare mensen. Bij dit soort gedeelde technologie is de samenleving overgeleverd aan de laagste gemene deler - in dit geval Stability AI.
Stability AI gaat er prat op dat zijn open aanpak krachtige AI-technologie weghaalt bij enkelen en in handen geeft van velen. Ik vermoed dat weinigen zo snel zouden juichen over een onderzoeker van infectieziekten die de formule voor een dodelijk virus in de lucht publiceert, gemaakt van ingrediënten uit de keuken, terwijl hij stelt dat deze informatie algemeen beschikbaar moet zijn. Beeldsynthese vormt natuurlijk niet dezelfde directe bedreiging, maar de voortdurende erosie van het vertrouwen heeft ernstige gevolgen, variërend van het vertrouwen van mensen in verkiezingsuitslagen tot hoe de samenleving reageert op een wereldwijde pandemie en klimaatverandering.
Ik geloof dat technologen in de toekomst zowel de voor- als de nadelen van hun technologieën in overweging moeten nemen en verzachtende strategieën moeten ontwikkelen voordat voorspelbare schade optreedt. Ik en andere onderzoekers zullen forensische technieken moeten blijven ontwikkelen om echte beelden van vervalsingen te onderscheiden. Regelgevers zullen serieuzer moeten gaan kijken hoe deze technologieën worden ingezet tegen individuen, samenlevingen en democratieën.
En iedereen zal moeten leren hoe hij kritischer en kritischer kan worden bij het consumeren van informatie online...