Doorgaan naar hoofdcontent

Text-to-image: zeer krachtige AI mogelijkheden

Typ "Teddyberen werken aan nieuw AI-onderzoek op de maan in de jaren tachtig" in een van de onlangs uitgebrachte tekst-naar-beeld kunstmatige intelligentie beeldgeneratoren, en na slechts enkele seconden produceert de geavanceerde software een griezelig relevant beeld.

Teddyberen werken aan nieuw AI-onderzoek
op de maan in de jaren tachtig

Deze nieuwste trend in synthetische media, die alleen aan je verbeelding gebonden lijkt, heeft velen verrukt, anderen geïnspireerd en sommigen bang gemaakt.

Google, onderzoeksbureau OpenAI en AI-verkoper Stability AI hebben elk een tekst-naar-beeldgenerator ontwikkeld die zo krachtig is dat sommige waarnemers zich afvragen of mensen in de toekomst de fotografische opname nog wel kunnen vertrouwen.

Als computerwetenschapper die gespecialiseerd is in forensisch onderzoek naar afbeeldingen, heb ik veel nagedacht over deze technologie: waartoe ze in staat is, hoe elk van de tools aan het publiek is aangeboden, en welke lessen we kunnen leren nu deze technologie haar ballistische traject voortzet.

Tegenstrijdige aanpak

Hoewel hun digitale voorloper dateert van 1997, zijn de eerste synthetische beelden pas vijf jaar geleden op het toneel verschenen. In hun oorspronkelijke incarnatie waren zogenaamde generative adversarial networks (GANs) de meest gebruikte techniek voor het synthetiseren van beelden van mensen, katten, landschappen en wat dan ook.

Een GAN bestaat uit twee hoofdonderdelen: generator en discriminator. Elk is een soort groot neuraal netwerk, een reeks onderling verbonden processoren die ongeveer overeenkomen met neuronen.

De generator, die een beeld van een persoon moet samenstellen, begint met een willekeurige verzameling pixels en geeft dit beeld door aan de discriminator, die bepaalt of hij het gegenereerde beeld kan onderscheiden van echte gezichten. Zo ja, dan geeft de discriminator feedback aan de generator, die enkele pixels aanpast en het opnieuw probeert. Deze twee systemen staan tegenover elkaar in een contradictoire lus. Uiteindelijk is de discriminator niet in staat het gegenereerde beeld van echte beelden te onderscheiden.

Tekst-naar-beeld

Net toen mensen begonnen te worstelen met de gevolgen van door GAN gegenereerde deepfakes - waaronder video's waarin iemand iets doet of zegt wat hij niet doet - kwam er een nieuwe speler op het toneel: tekst-naar-beeld deepfakes.

In deze laatste incarnatie wordt een model getraind op een enorme reeks afbeeldingen, elk voorzien van een korte tekstbeschrijving. Het model corrumpeert elk beeld geleidelijk totdat er alleen nog visuele ruis overblijft, en traint vervolgens een neuraal netwerk om deze corruptie ongedaan te maken. Door dit proces honderden miljoenen keren te herhalen, wordt het m

Terwijl GAN's alleen in staat zijn een beeld van een algemene categorie te creëren, zijn tekst-naar-beeld synthese-engines krachtiger. Zij kunnen bijna elk beeld creëren, inclusief beelden die een samenspel bevatten tussen mensen en objecten met specifieke en complexe interacties, bijvoorbeeld "De president van de Verenigde Staten die geheime documenten verbrandt terwijl hij bij zonsondergang rond een vreugdevuur op het strand zit."

OpenAI's tekst-naar-beeld generator, DALL-E, veroverde het internet bij de onthulling op 5 januari 2021. Een beta-versie van de tool werd beschikbaar gesteld aan 1 miljoen gebruikers op 20 juli 2022. Gebruikers over de hele wereld hebben schijnbaar eindeloze manieren gevonden om DALL-E op te roepen, wat heerlijke, bizarre en fantastische beelden opleverde.

Allerlei mensen, van computerwetenschappers tot rechtsgeleerden en regelgevers, hebben echter nagedacht over het mogelijke misbruik van de technologie. Diepe vervalsingen zijn al gebruikt voor het maken van niet-vrijwillige pornografie, het plegen van kleinschalige en grootschalige fraude en het voeden van desinformatiecampagnes. Deze nog krachtigere beeldgeneratoren zouden deze misbruiken nog kunnen aanwakkeren.

Drie beeldgeneratoren, drie verschillende benaderingen

Bewust van het mogelijke misbruik weigerde Google zijn tekst-naar-beeld technologie vrij te geven. OpenAI nam een meer open, maar nog steeds voorzichtige aanpak toen het zijn technologie aanvankelijk vrijgaf aan slechts een paar duizend gebruikers (waaronder ikzelf). Ze legden ook beperkingen op aan toegestane tekstaanwijzingen, zoals geen naaktheid, haat, geweld of identificeerbare personen. In de loop van de tijd heeft OpenAI de toegang uitgebreid, een aantal limieten verlaagd en meer functies toegevoegd, waaronder de mogelijkheid om echte foto's semantisch aan te passen en te bewerken.

Stability AI koos voor een andere aanpak en koos voor een volledige release van hun Stable Diffusion zonder beperkingen op wat kan worden gesynthetiseerd. In antwoord op de bezorgdheid over mogelijk misbruik zei de oprichter van het bedrijf, Emad Mostaque: "Uiteindelijk is het de verantwoordelijkheid van mensen of ze ethisch, moreel en legaal met deze technologie omgaan."

Niettemin werd in de tweede versie van Stable Diffusion de mogelijkheid verwijderd om afbeeldingen van NSFW-inhoud en kinderen weer te geven, omdat sommige gebruikers afbeeldingen van kindermisbruik hadden gemaakt. In een reactie op de oproepen tot censuur wees Mostaque erop dat omdat Stable Diffusion open source is, gebruikers vrij zijn om deze functies naar eigen goeddunken weer toe te voegen.

De geest is uit de fles

Wat je ook vindt van de aanpak van Google of OpenAI, Stable AI heeft hun beslissingen grotendeels irrelevant gemaakt. Kort na de open-source aankondiging van Stability AI, verlaagde OpenAI hun waakzaamheid over het genereren van beelden van herkenbare mensen. Bij dit soort gedeelde technologie is de samenleving overgeleverd aan de laagste gemene deler - in dit geval Stability AI.

Stability AI gaat er prat op dat zijn open aanpak krachtige AI-technologie weghaalt bij enkelen en in handen geeft van velen. Ik vermoed dat weinigen zo snel zouden juichen over een onderzoeker van infectieziekten die de formule voor een dodelijk virus in de lucht publiceert, gemaakt van ingrediënten uit de keuken, terwijl hij stelt dat deze informatie algemeen beschikbaar moet zijn. Beeldsynthese vormt natuurlijk niet dezelfde directe bedreiging, maar de voortdurende erosie van het vertrouwen heeft ernstige gevolgen, variërend van het vertrouwen van mensen in verkiezingsuitslagen tot hoe de samenleving reageert op een wereldwijde pandemie en klimaatverandering.

Ik geloof dat technologen in de toekomst zowel de voor- als de nadelen van hun technologieën in overweging moeten nemen en verzachtende strategieën moeten ontwikkelen voordat voorspelbare schade optreedt. Ik en andere onderzoekers zullen forensische technieken moeten blijven ontwikkelen om echte beelden van vervalsingen te onderscheiden. Regelgevers zullen serieuzer moeten gaan kijken hoe deze technologieën worden ingezet tegen individuen, samenlevingen en democratieën.

En iedereen zal moeten leren hoe hij kritischer en kritischer kan worden bij het consumeren van informatie online...

Populaire posts van deze blog

Belastingsproblemen met crypto.com

 In mijn omgeving zijn er een aantal mensen met een crypto.com account en bankkaart. De voorbije maanden werden ze gecontacteerd door ... de fiscus met vragen over hun account. Details Zelfs zonder de vragen van de fiscus, lijken er wel wat belastingproblemen te zijn met crypto.com : De fiscus kent je rekening wat mij problemen geeft is de Litouwse rekening die u kunt gebruiken voor SEPA-overschrijving. De naam van de eigenaar van deze IBAN rekening is niet Crypto.com maar wel de gebruiker volgens de gegevens in de app !  Deze Litouwse financiële instelling is hier in België geregistreerd (ik heb het gecontroleerd op de website van de FSMA). Het wordt digitale financiële instelling genoemd (of iets in die aard, ik herinner me de exacte termen niet). Maar wat me verbaast is dat ik me er niet van bewust ben dat ik me er heb aangemeld (maar enkel bij Crypto.com).  Transactive Systems UAB Jogailos street 9 01116 Vilnius   Ik zou graag willen weten of ik echt een Litouwse account heb. Als d

Technologische snufjes tegen tandenknarsen

Toen bruxisme voor het eerst werd behandeld, was de behandeling van eerste keuze een gebitsbeschermer. Het enige wat de gebitsbeschermer deed, was schade aan de aangrenzende tand- en mondstructuren voorkomen als de patiënt zijn tanden op elkaar klemde. Hiermee werd niet de eigenlijke aandoening behandeld, maar alleen de symptomen. De Middeleeuwen Met de vooruitgang in het onderzoek ontdekte men dat een patiënt getraind kon worden om zijn tanden niet langer op elkaar te klemmen. De eerste hulpmiddelen die hiervoor werden gebruikt waren slechts traditionele gebitsbeschermers met kleine aanpassingen. De aanpassingen die aan de traditionele gebitsbeschermer werden toegevoegd, zonden een negatieve prikkel naar de patiënt die niet te groot was, maar net genoeg om ervoor te zorgen dat de patiënt onbewust de negatieve gewoonte niet wilde voortzetten. Moderne behandelingsmogelijkheden Met de vooruitgang in de algemene technologie, zijn er ook grote stappen gezet in de medische en tandheelkundig

Wat zijn de verschillende types forumsoftware

  Ik wil het vandaag ook even hebben over de verschillende forumsoftwarepakketten. Maar eerst gaan we in op het fenomeen forum. Vervolgens hebben we het over online forums. Forum In het Romeinse rijk had een forum de functie van een marktplein, waar werd gehandeld. Ook werden er bijeenkomsten gehouden om recht te spreken, werden er aankondigingen gedaan en werd er gediscussieerd. De senatoren kwamen er bijeen. De rol voor die bijeenkomsten werd steeds belangrijker. Het antieke forum van Jerash (Jordanië) Online forum Op online forums kan je vragen stellen en over onderwerpen discussiëren. Je kunt een discussie beginnen door een bericht aan te bieden.  Afhankelijk van je toegangsrechten en/of de forumconfiguratie worden berichten al of niet direct geplaatst.  Een typisch online forum   Een zogenoemde moderator kan een bericht weigeren of later verwijderen.  Andere gebruikers kunnen reageren op je bericht en zo kan zich een zogenoemde thread vormen. Gebruikers kunnen vervolgens ook op de