Skapa bilder och grafik med AI-verktyg

När det gäller generativ AI är det ofta texter som får mest uppmärksamhet. Se min guide till att skapa text med AI. Men framstegen inom bilder och grafik är minst lika spännande. Och med video får du redan idag en förhandstitt på vad som kan bli möjligt i en inte så avlägsen framtid. I den här artikeln ger jag dig en översikt över möjligheterna och begränsningarna med visuella AI-erbjudanden.

Bilder, grafik och videor ger ett enormt mervärde till innehåll på nätet. De drar till sig mer uppmärksamhet och kan inte bara förklara ett ämne, utan också göra det känslomässigt intressant. Detta ger dig möjlighet att visa upp ditt varumärke och din företagsidentitet och sticka ut från mängden.

Fram till nu har de som behöver visuellt innehåll haft följande alternativ:

1. Skapa det själv. Förutom talang och kunskap behöver du rätt verktyg och tid för att förverkliga dem. Detta är förmodligen orealistiskt i många fall.

2. anlita någon . Detta är verkligen det bästa alternativet: du hittar en lämplig specialist. Resultaten här är vanligtvis de bästa eftersom du har de visuella bilderna skapade för att passa dina behov. Föga förvånande är det dock också här som kostnaderna är högst.

3. Stockfoton . Du kan använda plattformar som Shutterstock, Adobe Stock eller Depositphotos. De erbjuder ett stort urval, är av god kvalitet och är prisvärda. Det finns även kostnadsfria erbjudanden som Pexels eller Pixelio. Nackdel: Du får bilder och grafik från hyllan som andra också använder. Anpassning är vanligtvis inte möjlig. Du måste göra det själv eller beställa det.

AI Bilder Exempel — Det första försöket: En bidragsbild av Dall-E för detta inlägg

Vid första anblicken verkar AI-bildgeneratorer vara ett spännande nytt alternativ. De levererar ju visuellt innehåll snabbt och enkelt med hjälp av textkommandon. I teorin kan man generera en exakt passande visualisering till en låg kostnad eller till och med kostnadsfritt.

Välkända AI-bildgeneratorer inkluderar Dall-E från OpenAI, som också ligger bakom ChatGPT, MidJourney och Stable Diffusion. De har alla gratis och betalda erbjudanden. Stable Diffusion är open source, vilket är anledningen till att en aktiv community redan har utvecklats kring detta verktyg. Det innebär att du kan använda Stable Diffusion direkt på din egen dator - eller till och med på en smartphone eller surfplatta.

Vad AI-erbjudanden för bilder är bra för

Dessa bildgeneratorer skapar verk i alla möjliga stilar: illustrationer, teckningar, foton, datorgrafik eller till och med utseendet hos en oljemålning. Gränserna sätts av utbildningsmaterialet, din fantasi och din skicklighet och uthållighet i sökandet efter det perfekta resultatet.

Och det leder oss till en svag punkt i dessa erbjudanden så snart du faktiskt testar dem själv: det är inte alltid så lätt som hoppats att uppnå önskat resultat. Åtminstone händer det inte "med en knapptryckning", som ofta beskrivs och lovas. Ibland har du tur och får en snabb träff. Ibland sliter man sitt hår för att det bara inte fungerar.

Med tiden kommer du att lära dig hur du uppnår bästa resultat. Det centrala här är prompten, dvs. den skriftliga instruktionen till AI-verktyget. Vad som fungerar bra där beror dock mycket på verktyget.

Dall-E 3 är till exempel mycket kraftfullt, men ChatGPT står mellan dig och applikationen. Precis som med text förklarar du därför på ett naturligt språk vad du har i åtanke. ChatGPT tar emot detta och översätter det till en instruktion för Dall-E. Om du inte gillar resultatet förklarar du vad som behöver ändras. Och så fortsätter det i all oändlighet.

I andra änden av spektrumet finns Stable Diffusion. Även om du använder det via det kommersiella programmet DreamStudio har du olika manuella alternativ. Ännu större frihet får du om du använder Stable Diffusion via ett gränssnitt på din egen dator, t.ex. Automatic1111 eller Draw Things.

För att förklara det så här: Dall-E är macOS, Stable Diffusion är Linux. Dall-E ger bra resultat ganska snabbt. I gengäld måste du acceptera att systemet begränsar vad du kan göra och hur du kan göra det. Stable Diffusion, å andra sidan, är till en början förvirrande och komplext. Men i gengäld finns det enormt mycket att göra och man kan använda ett antal hävstänger.

AI-bilder Exempel svartvitt — Det andra försöket med uppmaningen: "Mindre färgglatt tack"

Kanske skulle MidJourney då kunna bli den tredje i gruppen för Windows. Jag måste dock erkänna att jag inte alls gillar MidJourneys gränssnitt i Discourse chattjänst. I det avseendet har jag bara mycket begränsad erfarenhet av det. Samtidigt är MidJourney ganska populärt eftersom du kan uppnå fantastiska resultat med liten ansträngning. För närvarande föredrar jag dock att använda Dall-E 3 via ChatGPT.

Typiska utmaningar och misstag

Ett misstag som jag ser om och om igen är att människor alltför ofta försöker skapa fotorealistiska bilder. Enligt min mening är detta inte idealiskt av två skäl:

Resultaten ser ofta ännu mer konstgjorda ut än de stockfoton som de är baserade på. Dessutom saknas det ofta finjustering av bildernas utseende. Detta beror på att stockfoton vanligtvis är utformade för att vara så neutrala som möjligt, vilket gör dem både flexibla att använda och tråkiga. Foton blir intressanta genom kompositionen, ljussättningen, spelet med skärpa och oskärpa. Om du inte gör några specifikationer tenderar AI-verktygen att producera något mediokert.
Problem och fel i bilden är mer benägna att fånga ögat, medan de i andra stilar passerar som ett uttryck för "kreativ frihet". En teknisk term här är "uncanny valley": den punkt där ett nästan korrekt mänskligt ansikte ser störande ut på grund av ett litet misstag.

Det är därför jag ofta förlitar mig på illustrationer och grafik. Det betyder inte att fotorealistiska bilder inte är användbara. Men det är bra att ha andra alternativ i åtanke.

Oavsett stil är det viktigt att förstå verktygens begränsningar. Dessa kan ibland vara överraskande. Ett motiv kan fungera direkt, medan en annan idé kanske inte fungerar ens efter dussintals försök. Detta har ofta att göra med vad AI:n vet från sitt utbildningsmaterial. Den kan skapa bilder som ännu inte finns någon annanstans.

Men man måste också inse att dessa verktyg inte har den minsta förståelse för vad de avbildar. De har ingen aning om världen i allmänhet eller, till exempel, om mänsklig anatomi i synnerhet.

AI-bilder Fotorealistiskt prov — Fotorealism fungerar inte riktigt ännu

Händer är ett välkänt exempel på detta problem. Dall-E eller Stable Diffusion vet inte hur en mänsklig hand ser ut eller hur den fungerar. De har sett händer under träning. Men ibland syns de bara från sidan, är delvis skymda eller så ligger två händer ovanpå varandra. AI:n förstår inte att en genomsnittlig mänsklig hand har fem fingrar och att ibland, på grund av perspektiv eller andra omständigheter, är inte alla fingrar synliga.

Komplexa scener är också svåra. Exempel: Du vill ha en bild som visar ett team på fem personer och du har specifika idéer om hur varje person ska se ut. Lycka till med det! Jag hoppas att du har tid och tålamod ...

Situationen är liknande om en person ska inta en tydligt definierad pose eller om du har en exakt bildkomposition i åtanke. I detta fall är det bra att skapa en bild inte bara utifrån en uppmaning, utan också utifrån en mall (så kallad "bild till bild" i motsats till "text till bild"). Stable Diffusion har också ControlNet-hjälpmedlet, som du kan använda för att bestämma specifika element i en mall som ska visas i den nya bilden.

Som du kan se kommer det att bli svårare ju högre förväntningar du har och ju mer detaljerad din idé är. Det fungerar dock bra om du låter AI:n inspirera dig: Du kan till exempel beskriva för ChatGPT i vilket syfte du behöver bilden och vad den ska representera, och sedan se i vilken utsträckning du gillar resultatet och närma dig det steg för steg. Med Stable Diffusion, å andra sidan, kommer du att experimentera med uppmaningen, men också med många andra alternativ och inställningar.

De problematiska aspekterna av bildgeneratorer

Detta är dock inte den enda utmaningen. En annan är att dessa AI:er visar vad som finns i utbildningsmaterialet. Och detta inkluderar fördomar och klichéer. Det kan handla om stereotypa könsroller eller till och med rasistiska världsbilder. I slutändan är det ditt ansvar att känna igen och rensa bort sådana problematiska representationer. ChatGPT och Dall-E försöker aktivt att undvika detta.

En annan punkt gäller det "utbildningsmaterial" som redan har nämnts flera gånger. I likhet med textgeneratorer har dessa verktyg också lärt sig sina färdigheter från mänskliga modeller. De har matats med en enorm mängd data. Huruvida dessa foton, grafik, illustrationer, målningar och andra verk fick användas för detta ändamål är en hett debatterad fråga.

"*" visar obligatoriska fält

Vissa ser det som ett intrång i upphovsrätten. Andra jämför det med hur konstnärer av kött och blod lär sig av förebilder och följer trender. Det skulle föra för långt att gå in på den diskussionen här. Vissa leverantörer, som Adobe, använder sina egna stockfotoerbjudanden för sina verktyg och ger också ersättning för denna användning. Detta borde göra det lämpligt för den kommersiella sektorn och framför allt för företag.

Outlook: Från bild till rörlig bild

Nästa spännande område för AI-verktyg har redan börjat växa fram: video. Här finns det ett antal nya erbjudanden som utgår från antingen textinmatning eller en bild.

Kvaliteten på resultaten är helt häpnadsväckande. Klippen är dock fortfarande mycket korta. Typiska artefakter och egenheter hos AI-bildgeneratorerna kan också hittas här. De verkar för närvarande fungera bäst med relativt statiska scener. Ju mer komplext det blir, desto mer sannolikt är det att absurda detaljer smyger sig in.

Samtidigt befann sig text- och bildgeneratorerna på en liknande nivå för inte så länge sedan. För några år sedan tyckte vi till exempel fortfarande att det var fascinerande att man kunde skapa vilket porträttfoto som helst. Idag klagar vi om en detalj i vårt fotorealistiska resultat inte är hundraprocentigt korrekt.

I detta avseende finns det berättigade förhoppningar om att dessa verktyg kommer att utvecklas märkbart under de kommande månaderna och åren. Som exempel kan nämnas

Så medan videogeneratorer fortfarande är långt borta, tror jag att bildgeneratorer redan är användbara och förnuftiga idag. De har sina gränser och de har problem. De ersätter inte manuellt skapade foton eller grafik. Snarare erbjuder de ett annat alternativ och i kreativa händer kan de vara ett användbart verktyg.

Jag ser dem som på en liknande nivå som dagens textgeneratorer: de stöder och ibland inspirerar. De fungerar bäst tillsammans med en person.

Dina frågor om att skapa AI-bilder

Vad har du för frågor om att skapa bilder och grafik med AI? Använd gärna kommentarsfunktionen. Vill du få information om nya artiklar om webbdesign och AI? Följ oss då på Twitter, Facebook, LinkedIn eller via vårt nyhetsbrev.

Tabell

Skapa bilder och grafik med AI-verktyg

Vad AI-erbjudanden för bilder är bra för

Typiska utmaningar och misstag

De problematiska aspekterna av bildgeneratorer

Outlook: Från bild till rörlig bild

Dina frågor om att skapa AI-bilder

Tyckte du om artikeln?

Med din recension hjälper du oss att förbättra vårt innehåll ytterligare.

Jan Tissler

Skriva en kommentar avbryta svar