Generování obrázků a grafiky pomocí nástrojů umělé inteligence

Pokud jde o generativní umělou inteligenci, největší pozornost se často věnuje tématu textů. Podívejte se na mého průvodce vytvářením textů pomocí AI. Stejně vzrušující jsou však i pokroky v oblasti obrázků a grafiky. A v případě videa máte již dnes náhled na to, co by mohlo být možné v ne tak vzdálené budoucnosti. V tomto článku vám poskytnu přehled možností a omezení nabídek vizuální umělé inteligence.

Obrázky, grafika a videa mají pro online obsah obrovskou přidanou hodnotu. Přitahují větší pozornost a mohou téma nejen vysvětlit, ale také emotivně zpracovat. Dávají vám tak možnost prezentovat vaši značku a firemní identitu a vyniknout z davu.

Dosud měli ti, kteří potřebovali vizuální obsah, tyto možnosti:

1. vytvořte si ji sami. K jejich realizaci potřebujete kromě talentu a znalostí také správné nástroje a čas. To je v mnoha případech pravděpodobně nereálné.

2. někoho najmout . To je jistě nejkvalitnější možnost: najdete vhodného odborníka. Výsledky jsou zde obvykle nejlepší, protože si necháte vytvořit vizualizace podle svých potřeb. Nepřekvapivě jsou zde však také nejvyšší náklady.

3. stockové fotografie . Můžete použít platformy jako Shutterstock, Adobe Stock nebo Depositphotos. Nabízejí velký výběr, jsou kvalitní a cenově dostupné. Existují i bezplatné nabídky, jako je Pexels nebo Pixelio. Nevýhoda: Získáte hotové fotografie a grafiku, které používají i ostatní. Přizpůsobení obvykle není možné. Museli byste to udělat sami nebo si to objednat.

Ukázka obrázků AI — První pokus: Příspěvkový obrázek od Dall-E pro tento příspěvek

Na první pohled se generátory obrázků s umělou inteligencí jeví jako nová zajímavá alternativa. Koneckonců poskytují vizuální obsah rychle a snadno pomocí textových příkazů. Teoreticky lze vygenerovat přesně padnoucí vizualizaci s nízkými náklady nebo dokonce zdarma.

Mezi známé generátory obrázků s umělou inteligencí patří Dall-E od společnosti OpenAI, která stojí také za ChatGPT, MidJourney a Stable Diffusion. Všechny mají bezplatné i placené nabídky. Stable Diffusion má otevřený zdrojový kód, a proto se kolem tohoto nástroje již vytvořila aktivní komunita. To znamená, že Stable Diffusion můžete používat přímo na svém počítači - nebo dokonce na chytrém telefonu či tabletu.

K čemu jsou dobré nabídky AI pro obrázky

Tyto generátory obrázků vytvářejí díla nejrůznějších stylů: ilustrace, kresby, fotografie, počítačovou grafiku nebo dokonce vzhled olejomalby. Hranice jsou zde dány výukovým materiálem, vaší představivostí a vaší zručností a vytrvalostí při hledání dokonalého výsledku.

A to nás přivádí ke slabému místu těchto nabídek, jakmile je sami vyzkoušíte: ne vždy je dosažení požadovaného výsledku tak snadné, jak se doufalo. Přinejmenším se tak nestane "stisknutím tlačítka", jak je často popisováno a slibováno. Někdy máte štěstí a dosáhnete rychlého zásahu. Někdy si trháte vlasy, protože to prostě nejde.

Postupem času se naučíte, jak dosáhnout nejlepších výsledků. Ústředním prvkem je zde výzva, tj. písemný pokyn pro nástroj umělé inteligence. To, co v něm dobře funguje, však do značné míry závisí na daném nástroji.

Například Dall-E 3 je velmi výkonný, ale mezi vámi a aplikací stojí ChatGPT. Stejně jako u textu tedy vysvětlujete přirozeným jazykem, co máte na mysli. ChatGPT to přijme a přeloží do instrukce pro Dall-E. Pokud se vám výsledek nelíbí, vysvětlíte, co je třeba změnit. A tak to pokračuje dál a dál.

Na druhém konci spektra je stabilní difúze. I když ji používáte prostřednictvím komerční aplikace DreamStudio, máte k dispozici různé manuální možnosti. Ještě větší volnost získáte, pokud budete Stable Diffusion používat prostřednictvím rozhraní na vlastním počítači, například Automatic1111 nebo Draw Things.

Vysvětlím to takto: Dall-E je macOS, Stable Diffusion je Linux. Dall-E dosahuje dobrých výsledků poměrně rychle. Na oplátku se musíte smířit s tím, že systém omezuje, co a jak můžete dělat. Naproti tomu Stable Diffusion je zpočátku matoucí a složitý. Ale na oplátku je toho možné ohromné množství a můžete použít řadu pák.

Obrázky AI Ukázka černobílé — Druhý pokus s výzvou: "Méně barevné, prosím"

Možná by pak MidJourney mohl být třetí ve skupině pro Windows. Musím však přiznat, že se mi rozhraní MidJourney v rámci chatovací služby Discourse vůbec nelíbí. V tomto ohledu s ním mám jen velmi omezené zkušenosti. Přitom je MidJourney poměrně oblíbený, protože s ním lze dosáhnout skvělých výsledků bez většího úsilí. V současné době však raději používám Dall-E 3 prostřednictvím ChatGPT.

Typické problémy a chyby

Jednou z chyb, se kterou se setkávám opakovaně, je, že se lidé příliš často snaží vytvářet fotorealistické snímky. Podle mého názoru to není ideální ze dvou důvodů:

Výsledky často vypadají ještě uměleji než fotografie, na kterých jsou založeny. Kromě toho často chybí jemné doladění vzhledu snímků. Je to proto, že stockové fotografie jsou obvykle navrženy tak, aby byly co nejneutrálnější, což je činí flexibilními pro použití a zároveň nudnými. Fotografie se stávají zajímavými díky kompozici, osvětlení, hře s ostrostí a rozmazaností. Pokud neprovedete žádné specifikace, nástroje umělé inteligence mají tendenci vytvořit něco průměrného.
Problémy a chyby v obraze spíše upoutají pozornost, zatímco v jiných stylech jsou výrazem "tvůrčí svobody". Odborným termínem je zde "uncanny valley": bod, v němž téměř správná lidská tvář působí kvůli malé chybě rušivě.

Proto se často spoléhám na ilustrace a grafiku. To neznamená, že fotorealistické obrázky nejsou vůbec užitečné. Ale je dobré mít na paměti i jiné možnosti.

Bez ohledu na styl je důležité pochopit limity nástrojů. Ty mohou být někdy překvapivé. Jeden motiv může fungovat hned, zatímco jiný nápad nemusí fungovat ani po desítkách pokusů. Často to souvisí s tím, co umělá inteligence zná ze svých tréninkových materiálů. Může vytvářet obrazy, které zatím nikde jinde neexistují.

Musíte si ale také uvědomit, že tyto nástroje nemají nejmenší pochopení pro to, co zobrazují. Nemají žádnou představu o světě obecně nebo například o lidské anatomii konkrétně.

Fotorealistická ukázka obrázků AI — Fotorealismus zatím nefunguje.

Známým příkladem tohoto problému jsou ruce. Dall-E ani Stable Diffusion nevědí, jak vypadá lidská ruka nebo jak funguje. Ruce viděli při výcviku. Někdy jsou však vidět pouze z boku, jsou částečně zakryté nebo jsou dvě ruce nad sebou. Umělá inteligence nechápe, že průměrná lidská ruka má pět prstů a že někdy kvůli perspektivě nebo jiným okolnostem nejsou vidět všechny.

Složité scény jsou také obtížné. Příklad: Chcete obrázek, který zobrazuje tým pěti lidí, a máte konkrétní představy o tom, jak by měli jednotliví lidé vypadat. Hodně štěstí! Doufám, že budete mít čas a trpělivost ...

Podobná situace nastává, pokud má osoba zaujmout jasně definovanou pózu nebo máte na mysli přesnou kompozici snímku. V takovém případě pomůže vytvořit obrázek nejen podle zadání, ale také podle šablony (tzv. "obrázek k obrázku" na rozdíl od "textu k obrázku"). Stable Diffusion má také pomocníka ControlNet, pomocí kterého můžete určit konkrétní prvky šablony, které se mají objevit v novém obrázku.

Jak vidíte v tomto bodě, čím vyšší jsou vaše očekávání a čím podrobnější je vaše představa, tím obtížnější to bude. Funguje to však dobře, pokud se necháte umělou inteligencí inspirovat: Například ChatGPT popíšete, k jakému účelu obrázek potřebujete a co by měl představovat, a pak uvidíte, do jaké míry se vám výsledek líbí, a budete k němu přistupovat krok za krokem. Naproti tomu u Stabilní difúze budete experimentovat s výzvou, ale také s mnoha dalšími možnostmi a nastaveními.

Problematické aspekty generátorů obrázků

To však není jediná výzva. Další spočívá v tom, že tyto umělé inteligence ukazují, co lze nalézt ve výukovém materiálu. A to zahrnuje předsudky a klišé. Může jít o stereotypní genderové role nebo dokonce rasistické pohledy na svět. V konečném důsledku je vaší odpovědností takové problematické reprezentace rozpoznat a vyřadit. Společnosti ChatGPT a Dall-E se tomu aktivně snaží vyhnout.

Další bod se týká již několikrát zmíněného "školícího materiálu". Podobně jako generátory textu se i tyto nástroje učily své dovednosti od lidských modelů. Byly krmeny obrovským množstvím dat. Zda bylo dovoleno tyto fotografie, grafiky, ilustrace, obrazy a další díla k tomuto účelu použít, je ostře diskutovanou otázkou.

"*" povinný údaj

Někteří to považují za porušení autorských práv. Jiní to přirovnávají k tomu, jak se umělci z masa a kostí učí od svých vzorů a následují trendy. Zašlo by příliš daleko, kdybychom se zde chtěli pouštět do diskuse. Někteří poskytovatelé, jako například Adobe, používají pro své nástroje vlastní nabídku stock fotografií a za toto použití také poskytují odměnu. To by mělo být vhodné pro komerční sektor a především pro firmy.

Výhled: Od obrazu k pohyblivému obrazu

Další zajímavá oblast pro nástroje umělé inteligence se již objevuje: video. Existuje zde řada nových nabídek, které jako výchozí bod používají buď textový vstup, nebo obrázek.

Kvalita výsledků je překvapivá. Klipy jsou však stále velmi krátké. Typické artefakty a zvláštnosti generátorů obrázků AI najdete i zde. V současné době se zdá, že nejlépe pracují s relativně statickými scénami. Čím složitější, tím je pravděpodobnější, že se do nich budou vkrádat nesmyslné detaily.

Současně se v podobném bodě ještě nedávno nacházely generátory textu a obrázků. Ještě před několika lety nás například fascinovalo, že lze vytvořit libovolnou portrétní fotografii. Dnes si stěžujeme, pokud nějaký detail ve fotorealistickém výstupu není stoprocentně správný.

V tomto ohledu existuje oprávněná naděje, že se tyto nástroje v nadcházejících měsících a letech výrazně rozvinou. Příklady zahrnují

Zatímco generátory videa jsou ještě daleko, generátory obrázků jsou podle mě užitečné a rozumné už dnes. Mají své limity a mají své problémy. Nenahradí ručně vytvořené fotografie nebo grafiku. Spíše nabízejí další možnost a v kreativních rukou mohou být užitečným nástrojem.

Vidím je na podobné úrovni jako dnešní generátory textů: podporují a někdy inspirují. Nejlépe fungují v tandemu s člověkem.

Vaše dotazy k vytváření obrázků AI

Jaké máte dotazy k vytváření obrázků a grafiky pomocí umělé inteligence? Neváhejte použít funkci komentáře. Chcete být informováni o nových článcích o webdesignu a AI? Pak nás sledujte na Twitteru, Facebooku, LinkedIn nebo prostřednictvím našeho zpravodaje.

Obsah

Generování obrázků a grafiky pomocí nástrojů umělé inteligence

K čemu jsou dobré nabídky AI pro obrázky

Typické problémy a chyby

Problematické aspekty generátorů obrázků

Výhled: Od obrazu k pohyblivému obrazu

Vaše dotazy k vytváření obrázků AI

Líbil se vám tento článek?

Svou recenzí nám pomůžete zlepšit náš obsah.

Jan Tissler

Napsat komentář zrušit odpovědi