Generuj obrazy i grafiki za pomocą narzędzi AI

Jeśli chodzi o generatywną sztuczną inteligencję, temat tekstów często przyciąga najwięcej uwagi. Zobacz mój przewodnik po tworzeniu tekstu za pomocą sztucznej inteligencji. Ale postępy w dziedzinie obrazów i grafiki są równie ekscytujące. A dzięki wideo już dziś otrzymujesz podgląd tego, co może być możliwe w nie tak odległej przyszłości. W tym artykule przedstawię Ci przegląd możliwości i ograniczeń oferty wizualnej sztucznej inteligencji.

Obrazy, grafiki i filmy dodają ogromną wartość do treści online. Przyciągają więcej uwagi i mogą nie tylko wyjaśnić temat, ale także go emocjonalizować. Daje Ci to szansę na zaprezentowanie swojej marki i tożsamości korporacyjnej oraz wyróżnienie się z tłumu.

Do tej pory ci, którzy potrzebowali treści wizualnych, mieli następujące opcje:

1. Stwórz to sam. Oprócz talentu i wiedzy, potrzebujesz odpowiednich narzędzi i czasu, aby je zrealizować. W wielu przypadkach jest to prawdopodobnie nierealne.

2. zatrudnij kogoś. Jest to z pewnością opcja najwyższej jakości: znajdujesz odpowiedniego specjalistę. Rezultaty są zwykle najlepsze, ponieważ masz wizualizacje stworzone zgodnie z Twoimi potrzebami. Nic jednak dziwnego, że w tym przypadku koszty są również najwyższe.

3. zdjęcia stockowe. Możesz skorzystać z platform takich jak Shutterstock, Adobe Stock lub Depositphotos. Oferują one duży wybór, są dobrej jakości i przystępne cenowo. Istnieją nawet darmowe oferty, takie jak Pexels lub Pixelio. Wada: Otrzymujesz gotowe zdjęcia i grafiki, z których korzystają też inni. Dostosowanie nie jest zazwyczaj możliwe. Musisz wykonać je samodzielnie lub zlecić ich wykonanie.

Przykładowe obrazy AI — Pierwsza próba: zdjęcie wkładu Dall-E do tego postu

Na pierwszy rzut oka generatory obrazów AI wydają się być nową, ekscytującą alternatywą. W końcu dostarczają one treści wizualne szybko i łatwo za pomocą poleceń tekstowych. Teoretycznie możesz wygenerować precyzyjnie dopasowaną wizualizację niskim kosztem lub nawet bezpłatnie.

Dobrze znane generatory obrazów AI obejmują Dall-E firmy OpenAI, która stoi również za ChatGPT, MidJourney i Stable Diffusion. Wszystkie one mają darmowe i płatne oferty. Stable Diffusion jest oprogramowaniem typu open source, dlatego też wokół tego narzędzia rozwinęła się już aktywna społeczność. Oznacza to, że możesz korzystać ze Stable Diffusion bezpośrednio na własnym komputerze, a nawet na smartfonie lub tablecie.

Do czego przydają się oferty sztucznej inteligencji dla obrazów

Te generatory obrazów tworzą dzieła we wszystkich stylach: ilustracje, rysunki, zdjęcia, grafiki komputerowe, a nawet wygląd obrazu olejnego. Granice wyznacza materiał szkoleniowy, twoja wyobraźnia oraz umiejętności i wytrwałość w poszukiwaniu idealnego rezultatu.

I to prowadzi nas do słabego punktu tych ofert, gdy tylko sam je wypróbujesz: nie zawsze jest tak łatwo, jak oczekiwano, aby osiągnąć pożądany rezultat. Przynajmniej nie dzieje się to "za naciśnięciem przycisku", jak to często jest opisywane i obiecywane. Czasami masz szczęście i szybko trafiasz. Czasami wyrywasz sobie włosy z głowy, ponieważ to po prostu nie działa.

Z czasem nauczysz się, jak osiągać najlepsze wyniki. Centralnym elementem jest tutaj podpowiedź, czyli pisemna instrukcja dla narzędzia AI. Jednak to, co działa dobrze, zależy w dużej mierze od narzędzia.

Na przykład Dall-E 3 jest bardzo potężny, ale ChatGPT stoi pomiędzy Tobą a aplikacją. Podobnie jak w przypadku tekstu, wyjaśniasz w języku naturalnym, co masz na myśli. ChatGPT odbiera to i tłumaczy na instrukcję dla Dall-E. Jeśli nie podoba Ci się wynik, wyjaśniasz, co należy zmienić. I tak w kółko.

Na drugim końcu spektrum znajduje się Stable Diffusion. Nawet jeśli używasz go za pośrednictwem komercyjnej aplikacji DreamStudio, masz różne opcje ręczne. Masz jeszcze większą swobodę, jeśli używasz Stable Diffusion za pośrednictwem interfejsu na własnym komputerze, takiego jak Automatic1111 lub Draw Things.

Wyjaśnijmy to w ten sposób: Dall-E to macOS, Stable Diffusion to Linux. Dall-E daje dobre wyniki dość szybko. W zamian musisz zaakceptować, że system ogranicza to, co możesz zrobić i jak możesz to zrobić. Z drugiej strony, Stable Diffusion jest początkowo zagmatwane i skomplikowane. Ale w zamian za to, masz ogromne możliwości i możesz użyć wielu dźwigni.

Przykładowe obrazy AI czarno-białe — Druga próba z podpowiedzią: "Mniej kolorów proszę"

Być może MidJourney mógłby być trzecim w grupie dla Windows. Muszę jednak przyznać, że nie podoba mi się interfejs MidJourney w ramach usługi czatu Discourse. Pod tym względem mam z nim bardzo ograniczone doświadczenie. Jednocześnie MidJourney jest dość popularny, ponieważ możesz osiągnąć świetne wyniki przy niewielkim wysiłku. W tej chwili wolę jednak używać Dall-E 3 przez ChatGPT.

Typowe wyzwania i błędy

Jednym z błędów, które ciągle widzę, jest to, że zbyt często ludzie próbują tworzyć fotorealistyczne obrazy. Moim zdaniem nie jest to idealne rozwiązanie z dwóch powodów:

Rezultaty często wyglądają nawet bardziej sztucznie niż zdjęcia stockowe, na których są oparte. Ponadto często brakuje możliwości dostrojenia wyglądu obrazów. Dzieje się tak, ponieważ zdjęcia stockowe są zwykle zaprojektowane tak, aby były jak najbardziej neutralne, co czyni je zarówno elastycznymi w użyciu, jak i nudnymi. Zdjęcia stają się interesujące dzięki kompozycji, oświetleniu, grze z ostrością i rozmyciem. Jeśli nie wprowadzisz żadnych specyfikacji, narzędzia AI mają tendencję do tworzenia czegoś przeciętnego.
Problemy i błędy w obrazie są bardziej prawdopodobne, aby przyciągnąć wzrok, podczas gdy w innych stylach przechodzą one jako wyraz "wolności twórczej". Technicznym terminem jest tutaj "dolina niesamowitości": punkt, w którym prawie poprawna ludzka twarz wygląda niepokojąco z powodu małego błędu.

Dlatego często polegam na ilustracjach i grafikach. Nie oznacza to, że fotorealistyczne obrazy nie są przydatne. Ale dobrze jest mieć na uwadze inne opcje.

Niezależnie od stylu, ważne jest, aby zrozumieć ograniczenia narzędzi. Te mogą być czasem zaskakujące. Jeden motyw może zadziałać od razu, podczas gdy inny pomysł może nie zadziałać nawet po dziesiątkach prób. Często ma to związek z tym, co sztuczna inteligencja wie z materiałów szkoleniowych. Może ona tworzyć obrazy, które jeszcze nigdzie nie istnieją.

Ale musisz też zdać sobie sprawę, że te narzędzia nie mają najmniejszego pojęcia o tym, co przedstawiają. Nie mają pojęcia o świecie w ogóle lub, na przykład, o ludzkiej anatomii w szczególności.

Próbka fotorealistycznych obrazów AI — Fotorealizm tak naprawdę jeszcze nie działa

Ręce są dobrze znanym przykładem tego problemu. Dall-E lub Stable Diffusion nie wiedzą, jak wygląda ludzka ręka i jak działa. Widzieli ręce podczas treningu. Ale czasami są one widoczne tylko z boku, częściowo zasłonięte lub dwie dłonie znajdują się jedna na drugiej. Sztuczna inteligencja nie rozumie, że przeciętna ludzka dłoń ma pięć palców i że czasami, ze względu na perspektywę lub inne okoliczności, nie wszystkie z nich są widoczne.

Złożone sceny są również trudne. Przykład: Chcesz stworzyć zdjęcie przedstawiające pięcioosobowy zespół i masz konkretne pomysły na wygląd każdej z osób. Powodzenia! Mam nadzieję, że masz czas i cierpliwość ...

Sytuacja wygląda podobnie, jeśli osoba ma przyjąć jasno określoną pozę lub masz na myśli dokładną kompozycję obrazu. W takim przypadku pomocne jest tworzenie obrazu nie tylko z podpowiedzi, ale także z szablonu (znanego jako "obraz do obrazu" w przeciwieństwie do "tekst do obrazu"). Stable Diffusion ma również pomocnika ControlNet, którego możesz użyć do określenia konkretnych elementów szablonu, które powinny pojawić się na nowym obrazie.

Jak widać na tym etapie, im wyższe są twoje oczekiwania i im bardziej szczegółowy jest twój pomysł, tym trudniej będzie go zrealizować. Działa to jednak dobrze, jeśli pozwolisz sztucznej inteligencji zainspirować się: Na przykład opisujesz ChatGPT cel, dla którego potrzebujesz obrazu i co powinien on przedstawiać, a następnie sprawdzasz, w jakim stopniu podoba Ci się wynik i podchodzisz do niego krok po kroku. Z drugiej strony, w Stable Diffusion będziesz eksperymentować z podpowiedzią, ale także z wieloma innymi opcjami i ustawieniami.

Problematyczne aspekty generatorów obrazu

Nie jest to jednak jedyne wyzwanie. Innym jest to, że te SI pokazują to, co można znaleźć w materiale szkoleniowym. Obejmuje to uprzedzenia i stereotypy. Może to obejmować stereotypowe role płciowe, a nawet rasistowskie poglądy na świat. Ostatecznie to na tobie spoczywa odpowiedzialność za rozpoznanie i wyeliminowanie takich problematycznych reprezentacji. ChatGPT i Dall-E aktywnie starają się tego unikać.

Kolejna kwestia dotyczy wspomnianego już kilkakrotnie "materiału szkoleniowego". Podobnie jak w przypadku generatorów tekstu, narzędzia te również nauczyły się swoich umiejętności od ludzkich modeli. Zostały one zasilone ogromną ilością danych. To, czy te zdjęcia, grafiki, ilustracje, obrazy i inne dzieła mogły zostać wykorzystane do tego celu, jest kwestią gorąco dyskutowaną.

"*" wyświetla wymagane pola

Niektórzy postrzegają to jako naruszenie praw autorskich. Inni porównują to do tego, jak artyści z krwi i kości uczą się na wzorcach i podążają za trendami. Dyskusja na ten temat byłaby zbyt daleko idąca. Niektórzy dostawcy, tacy jak Adobe, korzystają z własnych ofert zdjęć stockowych w swoich narzędziach, a także zapewniają wynagrodzenie za to wykorzystanie. Powinno to sprawić, że będzie to odpowiednie rozwiązanie dla sektora komercyjnego, a przede wszystkim dla firm.

Perspektywy: Od obrazu do ruchomego obrazu

Kolejne ekscytujące pole dla narzędzi AI już się wyłania: wideo. Istnieje wiele nowych ofert, które wykorzystują tekst lub obraz jako punkt wyjścia.

Jakość wyników jest dość zaskakująca. Klipy są jednak wciąż bardzo krótkie. Typowe artefakty i osobliwości generatorów obrazu AI można również znaleźć tutaj. Obecnie wydają się one działać najlepiej ze stosunkowo statycznymi scenami. Im bardziej złożona scena, tym większe prawdopodobieństwo, że wkradną się do niej absurdalne szczegóły.

W tym samym czasie generatory tekstu i obrazu znajdowały się w podobnym punkcie nie tak dawno temu. Kilka lat temu, na przykład, wciąż uważaliśmy za fascynujące, że można stworzyć dowolne zdjęcie portretowe. Dziś narzekamy, jeśli jakiś szczegół w naszym fotorealistycznym wydruku nie jest w stu procentach poprawny.

W związku z tym istnieje uzasadniona nadzieja, że narzędzia te rozwiną się zauważalnie w nadchodzących miesiącach i latach. Przykłady obejmują.

Tak więc, podczas gdy generatory wideo to wciąż odległa przyszłość, myślę, że generatory obrazu są już dziś użyteczne i sensowne. Mają swoje ograniczenia i problemy. Nie zastąpią one ręcznie tworzonych zdjęć czy grafik. Oferują raczej inną opcję i w kreatywnych rękach mogą być pomocnym narzędziem.

Postrzegam je jako podobne do dzisiejszych generatorów tekstu: wspierają, a czasem inspirują. Najlepiej działają w parze z człowiekiem.

Twoje pytania dotyczące tworzenia obrazów AI

Jakie masz pytania dotyczące tworzenia obrazów i grafik za pomocą sztucznej inteligencji? Skorzystaj z funkcji komentowania. Chcesz być informowany o nowych artykułach na temat projektowania stron internetowych i sztucznej inteligencji? Śledź nas na Twitterze, Facebooku, LinkedIn lub poprzez nasz newsletter.

Spis treści

Generuj obrazy i grafiki za pomocą narzędzi AI

Do czego przydają się oferty sztucznej inteligencji dla obrazów

Typowe wyzwania i błędy

Problematyczne aspekty generatorów obrazu

Perspektywy: Od obrazu do ruchomego obrazu

Twoje pytania dotyczące tworzenia obrazów AI

Spodobał Ci się ten artykuł?

Zostawiając opinię pomożesz nam udoskonalać publikowane przez nas treści.

Jan Tissler

Napisz komentarz Anuluj odpowiedź