Generování obrazů pomocí umělé inteligence

Obrázek v hlavičce byl vygenerován programem Midjourney. Prompt: Glowing cube floating above the desert

Autorka: Eva Nečasová, garant: Honza Tyl

Definice generativního umění zní: média vzniklá pomocí autonomního (nezávisle fungujícího) systému. Nemusí za tím ale nutně stát umělá inteligence. Už začátkem druhé poloviny minulého století začala vznikat algoritmicky generovaná díla. V této souvislosti stojí za zmínku například práce Very Molnár. Její díla byla generována na základě naprogramovaných sad pravidel. Na stejném principu funguje třeba také Želví grafika.

O co jde

V kontextu posledních měsíců se o generativním umění mluví hlavně v souvislosti s obrazy, které vytváří umělá inteligence. Programy jako Midjourney, DALL•E, Stability AI, Wombo Art a další dovolují komukoliv snadno generovat obrazy na základě textových vstupů, kterým se říká prompty. Funguje to jednoduše — textově popíšeme naši představu a AI ji vytvoří. Prompt může vypadat třeba takto:

Cute unicorns jumping from cloud to cloud, heaven, ice cream, hyper detailed, octane render, cinematic

Takto pak vypadá obrázek (z Midjourney):

Co lze generovat

Mimo statických obrazů lze (či brzy bude možné) generovat třeba také: texty (GPT-3), 3D modely (DreamFusion), videa (Make-a-Video), hudbu (Soundraw, Jukebox)...

Všechna tato generovaná média se schovají do škatulky, která se nazývá syntetická média.

Generátory obrazů

Uvádím jich několik málo se základními popisy:

Midjourney (link)

Obrazy generuje v rozhraní Discordu, takže je třeba mít na této sociální síti účet a být uživatelem Midjourney serveru. Program vás nechá vygenerovat prvních 25 obrazů zdarma a následně funguje na bázi měsíčního předplatného: 200 promptů $10, za $30 cca 900 promtů (může se časem lišit, aktuálně zde). Midjourney je vyhledávaný pro svou specifickou estetiku. Nabízí skvělé možnosti, jak výsledný obraz parametrizovat. A existuje také možnost nahrát obrázek, kterým se algoritmus inspiruje.

DALL•E 2 (link)

Krásné věci generuje také DALL•E 2. I tuto službu lze využívat pouze po vytvoření účtu. První měsíc je neplatíte a můžete vygenerovat 200 obrazů. Každý další měsíc je zdarma, pokud nevyčerpáte více než 60 promtů. Pak platíte $15. Tokeny se nepřevádějí. Mimo generování umí DALL•E také pracovat s nahranými obrázky — generovat jejich varianty nebo měnit vybrané části obrazů.

Stability AI (Stable Diffusion, Dreamstudio) (link)

Po založení účtu generujete prvních 200 obrazů zdarma. Následně zaplatíte $10 za dalších 1 000 (existuje také verze k instalaci, obrázky se pak generují na vašem počítači, bez filtrů). Mimo klasického generování pomocí textového vstupu lze také nahrát obrázek a ten přetvořit v něco jiného (pomocí promptu). Hlavní výhodu Dreamstudia spatřuji právě v mnoha nabízených možnostech, jak s nahranými obrazy pracovat. V době vytváření tohoto textu se výsledky zdají (oproti Midjourney nebo DALL•E) vizuálně slabší.

Zde, zde a zde je porovnání obrazů, které generovaly tyto programy.

Wombo Art (link)

Služba je zdarma a funguje bez přihlášení na mobilu i desktopu, což je skvělé. Zrovna jako Dreamstudio nebo DALL•E dovoluje mimo klasického generování přetvářet nahrané obrázky. Oproti Dreamstudio nabízí ale mnohem méně voleb. Výsledky jsou vizuálně většinou docela uspokojivé.

Další podobné služby: Playground AI, Jasper, a další výčet třeba zde.

V tomto článku budu popisovat detailněji Midjorney a Wombo Art. Proč? Midjourney narozdíl od DALL•E vytvořila skupina nezávislých výzkumníků a generuje překrásné věci. Wombo Art je velmi snadno dostupný a z mého pohledu funguje uspokojivě.

Midjourney

Jak již bylo napsáno výše, k využívání Midjourney budete potřebovat sociální síť Discord (neplacená).

Stáhněte si aplikaci Discord a nainstalujte ji (aplikace je pohodlnější, ale Discord lze využívat také v prohlížeči). Návod k instalaci krok za krokem naleznete zde. Až ji budete mít připravenou, připojte se k serveru Midjourney kliknutím na tento odkaz. Měla by se vám automaticky otevřít aplikace (případně to povolte, vyskočí-li okénko). Výčet serverů v Discordu vidíte vlevo jako kulaté ikonky. Midjourney má v logu lodičku. Po ťuknutí na ni byste měli vlevo výčet kanálů, vpravo pak jejich obsah.

Pokud generujte poprvé, poslouží vám kanály, které se jmenují “newbies-” (později pak kanály “general-”).
Úplně základním příkazem je
/imagine

Ten vám dovolí vložit prompt. Vyzkoušejte si to. Napište /imagine (lomítko a bez mezery pak imagine, poté stiskněte mezerník) a měl by vám vyskočit nápis prompt:. Popište anglicky cokoliv vás napadne. Mohou to být klíčová slova nebo celé věty. Pamatujte, že čím komplexnější popis, tím lépe (max. ale 6 000 znaků). Popište například:
— osoby (co mají na sobě, co dělají…),
— zvířata (jsou chlupatá, malá…),
— bytosti (...),
— prostředí (venku, v tajemném hradě, v noci…),
— atmosféru (měkké světlo…),
— věci (barva, struktura…),
— typ záběru (fotografie na široký objektiv, zeshora…),
— styl (malba, kresba, pointilismus, 3D render, isometrie, styl Van Gogha…)
— a další.

Podívejte se, co generují ostatní uživatelé, jak pracují s prompty. Až se zorientujete, můžeme přejít na zajímavější věci 🙂

Takto vypadá struktura promptu:

Po příkazu /imagine může následovat URL obrázku, kterým si přejete, aby se algoritmus inspiroval (prompt k obrazu). Za URL napíšete mezeru a pokračujete textovým popisem jako takovým (textový prompt). Údaje za dvěma spojovníky (--) parametrizují generovaný obraz. Vše si nyní rozebereme.

URL obrázku

Můžete vložit a nemusíte. To, jak moc z obrázku generátor vychází, ovlivníte parametrem --iw (image value, vkládá se nakonec viz struktura promptu). Zadáte-li --iw 1, generátor přisoudí stejnou váhu obrázku jako textovému promptu.

Pokud se rozhodnete tento způsob vyzkoušet, obrázek musí být online, případně lze nahrát z disku na Discord a vložit URL obrázku nahrané na server Discordu. Detailní info, jak vkládat obrázky naleznete zde.

Textový prompt jsem popsala výše.

Parametry

Na konci promptu můžeme uvádět tzv. parametry, které upraví to, jak se bude výsledný obrázek vypadat. Úplný a aktuální výpis parametrů naleznete zde. Já uvedu ty, které mi přišly zajímavé:

--ar

Tento parametr upraví poměr stran obrazu. Nefungují všechny poměry, ale pokud zadáte nějaký, která MJ (Midjourney) neumí, vybere se ten nejbližší. Výchozí poměr stran je 1:1.
Příklad použití: --ar 16:9

--no

Pokud chcete z obrázku něco vyloučit, patří to sem.
Příklad použití: --no tree

--stylize

Tímto parametrem určíte, jak moc stylizovaný obrázek bude. Při hodnotě 625 stylizaci v podstatě vypínáte. Maximum je 60 000. Více detailů zde.
Příklad použití: --stylize 60000

--quality

Výchozí kvalita je 1, maximální pak 2 (ale stojí 2× tolik a generování trvá déle).
Příklad použití: --quality 2

--video

Tímto parametrem říkáte, že si přejete zaznamenat proces generování do formátu videa. Video automaticky nedostáváte, ale musíte si o něj „zažádat“. To lze provést po tom, co je obraz vygenerován. Zareagujete na vygenerovanou zprávu emoji „obálka“ ✉ (nejlépe vyhledat v seznamu emoji – envelope) a Midjourney Bot pak odešle video do soukromé zprávy (musíte povolit zasílání soukr. zpráv ze serveru, o tom více níže).

Jak vyvažovat poměr obsahu v obrazech

Chcete-li generovat například psi a kočky, můžete pomocí vah určovat, jaký bude v obraze jejich poměr (např. v počtu atd…). Hodnota se přidá za znaky :: které se bez mezery píší ke slovu, k nimž náleží. Viz toto porovnání:

Jak generovat v rámci přímých zpráv nebo na jiném serveru

Prostředí ve veřejných kanálech MJ může být nepřehledné. Proto je lepší generovat v rámci přímých zpráv, což je snadné zařídit. Příspěvky se nestanou neveřejné, ale ve feedu nebudou vyskakovat příspěvky jiných uživatelů.

Nejprve je třeba povolit přímé zprávy od ostatních uživatelů serveru. Klikněte pravým tlačítkem myši na ikonku serveru MJ (lodička) a vyberte možnost nastavení soukromí. V dalším okénku povolte přímé zprávy. Nakonec otevřete konverzaci s Midjourney Bot tak, že na něj vpravo ve výčtu uživatelů serveru kliknete pravým tlačítkem a vyberete možnost „Zpráva“. Pak už stačí přejít do přímých zpráv klepnutím na ikonku Discordu úplně vlevo nahoře. V konverzaci s Midjourney Bot můžete generovat úplně stejně jako v kanálech MJ pomocí /imagine.

Stejně tak je možné generovat na jakémkoliv vašem serveru. Klikněte pravým tlačítkem na Midjourney Bot, jako když jste s ním zahajovali novou konverzaci, vyberte profil a v novém okénku pak klikněte na tlačítko „Přidat na server“.

Velikost obrazů a verzování

Pod každým vygenerovaným obrazem je vždy sada několika tlačítek.

U znamená Upscale (zvětšení) a číslo značí obrázek (začíná se zleva a jde se po řádcích). Pokud se Vám některý obrázek líbí, můžete ho pomocí této funkce vygenerovat ve větším rozlišení s propracovanějšími detaily. Tlačítko vpravo se šipkami pak přegeneruje celý prompt znovu. A konečně spodní řada tlačítek s V obrazy verzuje. Za tím se skrývá celkem zajímavá věc. Udělala jsem si malý pokus — verzovala jsem prompt „hyper detailed organism, complicated structure“ celkem 34× bez jakéhokoliv mého dalšího zásahu. Byla jsem zvědavá, kam se bude program ubírat. A toto je výsledek evoluce 🙂 Úžasné video na toto téma je také zde.

Interpunkce

Znaménka roli hrají. Můžete vyzkoušet různé varianty tvrdého a měkkého dělení. Pro tvrdé se využívají dvě dvojtečky s mezerou před a po ( :: ) a pro měkké čárky (, ). Také se zdá, že větší význam mají slova na začátku promptu, než ta co následují.

Kam se obrazy ukládají

Všechna díla, která jste vygenerovali, naleznete v galerii na stránce midjourney.com po přihlášení. Přihlašujete se pomocí účtu na Discordu. V galerii můžete vyhledávat podle klíčových slov, u každého obrazu je uveden prompt a další informace. Obrázek můžete také stáhnout. Zároveň stránka funguje jako sociální síť, kde je možné sledovat oblíbené tvůrce a jejich díla hodnotit.

Wombo Art (ve výuce)

O poznání uživatelsky jednodušší program Wombo popíšu z hlediska, které na něm oceňuji nejvíce — to je nahrání obrázku a možnost jeho přegenerování vložením promptu. Než se do toho pustím, jen v krátkosti shrnu, co rozhraní nabízí.

Jste-li na stránce Wombo, máte v podstatě 3 možnosti volby (horní dvě musíte definovat). Je třeba zadat prompt a zvolit výtvarný styl (nebo vybrat No style — žádný styl). Poté se tlačítko Create stane aktivní. Úplně dole je pak volitelná možnost nahrát obrázek, který byste si přáli přetvořit.

Ve výuce jsme toto zkoušeli v ZŠ Be Open. Děti vymodelovaly krásné sošky z hlíny s pravěkou tématikou. Zkoušela jsem je přetvořit několika způsoby, abychom dětem ukázali, jaké možnosti aplikace nabízí. Když se mi výsledky nezdály uspokojivé, velmi jednoduše jsem je dokreslila, abych viděla, jak to ovlivní výsledek.

Nemohu říci, že by se mi výsledky zdály konzistentní, ale některé se nám i dětem moc líbily. Za mě má Wombo do výuky docela velký potenciál. Nespornou výhodou je, že se uživatelé nemusí registrovat, ale lze začít tvořit rovnou v prohlížeči bez předchozích akcí. Primární zařízení, na které je Wombo optimalizován, je chytrý telefon. Ten má dnes skoro každý, navíc odpadá přenos fotografií do počítače. Výsledné obrazy lze sdílet rovnou ze stránky např. do Google Classroom či na sociální sítě.

Prompty z obrazu

Obrácený přístup (oproti generování) nabízí tzv. Clip Interrogator. Je to nástroj, který generuje prompty z vloženého obrázku. Pro zajímavost jsem si udělala test. Nahrála jsem vstupní obrázek, který byl vygenerovaný v Midjourney na základě promptu: Close up of Jon Lovitz running in the Las Vegas desert

Clip Interrogator mi vygeneroval zpět tento prompt:
a man running in the desert with mountains in the background, a colorized photo, by Bert Stern, danny devito as dr. robotnik, better call saul scene 1 0 8 0 p, ned flanders, obese ), ian mcshane, sexy movie photo, discord moderator, philosophical splashes of colors, speed, him

Ten jsem zadala zpět do Midjourney a toto je výsledek (slovo „sexy“ bylo třeba vypustit, Midjourney ho zakazuje). A Jon Lovitz se ukázal jako neoblíbený herec oproti Dannymu Devito 🙂

Také mě zajímalo, jaký prompt mi Clip Interrogator vytvoří k tomuto obrázku, který byl vytvořen promptem: Ku Klux Klan celebrating Gay Pride.

Jde o ten Ku Klux Klan. Obrázek s tímto klíčovým slovem určitě nevygenerujete v DALL•E nebo Midjourney. Stejně jako spousty dalších slov je zakázané (ve službách DALL•E Mini nebo Wombo Art, které nejsou tak striktní, s některými pracovat lze). Podobně se zachoval i Clip. Místo Ku Klux Klanu tam ale vidím „hatred“. Dal mi tento prompt:
a group of people in white holding a rainbow flag, a colorized photo, pointy mask, outlast, banner, blanco y negro, gay, post — apokalyptic, artforum, robes, crips, coloured photo, hatred, photoshopped, southern gothic, celebrating, synched, hanging.

Budoucnost generování syntetických médií

Projekťáci, ejčáristi… promťáci. Tím, jak se tyto programy stávají sofistikovanějšími, práce s nimi bude pravděpodobně brzy samostatným řemeslem. A to do té míry, že už začaly vznikat například platformy, které prodávají prompty.

Zde si můžete přečíst rozhovor s člověkem, který se do toho pustil. Například zde za $2.99 nabízí prompt, který generuje v DALL•E hezké město na bloku. Vtip je v tom, že pokaždé, když zadáte prompt, vygeneruje se něco jiného. Promt je v tomto případě tedy jakousi zárukou kvality generovaného obsahu.

Tito lidé, které z legrace nazývám prompťáky, pracují více než na sestavení několika chytrých slov. Jejich úkolem je zprostředkovat nejen zamýšlenou estetiku, ale také požadované prvky ve scéně v určitém rozložení, spolu s proměnnými, které upravují parametry scény (např. poměr stran atd…). Spojují v sobě vizuálního umělce, spisovatele i programátora.

Komu ty obrazy vlastně patří?

Médiabanka Shutterstock v roce 2021 prodala společnosti OpenAI vizuální obsah a metadata za účelem natrénování modelů DALL•E. Obrazy, které tedy nyní DALL•E generuje, vycházejí také z obsahu fotobanky, která se ještě donedávna stavěla odmítavě k jejich prodeji. Shutterstock pracuje na implementaci DALL•E přímo na své stránky, kde si budou moci uživatelé generovat obrazy a zavádí tzv. příspěvkový fond, ze kterého bude platit tvůrce, jejichž obsah k trénování modelů v budoucnu prodá. Komunita tvůrců, z jejichž dat byl DALL•E natrénován, se tedy oprávněně bouří. Relevantní příspěvky k tématu etického zacházení s daty si lze poslechnout v záznamech konference World Ethical Data Forum.

Je třeba si uvědomit, že tyto služby poskytují soukromé společnosti a licenční ujednání se tím pádem liší.

Obrazy, který jako platící zákazník vygenerujete v Midjourney, patří vám jako tvůrci. Můžete je dokonce prodávat. Zároveň ale dáváte MJ souhlas k tomu, aby s nimi mohla svobodně nakládat. A ostatní uživatelé je mohou dle libosti remixovat.
Stejně to má i DALL•E — obrazy vygenerované v této službě vlastníte vy, můžete je tisknout, prodávat, či jinak komerčně využívat — řeklo by se v obecné rovině. Ale každá země se k tomu staví jinak. V ČR toto platí jen pro fyzické osoby.
Wombo se zdá být striktní. Všechen vygenerovaný obsah je jejich.

A kreativitu máte? A mohla bych ji vidět?

Za poslední měsíce jsme byli svědky obrovských pokroků v generování syntetických médií. Pravděpodobně většina z nás hledá, jaký postoj zaujmout. Pokud to někoho neurazí, ráda bych v krátkosti popsala svůj pohled. Z velké části mě živí design (ale také třeba fotka, digitální kreslení, grafika…). Jsem tedy — lidově řečeno — „první na porážku“? Já si tak nepřijdu. Tuto technologii jsem hned zavedla do praxe. Slouží mi k prototypování, zkoušení si myšlenek. Jako jsem dřív „googlila“, tak nyní generuji. Někdy beru fragmenty vygenerovaných obrazů a dokresluji je ve Photoshopu. Vytvářím si v Midjourney struktury, vzory, generuji chybějící části fotek nebo obrázků. Je to pro mě velká pomoc, stejně jako v minulosti začal být Photoshop nebo jiné grafické editory. Nebo třeba fotoaparát. Každá technologie s sebou nese větší či menší změny, upravuje podmínky našeho fungování.

Žijeme v době, ve které vizualita hraje obrovskou roli. Vnímat obrazy je snadné, valí se ze všech stran. Díky generátorům může doslova každý efektivněji vizuálně komunikovat. Ale to nese samozřejmě velká rizika — například ve formě fake news. Pojďme dětem ukazovat ty dobré stránky technologií a varovat je před těmi špatnými.

V AI dětem pracujeme na koncepci komplexní debaty na toto téma ve školách. Máte-li k tématu co říci, rádi si Váš názor vyslechneme v naší FB skupině.

Pokud Vás téma generátorů zajímá, v DVTV o tom hezky mluví Honza Tyl.