Kreativita a AI při práci s obrazem a dalšími objekty

Bez popisku

V umělecké soutěži v Coloradu získal v roce 2022 první místo obraz Jasona Allena nazvaný Théâtre d'Opéra Spatial. Tato skutečnost vyvolala do značné míry pobouření a pozdvižení ve světě umění a estetiky. Obraz soutěžil v kategorii digitální umění, takže se nějaká jeho počítačová životní dráha očekávala. Ovšem místo aby obraz Allen kreslil v Illustrator či Krita, užil Midjourney v kombinaci s Gigapixel-ai, což je nástroj, který umožňuje až šestinásobně zvýšit rozlišení obrazu.

Je takový obraz uměním? Představuje něco, co je skutečně kreativní? Abychom mohli na tyto otázky odpovědět, potřebujeme napřed odhlédnout od výsledku a zaměřit se na proces tvorby. Jak Allen postupoval? Mediální zkratka by mohla naznačovat, že do Midjourney vložil určitý požadavek, získal obrázek, který zvětšil a poslal do soutěže a za deset minut měl hotovo. Podobnou diskusi zaznamenala Masarykova univerzita při představení nového vizuálního stylu – vypadá jako něco, co lze zvládnout za pět minut.

Ve skutečnosti Allen postupoval tak, že velice pečlivě zjemňoval a zpřesňoval dotaz (prompt), který do systému vkládal a výslednou podobu díla systematicky upravoval. Tvorba obrazu se tak nápadně podobala sochařství, ve kterém socha vzniká postupným odštipováním vrstviček kamene nebo drobnými údery kladiva do kujného materiálu. Jen zde pracujeme s digitálním objektem, jehož zásadní výhoda spočívá v tom, že se můžeme vracet a vstupy postupně upravovat a měnit.

Mohli bychom namítnout, že AI tvoří něco nového, nad čím nemá autor kontrolu. Na druhou stranu u dřeva nebo třeba konceptuálního umění je kontrola autora také omezená a třeba v divadle zahrají herci každé představení jinak, což nijak nesnižuje kvalitu předlohy nebo práce režiséra. Pokud přemýšlíme nad tím, zda je Théâtre d'Opéra Spatial uměleckým dílem, tak v prvé řadě musíme do odpovědi zahrnout proces tvorby objektu. Právě proces je z hlediska uměleckého soudu pravděpodobně nejdůležitějším parametrem, který vstupuje do hry.

Bez popisku

Druhý náhled na to, čím se odlišuje umění a banálnost nabízí ve své eseji Věk obrazu světa Martin Heidegger. Ten tvrdí, že obraz jako umění je nástrojem, který nám umožňuje zahlédnout něco v nás samotných. U obrazu nejde o to, co zobrazuje sám o sobě (jako objekt, etymologicky vržený před sebe), ale co umožňuje poznat tomu, kdo se na něj dívá. V tomto kontextu s obrazem pracujeme s kreativními nástroji obvykle. Nejde nám o kvalitu nebo rukodělnou stránku, ale chápeme obraz většinou jako signum, jako určitý nástroj umožňující provazovat toho, kdo s ním pracuje, s tím, co obsahuje někde za sebou. Obraz jablka a pojem jablka jsou dvě odlišné věci.

Třetí pohled, poněkud kritický, soustřeďující se na většinovou produkci obrazů z nástrojů jako je Midjourney či Dalle-2, je spojen s odborníky na estetiku. Tím, kdo a s jakým vkusem tvoří tyto objekty, determinuje také kvalitu výstupů, ale i design jednotlivých nástrojů. Jinými slovy, lidé bez vkusu a estetického vzdělání (ne nutně formálního) budou pravděpodobně preferovat obrazy, které budou mít blízko k neoromantismu nebo dalším historizujícím formám často jen vnější nápodobou, případně k sorela (socialistický realismus) a jeho modernějším variantám. Umělecká kvalita v nich tak nebude žádná. Empirický či statistický pohled na produkci jednotlivých vizuálních artefaktů generovaných umělou inteligencí tento pohled jednoznačně potvrzuje. Dost možná (jak zdůrazňuje Václav Maněna), produkce obrazů z AI nástrojů bude za pár let vnímaná jako WordArt, které v 90. letech byly považovány za estetické a vkusné a dnes, je neocení nikdo (podobně jako blikající a weby s gyfy ze stejného období).

Na druhou stranu je třeba mít na paměti dvě věci – objekty tohoto druhu můžeme posuzovat stejně složitě jako haiku na začátku našich úvah – nemá smyl je hodnotit bez kontextu a souvislostí. Současně musíme mít na paměti, že ne vždy potřebujeme vytvářet umění a že pro kreativní aktivity často mohou sloužit i podstatně jednodušší nebo banálnější objekty.

Banalita jako opak kreativity, není záležitostí absolutní, ale kontextuální, ukazuje se tam, kde souvislosti nejdu do hloubky, kde je vidět dokonalá očekávanost, průměrnost, nezajímavost, byť třeba poctivě odpracovaná.

Bez popisku

DALL·E 2 – nástroj od OpenAI vytvářející obrázky na základě textového vstupu. Šlo o jeden z prvních modelů, které umožňovaly skutečně robustně generovat obrázky. Ty je možné tvořit buď zcela na základě textového vstupu jako variaci z již vytvořeného objektu nebo jeho úpravou (generováním části obrazu). Výhodou je (omezená) bezplatná verze a jednoduché ovládání.

Midjourney – je asi nejznámějším a nejlepším nástrojem na tvorbu grafických objektů. V aktuální verzi dokáže pracovat relativně vyváženě s realistickými a graficky více „počítačovými“ objekty. Popisky mohou být stručné i velice pečlivé a na jejich základě Midjourney generuje výsledný obrázek. Určitou nevýhodu je cena a především to, že je třeba ho ovládat přes Discort. Naopak oproti Dalle-2 je vhodný na generování komiksů nebo tvorbu grafických prvků v jednotném vizuálním stylu.

Stable Diffusion - je zdarma a dostupný jako open source, v čemž je unikátní. Uživatel si ho případně může stáhnout a pracovat s ním sám na svém počítači nebo užít online verzi. Výsledky jsou vizuálně slabší než u Midjourney, ale z naší zkušenosti kvalitnější než u Dalle-2. Princip fungování je podobný jako u ostatních nástrojů – čím podrobnější je vstup a čím více je tréninkových dat, tím lepší výsledky systém vytváří.

Další objekty

V této části se pokusíme zaměřit nejen na tvorbu grafických prvků, ale i dalších digitálních artefaktů, které lze prostřednictvím umělé inteligence vytvářet. Specificky se lze setkat s nástroji na tvorbu prezentací nebo videí. Každé médium nebo druh objektů s sebou přináší jiné aspekty kreativní spolupráce mezi člověkem a technikou, které bychom rádi naznačili. Našim cílem nebude jen ukázat některé vybrané nástroje, ale spíše strukturovaně přemýšlet o tom, jakým způsobem do procesu kreativity umělá inteligence vstupuje.

U tvorby videa můžeme uvést dva příklady nástrojů, se kterými je možné pracovat:

Bez popisku

Synthesia.io – umožňuje tvořit videa tak, že si uživatel vybere avatara (herce) a jazyk, a systém na základě textového vstupu vytvoří video. Do videa lze vkládat další prvky a pracovat s jednotlivými scénami (střihy), což může přispět k celkové interaktivitě výstupu. Cílem celé aplikace je tedy nahradit herce – pracujeme s myšlenkou, že autor je schopen vytvořit scénář, a proto, aby ho dokázal komunikovat s veřejností, ho nechá namluvit umělou inteligencí. Do jisté míry se nacházíme v situaci, kdy umělá inteligence provádí převod jednoho média na druhé, ale vlastně mu mnoho nepřidává. Částečně tak můžeme vzpomenout na to, že v jednom dialogu měl Milan Kundera říci, že do divadla nechodí, protože divadelní hry jsou literární díla, která jsou nejkrásnější v psané podobě.

Pictory.ai – slouží pro tvorbu krátkého videoobsahu z textového (třeba dlouhého) zdroje, jak uvádí popisek aplikace. Proces tvorby videa je rozdělen do několika kroků – aplikace z předloženého dokumentu vytvoří shrnutí (je možné ho upravit) a z nich poté vlastní video, včetně obrázků nebo hudby. Výstup může být vzdělávací obsah i upoutávka na sociální sítě. Pracuje se s typickou TikTok formou, kdy vlastní sdělení je ve formě textu nebo titulků ve videu. Oproti Synthesia je zde výrazně vyšší míra invence umělé inteligence (tvorbu sumarizace, hledání vhodné mediální formy), na druhou stranu kvalita výstupu v rovině umění není také úplně uspokojivá. Zajímavé je, že tato forma může posloužit pro práci určitého obsahu, ale i jako vstup do kreativního procesu, ve kterém se autor může na svá sdělení podívat v jiném médiu, kondenzovaně a ze zcela odlišné perspektivy.

Druhou skupinou nástrojů jsou ty, které umožňují tvořit prezentace. V akademickém prostředí, do kterého míříme myšlenkově především, jsou prezentace v současné době silným komunikačním prostředím. Jakkoli Anna Hogenová říká, že filosofie není kino, tak tvořit přednášky nebo firemní presentace bez vizuálního podkladu (ať už jakéhokoli) je pro posluchače či diváky náročné. Opět bychom spíše typologicky zmínili dva nástroje, které pomocí umělé inteligence tvoří prezentace způsobem, který pro kreativitu a myšlení obecně lze považovat za užitečný.

Slidesai – funguje tak, že uživatel do aplikace nahraje textový vstup (typicky článek k prezentaci) a systém vytvoří z textu jednotlivé slidy s nadpisy nebo vygenerovanými obrázky. Tak jako v předchozích případech i zde očekáváme, že uživatel má základní materiál hotový, rozumí tématu a potřebuje jen vytvořit prezentaci. Využití AI zde může přinést tři významné benefity – úsporu času (což je asi pro většinu lidí klíčové), vytvoření jiné podoby prezentace než obvykle (to je pro přemýšlení a přednášení o tématu zásadní) a za třetí umožňuje téma poskládat a interpretovat jinak, než jak mu rozumí text. AI v tomto ohledu může být překvapivě kreativní a podklady pro přednášku mohou u některých témat pomoci nabídnout hlubší či odlišnou konceptualizaci.

Bez popisku

Gamma App – umožňuje tvořit prezentace na základě zadaného tématu, typicky ne zcela obsáhlého. Systém vytvoří první verzi dokumentu a uživatel pak pomocí chatu postupně upravuje jednotlivé oblasti prezentace – od šablon, přes vizualizaci informací, až po jejich obsah. Tato aplikace je zajímavá mimo jiné tím, že nejen že sama tvoří celou prezentaci, ale snaží se s lidským autorem o výstupech a jednotlivých krocích hovořit. Na konkrétních místech se pomocí chatbotového rozhraní ptá, zda by mělo přibýt více podrobností, zda je obrázek v pořádku nebo třeba sdělení se nemají transformovat do jiné podoby. Vychází z myšlenky, že Gamma App sice tvoří prezentaci za uživatele, avšak uživatelovými vstupy a zásahy vzniká produkt značně odlišný od prvotního „automatického“ návrhu. Jde tak o prezentaci od uživatele, jen tvořenou zcela jiným způsobem, než na jaký jsme zvyklí. Mimo prezentace umí tvořit i weby nebo dokumenty.

K čemu to využít?

U některých nástrojů jsme již využití naznačovali, ale přesto se pokusíme nabídnout několik bodů k uvažování nad tím, k čemu se tyto nástroje ve vztahu ke kreativitě a práci s informacemi hodí:

Nemusíte používat ilustrace z fotobank – jedna z klíčových věcí, které trápí české vizuální prostředí je práce s fotobankami, které nabízí stále dokola stejné obrázky. Odlišení se nemá jen vizuální, ale především myšlenkový důvod.
Vytvářejte ilustrace věcí, které se do fotobank nevejdou – typicky na informační interakce nebo imunitní systém včel žádné obrázky nenajdeme a musíme si je nechat vygenerovat.
Držte jednotný vizuální styl – práce s nástroji na generování obsahu umožňuje pracovat s jednotným vizuálním stylem, který se stane pro vaše výstupy typický. Jde o důležitý prvek profesionality.
Získejte jiný pohled na problém – nechte si nakreslit obrázek, vytvořit prezentaci nebo cokoli jiného. Změna média nemusí být přínosná jen pro konzumenty obsahu, ale především pro autora samotného, který může nad určitými problémy uvažovat v širší perspektivě.
Diskutujte – nástroje umožňují změnu média, které umožňuje snazší komunikaci výsledků.
Buďte originální – nástroje umožňují snadno překračovat limity vlastní představivosti a pracovat s výstupy nečekaným způsobem.

Bez popisku