Midjourney to sztuczna inteligencja do generowania grafik. Skoro w jej czwartej wersji tak bardzo ulepszono postacie, a szczególnie twarze, to postanowiłem napisać artykuł skupiający się na fotorealistycznie wyglądających osobach i generalnie na fotorealiźmie w Midjourney. Natomiast jak wycisnąć max możliwości z tego A.I; jak pisać prompty, żeby mieć na nich dokładnie to co chcemy, w jaki sposób określać oświetlenie i jak w ogóle zacząć od zera, opisywałem w poradniku, który jest swoistym wstępem do dzisiejszego tematu. Także tutaj skupiam się na przykładach, bo większość kwestii już wcześniej wyjaśniłem.
Spis treści
- Wstęp
- Prompty dające fotorealistyczne rezultaty
- Fotorealistyczne postacie
- Style fotorealistycznych postaci
- Fotografowie
- Reżyserzy i operatorzy filmowi
- Malarze
- Modelki faktycznie wyglądają jak modelki
- Nie tylko piękne obrazki
- Podsumowanie
Newsletter – nadchodzą nowości
Szykuję artykuł o upscalowaniu grafik z A.I; o używaniu Midjourney do modyfikowania swoich fotografii i kilka innych tematów. Zostaw poniżej maila i dam ci o tym znać:
Prompty dające fotorealistyczne rezultaty
Normalnie bardzo dużo wygenerowanych grafik będzie wyglądać jak malunek – czasami w całości, a kiedy indziej jak fotografia z elementami dorysowanymi. Słowo „photorealistic” i dodatkowo „photo” w tym samym prompcie, to u mnie niemal nieodłączny element każdej grafiki, która chcę, by wyglądała jak zdjęcie, render lub klatka z filmu. Wstawiam to w różnych formach: samo „photo„, lub np. „commercial photo„, „stock photo„, „editorial photo” itd. Mogą to być też inne wyrazy sugerujące, że chodzi o realistyczny wynik.
Zauważyłem, że jeśli mam „photorealistic”, ale nie dodam „photo”, to częściej zdarza mi się, że np. postać ma rzeczywiste proporcje, ale styl niekoniecznie jest realistyczny, tylko wciąż rysunkowy. Właśnie dlatego bardzo często używam obu wyrazów, w tym samym prompcie.
W przypadku postaci, zazwyczaj większość będzie przypominać render lub fotografię po mocnym reatuszu, niczym w zdjęciach reklamowych. Najbardziej to widać w męskich twarzach. Dlatego trzeba wygenerować więcej grafik i z nich wybrać te najlepsze, natomiast standardowo będzie to na granicy fotografii i grafiki:
Później temat lepszego fotoralizmu rozwinę, ale oczywiście nie trzeba się ograniczać do ludzi. Można zrobić np. wiewiórkę w stroju maga, która zamiast stylizowanej grafiki, będzie chociaż trochę przypominać fotografię lub realistyczny render.
Offtopic o stockch: Robiąc takie grafiki, tym bardziej trzymam się tezy, jaką wysnułem w artykule o DALL-E 2: że fotografowie stockowi to gatunek na wymarciu. Aczkolwiek teraz mam wrażenie, że nastąpi to jeszcze dużo szybciej, niż mi się wydawało, a niektóre stocki już mają regulaminy dostosowane pod przyjmowanie grafik z A.I.
Zamiast „photorealistic” można użyć nazwy silnika renderującego 3D, np. „Unreal engine„, „Octane engine„, „V-ray engine” lub „V-ray render” itd. Aczkolwiek zauważyłem, że słowo „engine” potrafi być wzięte czasem zbyt dosłownie, więc teraz użyłbym „Unreal render” itd.
Natomiast mimo, że np. silnik renderujący Arnold, liczy promienie światła ekstremalnie dokładnie, nie idąc na skróty (jest to tzw. silnik unbiased), a więc kosztem czasu renderowania, potrafi być dużo dokładniejszy i dać bardziej realistyczne rezultaty np. od Cycles, Octane Unreal engine itd; to nie znaczy, że w Midjourney da nam grafikę bliższą fotografii, jeśli zasugeruję mu Arnolda zamiast Unreala. Jest to traktowane po prostu jako wskazówka, że chcemy coś realistycznego, zamiast stylizowanego. To że te silniki są w stanie generować także stylizowane grafiki, też wydaje się nie mieć tutaj znaczenia i dla Midjourney te nazwy, to jednak stricte realizm, zamiast stylizacji.
Fotorealistyczne postacie
Zacznę od używania przez dłuższy czas jednej komendy, co jakiś czas wprowadzając do niej drobną zmianę, by pokazać jakie ma przełożenie na wygenerowaną grafikę. Niech jej częścią będzie Fashion Haute Couture, to przy okazji zobaczymy, jak kreatywne potrafi być Midjourney, dla tak odjechanych stylizacji.
Kiedyś twarze były totalnie zdeformowane, ale jak widać na moich grafikach, Midjourney w wersji v4 generuje portrety zgodnie z anatomią. Zamieszczam tutaj tylko wybrane przykłady, ale stworzyłem ich wielokrotnie więcej i zbliżenia na twarz mnie nigdy nie zawiodły, chyba że usta są otwarte, to czasami jest gorzej, ale o tym później. Poza tym okazjonalnie na policzkach potrafią pojawić się czasem dziwne „narośle”, ale na ogół jest okay, lub są tam tylko piegi.
Natomiast nie bez powodu zaznaczyłem, że jest tak dobrze w portretach. Jak już zwróciłem uwagę w pierwszym artykule o Midjourney, przy szerszych kadrach czasem jest dobrze, ale najczęściej widać spore deformacje twarzy lub ogólnie ciała (w DALL-E 2 również jest to nagminne).
W Midjourney gdy nie definiuję rasy ani karnacji, to dostaję głównie białe postacie, natomiast zależy to od komendy – w przypadku edytoriali Haute Couture tak właśnie miałem, ale w wielu innych promptach zróżnicowanie było większe. Natomiast rasę i tak zawsze można doprecyzować.
Chociaż jestem pod wrażeniem stylizacji, to łatwo zauważyć, że mimo bardzo ogólnego prompta, powtarzanego w tylko delikatnie zmienionej formie, wszystkie „zdjęcia” wyglądają jak zrobione na tej samej sesji. Setupów oświetleniowych jest zaledwie kilka, kadry niemal identyczne, chociaż wcale nie prosiłem o portretowe itd. Fotografowie robią takie zdjęcia na znacznie więcej sposobów, więc zaskakujące jest jak mało „kreatywnie” spisuje się Midjourney. Niestety taki urok tego AI i jednocześnie ogromna ułomność względem DALL-E 2, czyli dużo mniejsza „pomysłowość”. Trzeba więc nieco rozszerzyć polecenie, ale najpierw sprawdźmy jak sobie radzi z ciemniejszą skórą.
Dopisując kolejne frazy do komendy, wyniki robią się bardziej różnorodne.
Style fotorealistycznych postaci (i nie tylko)
Fotografowie
Najprościej otrzymać przewidywalny rezultat, w konkretnym stylu, po prostu go definiując konkretnym fotografem. Cały czas mam edytorial Haute Couture, żeby obserwować co daje samo dodanie nazwiska:
Natychmiast widać, że po poproszeniu o styl Mario Testino, generowane są zupełnie inne „zdjęcia” beauty. Światło staje się dużo bardziej kontrastowe (a więc zdecydowanie mocniej przypomina to, które sam lubię stosować na swoich zdjęciach), natomiast kolory nabierają życia.
Profilaktycznie wciąż dodaję słowa odpowiedzialne za bardziej fotorealistyczne rezultaty, ale właściwie to zbędne, bo Mario Testino zajmował się stricte fotografią, więc Midjourney i bez tych słów będzie wiedzieć, jak grafiki mają wyglądać:
Ponownie wszystko będzie zbliżone wyglądem, do póki nie zmodyfikuję komendy, jednak alternatywą jest urozmaicenie parametrem –chaos. Ja ustawiłem go na 100, ale to powoduje dużo grafik przesadnie odbiegających od stylu artysty, więc znacznie mniejsza liczba, będzie bardziej odpowiednia.
Nie będę tutaj więcej korzystał z chaosu, bo jednak po to wpisuję czyjeś nazwisko, żeby uzyskać ten konkretny styl, a nie starać się od niego odbiegać. Zobaczmy więc, co wyjdzie z nazwiskiem mistrza mody pełnej pastelowego koloru i dynamiczno-statycznych ujęć, Nicka Knighta:
Myślę, że świetnie została oddana jego stylistyka. Dawno nie przeglądałem jego prac i jakby mi powiedzieć, że to jego ostatnie sesje, to do głowy by mi nie przyszło, żeby tę informację podważyć. Nawet widać jego zamiłowanie do szerszych ujęć, bo Midjournety nagle przestało generować same ujęcia portretowe:
Natomiast w stylu Stephena Meissela od razu rzucają się w oczy rysy twarzy, na jakie nie natrafiałem przed sprecyzowaniem fotografa, a także zupełnie inny grading kolorów:
Sprawdźmy też coś znanego najpewniej nawet osobom zupełnie spoza bańki fotograficznej – styl Helmuta Newtona:
Style reżyserów i operatorów filmowych
Charakterystyczni reżyserzy filmowi, jako autorów sesji zdjęciowych też się sprawdzają, o ile polecenie wciąż pozostaje doprecyzowane:
Kurczowo trzymam się tego samego prompta, by wprowadzić jak najmniej zmiennych i faktycznie pokazać zmianę wyłącznie w stylu „zdjęć”, w przeciwnym wypadku wynik byłby na przykład taki:
Lub jeszcze ogólniej:
Burton nie rozczarował, ale ponownie przy ogólnej komendzie widać jak monotonne wyniki wychodzą. Po pierwszych kilkunastu jakie wygenerowałem, miałem słuszne wrażenie, że nic mnie już nie zaskoczy. Większość to różne wariacje nt. Edwarda Nożycorękiego. Nie dotyczy to tylko fotorealistycznych grafik, robiłem testy najróżniejszych styli.
Guillermo del Toro to już nieco mniej przewidywalny efekt finalny, niż Burton:
Natomiast Woody Allen daje dużo wyników z osobami, wyglądającymi retro:
Przy Michaelu Bayu miałem nadzieję na eksplozje w tle, dym i latające wokoło pociski, ale wynik był bardzo generyczny.
Wpisanie operatora znanego z konkretnej stylistyki ujęć, też miało realny wpływ na wyniki. Oto Roger Dteakins:
Mandy Walker to głównie jasne i ciepłe „zdjęcia”:
Najbardziej da się zauważyć specyficzny color grading i ekspozycję – Mandy Walker to przede wszystkim ciepłe oraz jasne kadry. Bardzo dużo grafik z Midjourney wyszło właśnie takich.
Malarze
Van Gogh to bardzo „malowniczy” ubiór i powtarzający się motyw kwiatów:
Salvador Dali jest bardzo nowoczesny, z odcieniami żółtego/złotego na większości grafik:
Leonardo Da Vinci ma znaczący wpływ nie tylko na stylizacje, ale i na rysy twarzy postaci:
Pablo Picasso to abstrakcyjne kształty i ciekawy miks kolorystyczny:
Andy Warhol był dość wszechstronny i nie sposób go zaszufladkować jako malarza, ale styl miał zdecydowanie unikatowy i bardzo dobrze zostało to odzwierciedlone:
Jackson Pollock mnie absolutnie zachwycił. Uwielbiam taki sposób świecenia, jak oraz pozowania i ciekawe jest, że przy jego nazwisku konkretnie taki setup oświetleniowy jest powtarzany:
Modelki faktycznie wyglądają jak modelki
Jak widać po komendach, poleciłem wykonanie fotorealistycznego edytorialu, z modelką fashion i efekt chociaż do znudzenia powtarzalny, to jednak zgodny z opisem. Może poza wiekiem postaci – ten tak jak w DALL-E 2, jest traktowany bardzo luźno, aczkolwiek mamy dowody na to, że postrzeganie wieku jest mocno zależne od stylizacji, więc są duże szanse, że Midjourney dopasowało wiek znacznie lepiej, niż mi się wydaje.
Co więcej, osoby na wygenerowanych pracach, bazujących na stylach fotografów, faktycznie wyglądają jak modelki.
Jest to o tyle ciekawe, że „normalni ludzie” nie mają pojęcia jakie cechy są wymagane do tego zawodu i mówią o najróżniejszych dziewczynach, że „wyglądają jak modelki”, gdy po prostu uważają je za ładne, nawet jeśli każdy zawodowy fotograf natychmiast widzi, że w modelingu nie miałyby czego szukać. Mimo to Midjourney wykonało polecenie prawidłowo.
Jednak w strojach Haute Couture „normalnych” ludzi się nigdy nie zobaczy, więc siłą rzeczy, podczas nauki, Midjourney niemal zawsze widziało w takich strojach właśnie zawodowe modelki modowe. Zobaczmy więc, jak to A.I. wyobraża sobie modelki, gdy nie ma w poleceniu żadnego dodatkowego kontekstu…
Tutaj co do modelingowych predyspozycji sprawa już nie jest taka oczywista, ale wciąż generuje niemal tylko kobiety.
Na wstępie wspomniałem, że „foto-realistyczność” postaci z Midjourney jest mocno dyskusyjna i DALL-E jest pod tym względem dużo doskonalsze. Kobiece postacie przypominają zdjęcia mniej lub bardziej, natomiast mężczyźni przy podobnych komendach, są niczym portrety wyciągnięte ze starych, dwu-wymiarowych gier RPG:
Wcześniejsze komendy w Haute Couture dawały lepsze rezultaty:
Jako obsada filmu o rodzie wampirów, takie wyniki byłyby wspaniałe. Jako fotorealistyczne zdjęcia Haute Couture też źle nie jest, chociaż ewidentnie widać, że w tych promptach Midjourney ma u mężczyzn fetysz niebieskich oczu. Tutaj też lepiej by się sprawdziło dodanie konkretnego fotografa, by otrzymać inne wyniki.
Po tych wszystkich grafikach pewnie każdy już zwrócił uwagę na włosy. To one najbardziej nie pasują. Nawet jeśli wszystko wygląda realistycznie, to fryzura jest jak spod pędzla, a nie obiektywu. Zdarzają się wyjątki, ale nieliczne:
Bardzo dużo z pokazanych przeze mnie portretów, miało nakrycia głowy. Często po prostu te ujęcia wybieram, właśnie z racji tego, że pozostałe zaproponowane przez Midjourney, mają fryzurę zbyt rysunkową, więc lepiej gdy tego aż tak nie widać.
Photorealistic 20yo beautiful slim nun red lips
Nie tylko piękne obrazki
Warto pamiętać o radach jakie dawałem w poradniku do Midjourney v4, m.in. o tym jak definiować styl zdjęć, ważność poszczególnych elementów prompta itd. W poradniku opisywałem też najczęstsze problemy, definiowanie oświetlenie i wiele innych kwestii.
Podsumowanie
Fotorealizm postaci w Midjourney obecnie nie do końca istnieje. Grafiki potrafią przypominać zdjęcia, ale takie z profesjonalnych sesji zdjęciowych, po mocnym retuszu, a nie przypadkowe pstryki, nieskalane obróbką. Takie detale na skórze jakie wychodzą w DALL-E 2, są w Midjourney niespotykane. Natomiast jeśli używa się słów jak render, photorealistic, photo itp. oraz wskazuje się np. fotografa, którego styl ma być odtworzony, to szanse na dobre, fotorealistyczne rezultaty drastycznie rosną. Wciąż wiele wyników odpadnie, ale da się znaleźć te wyjątkowe.
PS. Prompt do zdjęcia, które jest okładką tego artykułu, to „Photorealistic handsom vampire female after a feast cinematic”.
Newsletter – nadchodzą nowości
Szykuję artykuł o upscalowaniu grafik z A.I; o używaniu Midjourney do modyfikowania swoich fotografii i kilka innych tematów. Zostaw poniżej maila i dam ci o tym znać: