StableDiffusion AI

Około 2 miesiące temu natknąłem się na dall-e mini / craiyon… AI generujące obrazki na podstawie tekstowej podpowiedzi. Taka zabaweczka – wpisujesz tekst, czekasz minutkę i wyskakuje coś, co teoretycznie jest odzwierciedleniem tekstu. W rzeczywistości bardziej przypomina efekty nauki plastyki w szkole podstawowej prowadzone przez Picasso. Innymi słowy ciężko coś zadowalającego wygenerować…

Około miesiąc temu natknąłem się na MidJourney i szczęka mi opadła poniżej poziomu podłogi. Mechanizm ten sam – wpisuje się tekst, ewentualnie parametry i czeka na obrazki. Ale ten mechanizm generuje fantastyczne, artystyczne obrazy o wysokim stopniu szczegółowości, oszałamiających kolorach, zaskakująco wierne wpisanemu tekstowi a jednocześnie w kompletnie różnych wariacjach. Ten serwis to rewolucja graficzna! Tzw. sztuczna inteligencja trenowana na milionach istniejących obrazów (dzięki tym wszystkim wspaniałym artystom i fotografom!) wypluwa cyfrowe kompilacje o jakich nikomu się dotąd nie śniło. Jednak MidJourney ma też pewne wady i ograniczenia, w tym najważniejsze dwie powiązane ze sobą: wszystkie generowane obrazy są publiczne oraz cenzura możliwych do użycia słów, która postępuje w dużym tempie. Zatem podziwiam sobie obrazki wygenerowane dzięki MidJourney, ale jakoś samemu nie skorzystałem tutaj z możliwości zabawy.

Chwilkę później w internetach pojawiło się StableDiffusion… Otwarty AI przeznaczony również do generowania obrazów, darmowy, generalnie nie ograniczony. I zaraz potem – dzięki wspaniałym programistom – pojawiły się graficzne interfejsy użytkownika możliwe do instalacji lokalnie na swoim komputerze. Początkowo ograniczone poprzez wymaganie minimum 8GB karty graficznej NVidia, ale z czasem zaczęły pojawiać się wersje zoptymalizowane do mniejszego zużycia pamięci oraz nie wymagające GPU. Ja uruchomiłem lokalnie oprogramowanie utworzone przez GRisk (https://grisk.itch.io/) – prosty interfejs umożliwiający wpisanie tekstu, ustalenie kilku parametrów i generowanie grafik bez ograniczeń.

I tak od tego czasu bawię się tym ustrojstwem. I taką zabawę polecam każdemu, szczególnie jeśli posiada zacięcie artystyczne. Generowane grafiki utworzone są na podstawie nauki od wielu różnych artystów, fotografów itp., więc tak utworzone są – możnaby powiedzieć – dziełem ludzkości, a wpisujący tekst staje się jakby czarodziejem, odkrywcą wariacji wyobraźni. Do tego dochodzą dodatkowe elementy wspomagające pracę z obrazkami: GFPGAN do poprawy twarzy oraz RealESRGAN do zwiększania rozdzielczości obrazków – niektóre GUI umożliwiają korzystanie z tych rozszerzeń poprzez funkcje wbudowane. I na koniec – pojawiają się również wtyczki do popularnych programów graficznych, jak Krita czy Photoshop, integrując możliwości generowania i regenerowania obrazów bezpośrednio na wirtualnym płótnie, co umożliwia tworzenie większych kompozycji oraz dorysowywanie brakujących elementów.