Stable Diffusion был выпущен компанией Stability AI в августе 2022 года и сразу же приобрел популярность. Для него создано множество плагинов, оболочек, надстроек, генераторов промптов и дополнительных моделей. Чёрт ногу сломит во всём этом многообразии — будем идти по прядку. Начнём с железа.
Требования к оборудованию
Stable Diffusion может работать даже на домашних ПК, оснащенных видеокартой с 2 ГБ видеопамяти. Генерация на таком компьютере будет долгой, лучше вовсе не использовать настолько слабые видеокарты и рассмотреть аренду онлайн видеокарты, к этому мы ещё вернёмся чуть позже. 6 гигабайт видеопамяти уже приемлемо, но всё ещё мало. Для быстрой и эффективной работы рекомендуется видеокарта с 16 ГБ памяти от NVIDIA, это касается не только стейбла, а вообще любых нейронок. Хотите покупать новую видеокарту — берите Nvidia — не ошибетесь. Использование видеокарт других производителей потребует дополнительной настройки.
«У меня лапки, я просто хочу делать картинки и ничего не смыслю в видеокартах». Окей, вот простая инструкция. Просто запустите диспетчер задач и откройте вкладку «производительность».
Альтернативные способы использования
Есть упрощенные способы использовать SD в виде ботов, сайтов, и приложений. Они не требуют установки, но и возможностей там гораздо-гораздо меньше. Например https://www.mage.space/ или https://playground.ai/
Принцип работы
Чекпоинт Stable Diffusion не содержит картинок — это не библиотека и не база знаний. А генерация картинки — не тоже самое что поиск картинки в гугл. Stable Diffusion не создает коллажи из фотографий. SD скорее является подобием глины: как в куске глине нет отдельных рук, ног и голов, так и в Stable Diffusion нет каких-то конкретных частей, но есть потенциальная возможность обрести форму. Конечный результат зависит от мастерства промпт-инженера. От его навыков написания промпта.
Когда я говорю о Stable Diffusion, то имею ввиду триединую систему, состоящую из: языковой модели, диффузионной модели и декодера. В простонародье всё это зовется просто чекпоинтом Stable Diffusion. Да и пофиг как он там устроен, мы рассматриваем стейбл как пользователи и не будем слишком глубоко погружаться в тонкости, но кое-что на курсе я всё же расскажу. Знание базы сделает нас могущественными промпт-шаманами!
Авторские права
Вопрос авторских прав на изображения, сгенерированные с помощью нейронок, остается спорным. В некоторых случаях создатели таких работ могут претендовать на авторские права для коммерческого использования. Однако юридическая практика в этой области еще не устоялась, и иногда суды отказываются признавать авторство за создателями промптов (промпт-инженерами).
Я провёл опрос среди подписчиков своего канала. 61% людей не поддержало авторское право на промпт. «За» высказалось 20% опрошенных респондентов.
Одна из распространенных точек зрения заключается в том, что Stable Diffusion — это всего лишь инструмент, который выполняет всю работу по генерации изображения, а вклад человека незначителен. Однако то же самое можно сказать и о фотоаппарате. Фотограф нажимает несколько кнопок, а сложный процесс улавливания и преобразования фотонов в пиксели происходит внутри камеры. Фотограф не создает композицию из атомов, а фиксирует существующую реальность. Тем не менее, мы признаем авторские права фотографов на их работы.
Таким образом, можно утверждать, что создатель промпта для Stable Diffusion также вносит творческий вклад, подобно фотографу, который выбирает ракурс, освещение и другие параметры съемки. Генерация изображения с помощью нейросети — это своего рода «фиксация» виртуальной реальности, созданной на основе текстового описания. Следовательно, авторство создателя промпта может быть признано, несмотря на использование автоматизированного инструмента.
Нужно учитывать, что нейронка училась на том, что сделали люди, миллиарды людей. Многие из нас внесли вклад в обучение нейронки, но могут даже не знать об этом. Все мы авторы и учителя для нейронок. Получаем ли мы от этого право на результаты работы нейронных сетей? Что вы думаете об этом?
Особенности генерации
Stable Diffusion имеет ограничения: подвержен социальным предубеждениям, плохо умеет генерировать разборчивый текст, плохо понимают любые языки кроме английского.
Изначально SD был обучен на квадратных изображениях 512×512 пикселей. Поэтому лучше всего он генерирует картинки с равными пропорциями сторон. При попытке создать прямоугольные изображения с людьми высока вероятность получить «мутантов». Позже мы рассмотрим, как этого избежать.
Читать дальше: 1.2 | Как создавался Stable Diffusion?