1.2 | Как создавался Stable Diffusion? | Курс по Stable Diffusion Automatic
Как обучаются диффузионные модели
В основе работы Stable Diffusion лежит диффузионная модель машинного обучения. Процесс обучения этой модели начинается с того, что исследователи берут реальные изображения из интернета и искусственно добавляют к ним случайный шум, похожий на помехи на старом телевизоре. Затем нейросеть обучают убирать этот шум и восстанавливать исходное изображение.
На ранних этапах обучения шум добавляется в небольших количествах. Постепенно его уровень повышается, пока в конечном итоге изображение не будет полностью замаскировано случайными помехами. Несмотря на это, нейросеть учится находить в этом хаотичном шуме визуальные образы: людей, предметы, растения и другие объекты.
Наступает момент, когда нейросети показывают картинку, состоящую исключительно из случайного шума, и просят сгенерировать изображение цветка, кота или шаурмы. И удивительным образом нейросеть способна увидеть в этом беспорядочном наборе пикселей искомые объекты, какими бы они ни были. Этот процесс и называется «диффузионной моделью» машинного обучения.
Но на этом возможности нейросети не заканчиваются. Она не только находит образы в шуме, но и постепенно добавляет детали к изображению, шаг за шагом преобразуя хаотичные пиксели в привлекательную и реалистичную картинку.
Чем больше шагов удаления шума — тем лучше становится картинка, но только до некоторого предела, после которого картинка перестаёт улучшаться. Этот процесс занимает от 1 секунды до нескольких минут в зависимости от количества шагов удаления шума, размера картинки, мощности компьютера и других параметров.
В рамках этого курса мы сосредоточимся на практическом применении диффузионных моделей, таких как Stable Diffusion. Однако для тех, кто захочет углубиться в технические детали и узнать больше о том, как устроены эти модели, я предоставлю дополнительные материалы и ресурсы.
Секрет ёмкости нейросетей: информация, а не изображения
Задумывались ли вы, сколько изображений может храниться в нейросети весом всего 4 гигабайта? Для сравнения, обычный DVD-диск вмещает до 4,7 гигабайт данных. Представьте, что у вас на компьютере есть папка с фотографиями, занимающая гигабайты или даже десятки гигабайт. Сколько же реально фотографий может содержаться в такой папке? Тысячи или даже десятки тысяч?
Теперь вопрос: сколько изображений, по вашим предположениям, может быть «упаковано» в нейросеть объемом 4 гигабайта? Попробуйте угадать 🤔
Правильный ответ может вас удивить: 5 миллиардов изображений упаковано в SD1.5! 🤯Однако стоит уточнить, что это не полноценные изображения в привычном понимании, а скорее некая информация, описывающая характерные особенности людей, животных, предметов, стилей, художественных техник и многого другого.
Нейросеть не хранит готовые изображения как таковые. Вместо этого она содержит математические представления визуальных концепций, извлеченные из огромного количества обучающих данных. Благодаря этому нейросеть способна генерировать совершенно новые изображения, комбинируя и интерпретируя усвоенные закономерности и паттерны.
Таким образом, 4 гигабайта данных нейросети эквивалентны информации, содержащейся в миллиардах отдельных изображений, что позволяет создавать практически бесконечное разнообразие новых визуальных композиций. Именно эта способность к генерации уникального контента делает нейросети, такие как Stable Diffusion, столь мощным и революционным инструментом.
🧠 Статьи для самых любознательных с углубленным объяснением того, как устроен SD: [рус.] [english 1] [english 2]. Более сложные технические детали о диффузионных моделях: [english].
Далее. 1.3 На чьих картинках учился Stable Diffusion?
0 комментариев