Вопрос насчет поняшных нейросетей

+95
Sasha-Flyerв блоге Я нейрирую двумя хвостами23 июня 2023, 13:05
Если мне не изменяет память, кто-то обучал нейросеть на основе картинок с Дерпибуры, с использованием тегов, типа чтобы можно было по Дерпибуровским тегам генерировать картинки. Можете поделиться ссылками на эти нейросети, чтобы самому скачать и поэкспериментировать. Заранее благодарю. (я сам пока не шарю в нейросетях, сорри если что-то не теми терминами описал)

94 комментария

Нейронный пинок в ленту
Sasha-Flyer
+1
Я задавал подобный вопрос на дерпиче, мне ответили что программа называется «Pony diffuson». Как мне сказали, можно запускать на своем компьютере, а так же есть дискорд сервер, попробуй погуглить, может что найдешь, ссылку мне увы не скинули.
Kvaga
+1
На Табуне не нашел ничего про Pony diffuson, и мне желательно пообщаться с русскоговорящим человеком, шарящим в этой теме. А то разбираться в слепую с незнакомой технологией как-то стрёмно. И кажется, Pony diffuson не на Дерпибуре тренился, по крайней мере я не нашел такой инфы.
Sasha-Flyer
0
Могу посоветовать «www.craiyon.com/», в поле «What do you want to generate» вводишь теги на английском, жмешь «Draw», ждешь с минуту и нейронка выдает 9 вариаций того, что получилось. Но это я бы сказал нейросеть для бедных, по большей степени там получается лютая дичь, но поугорать можно.
Kvaga
0
Собственно нейросеть с интерфейсом NMKD Stable Diffusion GUI 1.9.1: nmkd.itch.io/t2i-gui
Или AUTOMATIC 1111: github.com/AUTOMATIC1111/stable-diffusion-webui
Модель Pony Diffusion v4: huggingface.co/AstraliteHeart/pony-diffusion-v4
Модель Anything pony: SD Is Magic v1: disk.yandex.ru/d/S8hjMFFzakgARg
Требуется 10 или 11 винда и видеокарта не слабее GeForce GTX 1050.
userrft2 (ред.)
+4
Немного сгенерированных мной артов
1
2
3
4
5
6
7
8
userrft2
+12
Кьюьтимарки нейрируют, дожили…
TheScriptComp
0
Красиво, но только с метками на некоторых прям беда
Katy_moonlight
0
Конкретно метки мне и не нужны
Sasha-Flyer
0
Да, метки у нейросети пока слабое место
userrft2
0
Ммм, интересно. Первые три особенно красивы. А на 5 и 6 даже этого привычного нейроночного «мыла» не заметно, занятно.
makise_homura
0
ну вот допустим я скачал ckpt файл, что дальше? Если прям совсем для чайников.
p.s. На Питоне я кодить умею, судя по гайдам это нужно будет.
Sasha-Flyer (ред.)
0
Сайт, с которого я брал инфу приказал долго жить, похоже. Но, насколько я помню, моделька — это последний шаг в цепочке.
Нужно установить Git, выбрать и скачать графический интерфейс, создать гитовскую папочку и закинуть туда интерфейс и модели. Не помню, качал ли я питон, или интерфейс сам всё сделал после запуска батника… что-то он точно качал.
Возможно, всё это уже устарело и, наверняка, с разными видами интерфейсов свои танцы — нужно искать или просить пошаговый гайд.
Wererat (ред.)
0
Если честно, из твоего коммента я не понял ровном счетом ничего.
Давай начнем сначала — .ckpt файл, интерпретатор Питона версии 3.9, и установленная библиотека torch для Питона — это всё, что мне нужно для работы оффлайн, или нужно что-то еще скачивать?
Sasha-Flyer
0
Хреново, когда пытаешься обьяснить то, в чём сам мало понимаешь, погоди, щас один фокус попробую…
Wererat
0
Сайт живой, оказывается, только россиян, похоже, не пускает. Там пошагово.
Еще раз добавлю только, что я этим занимался когда снег лежал — возможно, у кого-то есть более актуальная информация.
Wererat (ред.)
0
О, это вроде норм, но насколько я понял, напрямую через Питон можно делать более тонкую настройку, чем через webUI интерфейс.
Sasha-Flyer
0
Но думаю с webUI можно попробовать хотя бы начать, чтобы научиться хотя бы промты настраивать
Sasha-Flyer
0
Скорее всего да — в том интерфейсе, которым я пользовался, порой не было параметров, которые авторы прикладывали к сгенерированным картинкам на буре. Думаю, работали напрямую с командной строкой… либо иным интерфейсом. У меня был от automatic.
Wererat
0
Что подразумевается под интерфейсом в твоем контексте? библиотека torch — это интерфейс? Или все интерфейсы строятся на этом самом torch
Sasha-Flyer
0
Всё проще — webUI. Страничка в браузере с ползунками и окошками).
Wererat (ред.)
0
Но на чем она работает, какой движок, грубо говоря. На том самом torch, или что-то другое?
Если я всё правильно понял, то он работает именно на pytorch, т.е. torch для python, и на который сверху написали веб-интерфейс для простоты использования, но который использует не все возможности изначального torch. Для обучения/ознакомления этот webUI подойдет, но для более тонких настроек, нужно будет кодить на Питоне.
Если я что-то не так понял — поправьте, плиз
Sasha-Flyer
0
Увы, тут мои полномочия всё). Я соображаю в этом чуть больше уборщицы, но уровень моей компетенции всё же недостаточен для интересующих тебя ответов.
Wererat
0
Кодить на питоне я не умею, но это и не потребуется. AUTOMATIC 1111 у меня не заработал, поэтому расскажу про NMKD.
Много букв и картинокСначала распакуй архив. Лучше в корень диска, длинных путей и неанглийских символов оно не любит.
Запусти файл StableDiffusionGui.exe и в открывшемся окне программы нажми кнопку «Open Installer»:


Появится окно установщика:


Но так как у тебя ещё ничего не установлено галочки стоять не будут, а вместо кнопки «Re-Install» будет «Install». Жми на неё и жди пока установщик скачает и поставит всё, что надо. Качать он будет несколько гигов, так что процесс может быть небыстрым. Когда он закончится, а установщик примет вид как на скрине – у тебя будет установленная и готовая к работе StableDiffusion со стандартной моделью.

Но стандартная модель ничего не знает о понях. Поэтому берём понячью модель (модель это файл .ckpt) и кладём её в папку Data\models
После этого идём в настройки:


И выбираем нашу модель, она должна появиться в списке «Stable Diffusion Model»:


Готово! Теперь у тебя установлена StableDiffusion с поячьей моделью.

Чтобы сгенерировать картину нужно ввести в соответствующее поле prompt — то, что должно быть на картинке и negative prompt – чего не должно быть, и нажать кнопку «Generate!».

Например, введём prompt
Rarity, unicorn pony, cute smiling pony face, detailed mane and fur, chest fluff, happy smiling, perfect anatomy, standing in a forest with grass, beautiful, soft shadows, cinematic lighting, smooth gradiants, masterpiece, professional digital art by artgerm and Greg rutkowski, p_95, cutie mark:1.3

И negative prompt:
noise, film grain, ((deformed)), blurry, ugly, ((mutated)), extra limbs, ((poorly drawn face)), poorly drawn, low quality, ((out of focus)), signature, username, p_low

Выставим настройки:
Generation Steps: 35, Sampler: Euler Ancestral, CFG scale: 8

Размер картинки лучше ставить в зависимости от объёма имеющейся у тебя видеопамяти. Чем больше картинка – тем больше памяти потребуется. У меня при генерации картинки размером 1024×1024 нейросеть занимает все 12 гигов.

Нажмём кнопку «Generate!», при первом запуске начнётся процесс загрузки модели:


После чего начнётся собственно генерация:


Т.к. параметр Amount Of Images To Generate у нас стоит 5, то нейросеть сгенерирует 5 артов, которые по мере генерации будут показываться в окне программы. Чтобы увидеть сами файлы нажми кнопку «Open Output Folder»:


Конечно там ещё есть много тонкостей, которые не опишешь так сразу в одном посте, но для начала как-то так.
Собственно сгенерированные арты







userrft2 (ред.)
0
Я правильно понимаю, что с чистого листа достаточно нажать одну кнопку для установки всего необходимого, а дальше только модельки закидывать нужные?
Wererat
0
Да
userrft2
0
Мда). Хорошо тем, у кого это работает — у меня не генерит, и даже не матюкается ни на что, только колесёко ожидания крутится.
Поставил как было раньше — с питоном, гитом и автоматиком, — работает. Ну и бог с ним.
Wererat
0
У меня тоже не сразу установился webUI. Помогла команда
E:\AI\stable-diffusion-webui\venv\Scripts\python.exe -m pip install --upgrade pip
Вместо E:\AI\ — путь до твоей папки stable-diffusion-webui
Всё запускал от имени юзера, не администратора
Спойлер
Sasha-Flyer
0
habr.com/ru/articles/693298/ нашел хорошую статью по работе этой самой SD
Sasha-Flyer
0
p_95

что означает этот тег?
Sasha-Flyer
0
так и не понял, за что отвечает тег p_95. Это типа поза, или что?
Sasha-Flyer
0
Возможно, есть такой автор?
Wererat
0
Не нашел такого автора. И в негативе есть p_low, что тоже как-то связано с p_95, но я пока не нашел никакой инфы, что за p_…
Sasha-Flyer
0
Вероятно, это какое-то процентное значение — если есть «лоу», то 95 — это хороший результат. Возможно, поэкспериментировав, можно получить видимую разницу с тем и другим значением?
Wererat (ред.)
0
За это отвечают ползунки в самом webUI
Sasha-Flyer
0
Ползунков там всего два, кроме отвечающих за размер и количество — это количество проходов и строгость следования заданным параметрам. Причём, есть прикол, когда максимальное количество проходов не даёт максимального качества — вроде бы это касается методов генерации с буковкой «а», «ancestral». Раньше была всплывающая подсказка, которая говорила, что нет смысла ставить больше тридцати проходов на картинку в этом случае, по крайней мере у метода «euler».
Что такое «seed» я вроде понял — это набор неких рандомных исходников, но вот с расширенными его параметрами до конца не разобрался.
Возвращаясь к вопросу о p_95 — это какая-то настройка изображения, не связанная с ползунками. Hi-low quality и Hi-low res тоже частенько суют в запросы-антизапросы.
Wererat (ред.)
0
Sasha-Flyer
0
Вот тут есть этот параметр с префиксом — глянь в описании. Теперь я понимаю его как «брать за основу высоко оцененные картинки» — у которых плюсов много, или как на буре оценивают, звёздочками?)
Wererat
0
derpibooru_p_95
мне теперь еще интереснее, что этот тег делает
Sasha-Flyer
0
В описании к модели написано, чтобы получить более качественное изображение необходимо добавить в позитивный промт derpibooru_p_95, в негативный derpibooru_p_low.
Maxwell
0
а стоп, purplespart это и есть pony-diffusion-v4, просто с удаленным использованием. Так ведь?
Sasha-Flyer
0
Была, теперь там уже используется v5. Но её для свободного скачивания пока не выложили.
Maxwell (ред.)
0
а, ну то есть за деньги ты просто получаешь ранний доступ, который рано или поздно выложат в сеть?
Sasha-Flyer
0
По сути да. Так было и с v4.
Maxwell
0
Ну ок, в принципе это нормальная модель распространения, главное чтоб Хасбро/художники не засудили хД
Sasha-Flyer
0
А, стоп. v5 же уже доступна для скачивания
Sasha-Flyer
0
Sasha-Flyer
0
А, лол, серьезно. Минуты две назад как раз выложили в общий доступ.
Maxwell
+1
Технологии прямо на глазах растут
Sasha-Flyer
0
seed это уникальный идентификатор картинки. Не должно быть двух одинаковых.
oxide (ред.)
0
Не совсем — с одним сидом картинки похожие, но не одинаковые. Это исходник, фундамент. В выборке из нескольких картинок их можно сделать максимально похожими, загнав ползунок, отвечающий за строгость следования конфигурации, вправо.
Wererat
0
Я заметил, что при перестановке тегов местами, результат тоже отличается, даже если сид фиксированный. В чем причина? Вес тега зависит от его положения в списке?
Sasha-Flyer
0
Похоже что да, при этом выделение скобочками способствует этому ещё больше (возможно, запрещает игнорировать этот запрос), а на приведённом примере ещё и плюсики есть какие-то — возможно, это замена встречавшимся ранее двойным скобочкам.
Wererat (ред.)
0
Да. Чем ближе к началу тем больше вес. Скобки и плюсы также увеличивают вес.
userrft2
+1
Так… а что делать, чтобы пони не смотрела в камеру? добавляю в негатив looking at you, и всё бестолку. Я так понимаю, нейронка обучалась не на тегах Буры? Потому что если да, то по-идее исключение этого тега должно привести к хоть какому-то результату
Sasha-Flyer
0
Это я сам пока не понял
userrft2
0
Поняшка-поняшка, развернись к стене передом, ко мне задом?)
Wererat
0
не, мне не для этого. Я просто хочу различные позы наклепать, а когда она постоянно смотрит на экран — это не так много разнообразия. Как я понял, мне для этого inpaint поможет, но мне бы для начала со стандартным набором инструментов разобраться
Sasha-Flyer
0
Я бы попробовал финт ушами в духе «смотрит на что-то», «ест-пьёт», «солнцем любуется» — дай ей фокус.
Wererat
0
С помощью (looking at viewer:1.3) в негативе можно добиться нужного результата в большинстве случаев.
Спойлер
Maxwell
0
Я тогда не совсем понимаю, по какому принципу обучалась нейросеть… ведь в буре это называется looking at you
Sasha-Flyer
0
Оригинальная модель, Stable Diffusion 1.5, обучалась на огромном количестве изображений, подписанных разными токенами. Pony Diffusion это и есть модель Stable Diffusion v1.5, но которую переучили, чтобы она рисовала поней, и в нее так же были добавлены новые токены с понячьей тематикой. Поэтому в Pony Diffusion работают токены из Stable Diffusion v1.5, как, в принципе, и во всех существующих моделях.
Maxwell (ред.)
0
То есть, Дерпибуровские теги совсем никак не помогали в обучении?
Sasha-Flyer
0
Ну почему же, они использовали метаданные из derpibooru, e621 и danbooru. Но лучше всего работают те теги, у которых есть большое количество артов. Например, vector. Он существенно влияет на результат, особенно при весе 1.2.
Спойлер
Maxwell
0
Как и looking at you в негативном промте, кстати. Но только при весе 1.2 и выше.
Maxwell
0
понял, дерпибуровским тегам нужно выставлять большой вес.
Sasha-Flyer
0
Можешь рассказать, как делать такие матрицы? с разными запросами. Я пока только научился юзать скрипт Prompt matrix, но это не совсем то.
Sasha-Flyer
0
Спойлер

Prompt S/R ищет и заменяет токен, который ты указал первым в поле values, на тот, что идет после запятой и на последующий. Так что, vector должен присутствовать в промте.
Maxwell (ред.)
0
Скачал последний AUTOMATIC 1111 – установился, работает
userrft2
0
Белая тема… она у тебя по умолчанию запустилась? О_о
Sasha-Flyer
0
Да
userrft2
0
странно… а у меня по умолчанию черная была
Sasha-Flyer
0
Может от браузера зависит? Я в Firefox открывал.
userrft2
0
возможно как-то установщик темы смотрит в настройки браузера, и ставит такую же тему, хз
Sasha-Flyer
0
Уже pd5 вышла, хотя стиль там другой
JackyBreeze
0
Вовремя я пост создал, получается)
Sasha-Flyer
0
Месяцок покуришь, а потом пойдёшь тренировать нейронки уже за бабло. Вакансии уже потихоньку начинают появляться.
oxide
0
Насколько это вообще морально оправдано, тренировать нейронки на тех работах, авторы которых вообще не в курсах?
Sasha-Flyer
0
Зависит от точки зрения.
oxide
0
Ну няпример если рассматривать с точки зрения Скайнет?
Sasha-Flyer
0
чатгпт, верни флаеру его акк.
oxide
0
Лично для себя я придумал аналогию, что например, смотря картинки в инете, ты тоже как бы тренируешь «нейронную сеть» своего мозга на этих картинках, а потом рисуешь что-то своё. Обычно (если ты не копипастишь рисунок напрямую) это не считается аморальным (даже если промпт, по которому ты рисуешь — что-то типа «нарисуй мне что-то в стиле такого-то художника» или «нарисуй Рэрити в саду, вот прям как вот на этой картинке, но по-своему»). Исходя из этой аналогии, тренировка нейросети на чьих-то рисунках и потом генерация чего-то ещё на их основе, по факту, не должна являться плагиатом.
Впрочем, вангую, что художники с этим не будут согласны (как минимум, не все).
makise_homura
0
NMKD отказывается конвертировать её из .safetensors в .ckpt

ВТФ?
userrft2
0
у меня в webUI всё импортировалось, но при попытке сгенерировать что-либо, в cmd выдается ошибка modules.devices.NansException: A tensor with all NaNs was produced in Unet. This could be either because there's not enough precision to represent the picture, or because your video card does not support half type. Try setting the «Upcast cross attention layer to float32» option in Settings > Stable Diffusion or using the --no-half commandline argument to fix this. Use --disable-nan-check commandline argument to disable this check.
хотя предыдущая всё нормально делает
Sasha-Flyer
0
собственно, поставил галочку у float32 в настройках, и всё заработало.
Sasha-Flyer
+1
а вот их дискорд у меня не работает почему-то
Sasha-Flyer
0
Аналогично
userrft2
0
dtf.ru/u/539590-neural-academy/1914730-pomnite-anons-neyronki-kotoraya-pozvolyaet-dvigat-i-vrashchat-obekty интересно, будет ли это работать с поняшками
Sasha-Flyer
0
Скачай да и проверь.
oxide
0
Боюсь, моя 8гб видеокарта не потянет одновременно диабло 4 и нейросеть(
Sasha-Flyer
0
А зачем одновременно?
userrft2
0
у меня игра почти 24/7 запущена, и даже в два окна. мне по работе надо(
Sasha-Flyer
0
Пока можно выкачать, а проверить потом, как дьябла перерыв возьмёт. Впрочем, судя по комментам там 6 что ли вполне конкретных наборов на которых её тренировали и пони среди них нет (но есть лошади).
oxide
0
да мне по сути единственное нужно, чтоб была правильная анатомия каноничных 2д поняш под любым углом, чтобы было на что ориентироваться
Sasha-Flyer
0
Нету там поняш в сетах, в чём и прикол. Там их штук 6 всего, а можно ли научить на своих — хз.
oxide
0
Только зарегистрированные и авторизованные пользователи могут оставлять комментарии.