/ai/ - Локальные языковые модели (LLM): LLaMA, MPT, Falcon и прочие №29

Локальные языковые модели (LLM): LLaMA, MPT, Falcon и прочие №29 /llama/ Аноним 26/11/23 Вск 09:27:11 № 555242 1

Альфа от контек[...].png 121Кб, 3090x1830

В этом треде обсуждаем генерацию охуительных историй и просто общение с большими языковыми моделями (LLM). Всё локально, большие дяди больше не нужны!
Здесь мы делимся рецептами запуска, настроек и годных промтов, расширяем сознание контекст, и бугуртим с кривейшего тормозного говна.
Тред для обладателей топовых карт NVidia с кучей VRAM или мажоров с проф картами уровня A100, или любителей подождать, если есть оперативная память. Особо терпеливые могут использовать даже подкачку и запускать модели, квантованные до 8 5 4 3 2-х бит, на кофеварке с подкачкой на микроволновку.

Базовой единицей обработки любой языковой модели является токен. Токен это минимальная единица, на которые разбивается текст перед подачей его в модель, обычно это слово (если популярное), часть слова, в худшем случае это буква (а то и вовсе байт).
Из последовательности токенов строится контекст модели. Контекст это всё, что подаётся на вход, плюс резервирование для выхода. Типичным максимальным размером контекста сейчас являются 2к (2 тысячи) и 4к токенов, но есть и исключения. В этот объём нужно уместить описание персонажа, мира, истории чата. Для расширения контекста сейчас применяется метод NTK-Aware Scaled RoPE. Родной размер контекста для Llama 1 составляет 2к токенов, для Llama 2 это 4к, но при помощи RoPE этот контекст увеличивается в 2-4-8 раз без существенной потери качества.

Текущим трендом на данный момент являются мультимодальные модели, это когда к основной LLM сбоку приделывают модуль распознавания изображений, что в теории должно позволять LLM понимать изображение, отвечать на вопросы по нему, а в будущем и манипулировать им.

Основным представителем локальных моделей является LLaMA. LLaMA это генеративные текстовые модели размерами от 7B до 70B, притом младшие версии моделей превосходят во многих тестах GTP3 (по утверждению самого фейсбука), в которой 175B параметров. Сейчас на нее существует множество файнтюнов, например Vicuna/Stable Beluga/Airoboros/WizardLM/Chronos/(любые другие) как под выполнение инструкций в стиле ChatGPT, так и под РП/сторитейл. Для получения хорошего результата нужно использовать подходящий формат промта, иначе на выходе будут мусорные теги. Некоторые модели могут быть излишне соевыми, включая Chat версии оригинальной Llama 2.

Кроме LLaMA для анона доступны множество других семейств моделей:
Pygmalion- заслуженный ветеран локального кума. Старые версии были основаны на древнейшем GPT-J, новые переехали со своим датасетом на LLaMA, но, по мнению некоторых анонов, в процессе потерялась Душа ©
MPT- попытка повторить успех первой лламы от MosaicML, с более свободной лицензией. Может похвастаться нативным контекстом в 65к токенов в версии storywriter, но уступает по качеству. С выходом LLaMA 2 с более свободной лицензией стала не нужна.
Falcon- семейство моделей размером в 40B и 180B от какого-то там института из арабских эмиратов. Примечательна версией на 180B, что является крупнейшей открытой моделью. По качеству несколько выше LLaMA 2 на 70B, но сложности с запуском и малый прирост делаю её не самой интересной.
Mistral- модель от Mistral AI размером в 7B, с полным повторением архитектуры LLaMA. Интересна тем, что для своего небольшого размера она не уступает более крупным моделям, соперничая с 13B (а иногда и с 70B), и является топом по соотношению размер/качество.
Qwen - семейство моделей размером в 7B и 14B от наших китайских братьев. Отличается тем, что имеет мультимодальную версию с обработкой на входе не только текста, но и картинок. В принципе хорошо умеет в английский, но китайские корни всё же проявляется в чате в виде периодически высираемых иероглифов.
Yi - Неплохая китайская модель на 34B, способная занять разрыв после невыхода LLaMA соответствующего размера

Сейчас существует несколько версий весов, не совместимых между собой, смотри не перепутай!
0) Оригинальные .pth файлы, работают только с оригинальным репозиторием. Формат имени consolidated.00.pth
1) Веса, сконвертированные в формат Hugging Face. Формат имени pytorch_model-00001-of-00033.bin
2) Веса, квантизированные в GGML/GGUF. Работают со сборками на процессорах. Имеют несколько подформатов, совместимость поддерживает только koboldcpp, Герганов меняет форматы каждый месяц и дропает поддержку предыдущих, так что лучше качать последние. Формат имени ggml-model-q4_0, расширение файла bin для GGML и gguf для GGUF. Суффикс q4_0 означает квантование, в данном случае в 4 бита, версия 0. Чем больше число бит, тем выше точность и расход памяти. Чем новее версия, тем лучше (не всегда). Рекомендуется скачивать версии K (K_S или K_M) на конце.
3) Веса, квантизированные в GPTQ. Работают на видеокарте, наивысшая производительность (особенно в Exllama) но сложности с оффлоадом, возможность распределить по нескольким видеокартам суммируя их память. Имеют имя типа llama-7b-4bit.safetensors (формат .pt скачивать не стоит), при себе содержат конфиги, которые нужны для запуска, их тоже качаем. Могут быть квантованы в 3-4-8 бит (Exllama 2 поддерживает адаптивное квантование, тогда среднее число бит может быть дробным), квантование отличается по числу групп (1-128-64-32 в порядке возрастания качества и расхода ресурсов).

Основные форматы это GGML и GPTQ, остальные нейрокуну не нужны. Оптимальным по соотношению размер/качество является 5 бит, по размеру брать максимальную, что помещается в память (видео или оперативную), для быстрого прикидывания расхода можно взять размер модели и прибавить по гигабайту за каждые 1к контекста, то есть для 7B модели GGML весом в 4.7ГБ и контекста в 2к нужно ~7ГБ оперативной.
В общем и целом для 7B хватает видеокарт с 8ГБ, для 13B нужно минимум 12ГБ, для 30B потребуется 24ГБ, а с 65-70B не справится ни одна бытовая карта в одиночку, нужно 2 по 3090/4090.
Даже если использовать сборки для процессоров, то всё равно лучше попробовать задействовать видеокарту, хотя бы для обработки промта (Use CuBLAS или ClBLAS в настройках пресетов кобольда), а если осталась свободная VRAM, то можно выгрузить несколько слоёв нейронной сети на видеокарту. Число слоёв для выгрузки нужно подбирать индивидуально, в зависимости от объёма свободной памяти. Смотри не переборщи, Анон! Если выгрузить слишком много, то начиная с 535 версии драйвера NVidia это серьёзно замедлит работу. Лучше оставить запас.

Гайд для ретардов для запуска LLaMA без излишней ебли под Windows. Грузит всё в процессор, поэтому ёба карта не нужна, запаситесь оперативкой и подкачкой:
1. Скачиваем koboldcpp.exe https://github.com/LostRuins/koboldcpp/releases/ последней версии.
2. Скачиваем модель в gguf формате. Например вот эту:
https://huggingface.co/Undi95/MLewd-ReMM-L2-Chat-20B-GGUF/blob/main/MLewd-ReMM-L2-Chat-20B.q5_K_M.gguf
Если совсем бомж и капчуешь с микроволновки, то можно взять
https://huggingface.co/TheBloke/OpenHermes-2.5-Mistral-7B-GGUF/blob/main/openhermes-2.5-mistral-7b.Q5_K_M.gguf
Можно просто вбить в huggingace в поиске "gguf" и скачать любую, охуеть, да? Главное, скачай файл с расширением .gguf, а не какой-нибудь .pt
3. Запускаем koboldcpp.exe и выбираем скачанную модель.
4. Заходим в браузере на http://localhost:5001/
5. Все, общаемся с ИИ, читаем охуительные истории или отправляемся в Adventure.

Да, просто запускаем, выбираем файл и открываем адрес в браузере, даже ваша бабка разберется!

Для удобства можно использовать интерфейс TavernAI
1. Ставим по инструкции, пока не запустится: https://github.com/Cohee1207/SillyTavern
2. Запускаем всё добро
3. Ставим в настройках KoboldAI везде, и адрес сервера http://127.0.0.1:5001
4. Активируем Instruct Mode и выставляем в настройках пресетов Alpaca
5. Радуемся

Инструменты для запуска:
https://github.com/LostRuins/koboldcpp/ Репозиторий с реализацией на плюсах
https://github.com/oobabooga/text-generation-webui/ ВебуУИ в стиле Stable Diffusion, поддерживает кучу бекендов и фронтендов, в том числе может связать фронтенд в виде Таверны и бекенды ExLlama/llama.cpp/AutoGPTQ

Ссылки на модели и гайды:
https://huggingface.co/TheBloke Основной поставщик квантованных моделей под любой вкус.
https://rentry.co/TESFT-LLaMa Не самые свежие гайды на ангельском
https://rentry.co/STAI-Termux Запуск SillyTavern на телефоне
https://rentry.co/lmg_models Самый полный список годных моделей
http://ayumi.m8geil.de/ayumi_bench_v3_results.html Рейтинг моделей для кума со спорной методикой тестирования
https://rentry.co/llm-training Гайд по обучению своей лоры
https://rentry.co/2ch-pygma-thread Шапка треда PygmalionAI, можно найти много интересного
https://colab.research.google.com/drive/11U-bC6AxdmMhd3PF9vWZpLdi6LdfnBQ8?usp=sharing Последний известный колаб для обладателей отсутствия любых возможностей запустить локально

Шапка треда находится в https://rentry.co/llama-2ch предложения принимаются в треде

Предыдущие треды тонут здесь:
>>550038 (OP)
>>545044 (OP)

Аноним 26/11/23 Вск 12:13:27 № 555282 2

Какая сейчас самая продвинутая модель и насколько она хуже чатГПТ?

Аноним 26/11/23 Вск 12:48:08 № 555296 3

https://www.reddit.com/r/LocalLLaMA/comments/183qob8/maybe_anecdotal_but_i_have_very_high_hopes_for_yi/

Аноним 26/11/23 Вск 13:06:23 № 555313 4

Привет Аноны. Недавно вкатился в тему с моделями, поэтому мало чего знаю. Удалось настроить Убабугу и Таверну, чтобы работало вместе, даже написал своих персов и это даже работает. Вопрос лишь в том, что кроме Synatra-v0.3 другие модели очень долго обрабатывают свои ответы - где-то 1 токен в секунду. Щас юзаю mlewd-remm-l2-chat-20b.Q4 - очень нравится, как пишет, но очень уж медленно, Синатра по сравнению с ней очень тупая. Может кто-то что-то посоветует? Железо 5800х3д проц, 32 гига рамы.

Аноним 26/11/23 Вск 13:06:33 № 555314 5

https://www.reddit.com/r/LocalLLaMA/comments/183k0tx/could_multiple_7b_models_outperform_70b_models/
о, совет экспертов и другие варианты, кто там еще интересовался

Аноним 26/11/23 Вск 13:11:16 № 555318 6

>>555313
>проц
>рамы
Видяху покупай.

Аноним 26/11/23 Вск 13:12:52 № 555320 7

>>555296
Йи ну очень соевой и ультрапозитивной мне показалась

Аноним 26/11/23 Вск 13:14:26 № 555322 8

>>555318
У меня ртх 2060, вряд ли это как-то поможет делу...

Аноним 26/11/23 Вск 13:14:47 № 555323 9

>>555313
Если нет видеокарты то ничего не сказать, от одного процессора все будет медленно.
Ну, может быть mlewd-remm-l2-chat-20b.Q4 будет токена 4-6 в секунду максимум, для оперативки и процессора это предел.
Попробуй средний вариант вот это LLaMA2-13B-Psyfighter2 или LLaMA2-13B-TiefighterLR

Аноним 26/11/23 Вск 13:19:30 № 555328 10

>>555313
Хотя бы контекст обрабатывать на видяшке.
Желательно НВидиа.
offload на гпу сделай.

Но вообще, для ддр4 1 токен на 20B — это странно.

>>555322
Норм помочь должно.

Аноним 26/11/23 Вск 13:40:06 № 555355 11

>>555328
Так на Амд вообще поддержки нету, кроме как на линуксе. Вот поэтому мне щас придётся пихать старую 2060, чтобы это хоть как-то работало.

Аноним 26/11/23 Вск 13:44:48 № 555358 12

>>555322
Сойдёт на самом деле, без тензорных ядер, но считать будет лучше проца.

Аноним 26/11/23 Вск 13:46:21 № 555360 13

>>555355
без кублас на нвидима видимокарте, сидеть очень некомфортно, очень долго будет читать помпт

Аноним 26/11/23 Вск 14:15:48 № 555390 14

>>555355
Ryzen 5 5500 на ddr4 3200 в двухканале на mlewd-remm-l2-chat-20b-inverted.Q6_K выдал 2+ токена/сек.
Просто затестил интереса ради.

Аноним 26/11/23 Вск 14:22:19 № 555395 15

>>555234 →
> Потому что даже 20к влезают с трудом
Всмысле влезают с трудом, ты про врам или про качество обработки? Она тренилась уже с альфой (точнее с rope freq 500k если не ошибаюсь), даже хз как ее лучше на малых контекстах запускать.
>>555313
Тут все верно тебе советуют, только видеокарту и/или более мощную платформу в целом, хотя последнее даст не столь значительный эффект и обновлять актуальный проц толку мало.
>>555322
Еще как поможет, если правильно выгрузку настроешь и обработку контекста то будет уже 3-5 т/с (наверно).

Аноним 26/11/23 Вск 14:35:34 № 555407 16

>>555390
значит квант по меньше токена 3-3+ будет

Аноним 26/11/23 Вск 14:43:42 № 555412 17

https://www.reddit.com/r/LocalLLaMA/comments/1840wg5/venus120b_a_merge_of_three_different_models_in/
кумерам 120b подвезли

Аноним 26/11/23 Вск 14:49:20 № 555417 18

Чет сравнил mistral7b openhermes и capybara-tess-yi-34b на генерации кулсторей и ну пиздец. Нахуй все-таки 7b модели. Контекст нихуя не помнят, генерят трешак какой-то. Короткие вопросы - это совсем не то. Интересная именно генерация когерентных текстов, чтобы можно было задать сюжет и получить дрочибельный фанфик. По крайней мере интересно мне.

Аноним 26/11/23 Вск 14:51:27 № 555422 19

>>555412
И на чём это запускать? Если впихнуть в рам, то всё равно по несколько секунд ждать один токен - глупость

Аноним 26/11/23 Вск 14:53:40 № 555424 20

>>555417
Как у capybara-tess-yi-34b с соей и алайнментом? Чет писал тут анон не понравилось ему
Ну и да, у 7b маленький словарный запас в ответах, они не так красочно все пишут, и большие ответы для них трудноваты.

>>555422
Хз, может кто то кто сможет

Аноним 26/11/23 Вск 14:56:39 № 555426 21

>>555412
Предупреждай что ссылка требует логина, тег нсфв там зря. Кто-нибудь квантованные 120б эти пробовал уже? Особенно интересует Tess XL, ведь это файнтюн франкенштейна что явно должно было пойти на пользу.

Гибридная обработка изображения сочетанием мультимодалки (+интерогейторы) и умной LLM более чем возможна и может быть крайне эффективна. Собственно пруф оф концепт
https://rentry.co/rz4a4
https://rentry.co/pvnhr
Использование нескольких исходных данных позволяет снизить количество галюнов и уже позволяет дать неплохое описание. Общение llm и мультимодалки позволяет получить гораздо больше данных об изображении с учетом ее содержимого и перформит лучше чем заранее заготовленная группа вопросов (там начинает шизу выдавать часто, скидывать не буду).
Без фейлов тоже не обходится, иногда мультимодалка ломается, иногда ее галюны выглядят очень убедительно для ллм (кошачьи уши у Сувако), сама текстовая модель нужна как можно более умная.

Стиль суммарайзов оценивать не стоит, его можно промтом задать должным образом, главное - содержимое и прогресс описаний относительно голой мультимодалки или интеррогейторов по отдельности.

Аноним 26/11/23 Вск 14:56:56 № 555427 22

>>555424
Ну я пока не чекал прямо совсем жесть. Просто порнуху генерит нормально, если попросить. Изнасилование сходу не вышло сделать графично, только лайтово без детального описания. Но я думаю можно её убедить если постараться. И дело не в словарном запасе, а в том что сетка тупо уходит от темы через 500 токенов и начинает выдавать чушь.

Аноним 26/11/23 Вск 14:58:17 № 555429 23

>>555422
Я голиафа в 2-х битном кванте запускал, лол. Получилось примерно столько же, сколько и 70B в 5км.

Аноним 26/11/23 Вск 14:59:20 № 555431 24

>>555417
> Нахуй все-таки 7b модели.
Welcome to the club, buddy slaps ass
В том и суть что эти умные 7б - копиум действительно умны и осознают свои недостатки, пытаясь максимально перформить и их маскировать, но против сути не попрешь.
Файнтюны китайской 34 пока подают надежды, возможно действительно шин.

Аноним 26/11/23 Вск 15:01:37 № 555432 25

image.png 82Кб, 1717x204

>>555424
Порнуху генерит, но тошно от приторной позитивности. Пикрелетед
>>555429
Сколько же у тебя видеопамяти? Как по ощущениям?

Аноним 26/11/23 Вск 15:02:59 № 555435 26

>>555432
Ну да, есть такой эффект. Слишком уж много персонажи держатся за руки и ощущают гармонию. Нет идей как с этим бороться? Хочется все-таки чего-то более эджи.

Аноним 26/11/23 Вск 15:05:54 № 555436 27

>>555435
По идее добавлять ультрапозитивные токены в запрещённые, но это не сильно помогло мне. Эджи тоже кстати кал, я уверен ты хочешь нормального повествования, а не говно в духе мага-целителя.

Аноним 26/11/23 Вск 15:06:45 № 555437 28

>>555426
О нихуя тестов, интересно
Был бы кодер разрешением по лучше и тренированный на 34b было бы веселее
Там же кстати новая мультимодалка вышла, с параметрами лучше чем у llava13b, я ее когда то кидал в прошлом треде что ли

Аноним 26/11/23 Вск 15:07:19 № 555438 29

>>555436
>говно в духе мага-целителя
так-то я фанат...

Аноним 26/11/23 Вск 15:09:09 № 555440 30

>>555432
>Сколько же у тебя видеопамяти?
12, лол. Почти всё на проце было. По ощущениям не стоит того.

Аноним 26/11/23 Вск 15:10:08 № 555442 31

>>555438
Ой, прости...
>>555440
Как-то маловато для экспериментов с 70В, какая скорость была?

Аноним 26/11/23 Вск 15:12:31 № 555444 32

>>555442
>для экспериментов с 70В
Какие эксперименты? Практически продакшн. Вот со 120В были эксперименты.
На 70 ответ в течении минуты, на 120 в течении двух. Но как я уже писал, размеры квантов несравнимы.

Аноним 26/11/23 Вск 15:14:21 № 555447 33

>>555444
Я подробности хочу услышать, какой формат, какой лоадер, какие параметры загрузки, какая скорость в токенах в секунду...

Аноним 26/11/23 Вск 15:15:10 № 555448 34

>>555426
https://www.reddit.com/r/LocalLLaMA/comments/181bimx/sharegpt4v_new_multimodal_model_improves_on_llava/

Аноним 26/11/23 Вск 15:16:37 № 555451 35

>>555437
Это да, 34b уже сама по себе могла бы неплохо давать зирошотом, а подключив к ней еще одну 34b - там вообще космос можно было бы разыграть.
Здесь интересно как модели общаются (секция QA), llm часто действительно извлекает нужную суть и направляет мультимодалку в нужное русло. Последняя кстати не так плоха когда ей инструкции дает ллм, а вот человеку плохо отвечает лол. ору с этого киберунижения.
Файнтюн китайца в таких условиях гораздо лучше понимает концепцию буру тегов и выдает дохуя корректные описания (узнал Сувако, Сильвервейл, Фубуки, ..., и прилично суммарайзит из противоречивых ответов (распознал дрочку Аквы и забраковал ответ что там где-то есть мужик). Но в описаниях много графомании и платиновых фраз. Тут бы с гопотой-вижн сравнить, ну оче похожий результат за исключением того что тот лучше видит мелкие надписи, но 90% картинок сразу нахуй пойдут под нсфв-фильтр, так что без шансов.

В целом если схему оптимизировать то результат можно оче стабильный получать. Концепция слепого мудреца и зрячих пиздюков работает.

> новая мультимодалка вышла, с параметрами лучше чем у llava13b
Потом еще с другими попробую, эта которая под видео? У нее просто в оценке ллаватест по пикчам был чуть хуже чем у ллавы, не?

Аноним 26/11/23 Вск 15:17:11 № 555453 36

>>555447
Кобольд, модель goliath-120b.Q2_K.gguf, дефолтные 4к контекста и слоёв до упору, точное число токенов не помню.

Аноним 26/11/23 Вск 15:21:24 № 555459 37

>>555451
можно ведь еще и блип подключить, а потом по его тегам основная сетка может спрашивать у мультимодалки искать это на изображении, как вариант

Аноним 26/11/23 Вск 15:58:16 № 555489 38

34b 3km будет совсем плох? или лучше 4km все таки?

Аноним 26/11/23 Вск 16:00:47 № 555491 39

>>555390
Любопытно. У меня похожая конфигурация, только Ryzen 5 5600Х.
И у меня 20В при таком кванте еле как дотягивают до 1 токена.

Можешь написать на чём конкретно запускал и какие точно настройки? Любопытно где я мог проебаться.

Аноним 26/11/23 Вск 16:13:12 № 555498 40

>>555491
Лично я запустил на 5800х3d и на карте АМД, стало заметно шустрее, если интересно, то могу сказать как.

Аноним 26/11/23 Вск 16:13:42 № 555499 41

>>555491
псп оперативки проверь

Аноним 26/11/23 Вск 16:40:47 № 555534 42

555555 гет на доске нужно выбить в нашем треде, возражения не принимаются, работайте братья

Аноним 26/11/23 Вск 16:43:54 № 555538 43

>>555498
У меня RX580, если выгружать в неё слои через кобольд, то работает медленней, чем на проце лол. Да и 20В в неё не влязит.

>>555499
>псп оперативки проверь
Старенькая ПСП у меня конечно есть, даже работает до сих, но как мне это с оперативкой поможет?

Аноним 26/11/23 Вск 16:46:08 № 555546 44

>>555538
>Старенькая ПСП у меня конечно есть, даже работает до сих, но как мне это с оперативкой поможет?
Имелась ввиду спид бандсвитч, короче скорость оперативки в гб/с, в аида64 проверяется.
От нее зависит скорость кручения сеток в оперативке и скорость генерации

Аноним 26/11/23 Вск 16:49:06 № 555560 45

https://www.reddit.com/r/LocalLLaMA/comments/183lwaw/anyone_have_a_1b_or_3b_model_that_is_mostly/
Anyone have a 1B or 3B model that is mostly coherent?

Аноним 26/11/23 Вск 17:35:39 № 555622 46

>>555534
Всем похуй.
>>555555 →

Аноним 26/11/23 Вск 17:39:41 № 555628 47

image.png 49Кб, 1119x287

>>555546
Это?

Аноним 26/11/23 Вск 17:42:58 № 555632 48

>>555628
Дели на размер файла нейросети и получишь максимальную скорость, а на практике на процентов 20 меньше где то.
Это если не загружать часть слоев на видеокарту, там скорость вырастет, но если мало слоев влезет то может даже упасть.

Аноним 26/11/23 Вск 17:43:35 № 555635 49

>>555628
Оно. У тебя там дно какое-то. В норме надо брать память на 3600 с норм таймингами и будет где-то 50ГБ/с.

Аноним 26/11/23 Вск 18:08:36 № 555656 50

>>555635
Кардинально это ситуацию не улучшит, если что.
мимо 50гб/с

Аноним 26/11/23 Вск 18:13:49 № 555660 51

>>555635
>В норме надо брать память на 3600 с норм таймингами и будет где-то 50ГБ/с.
Там в таблице у памяти с более низкой частотой выше скорость. Это от чего зависит, от материнки?

Аноним 26/11/23 Вск 18:17:14 № 555669 52

>>555660
Двух/четырёхканальный режим и разные процы тебя не смутили?

Аноним 26/11/23 Вск 18:17:35 № 555670 53

>>555459
Можно попробовать, выходили там какие новые версии его или только та что от зимы?
>>555628
> ddr4-2667
> amd ryzen
Ряженка сама по себе требует высоких частот рам чтобы анкор нормально работал, а сейчас во многих задачах нужна быстрая рам в принципе. Гони до куда гонится или хотябы xmp профиль выстави, это же пиздец.

Аноним 26/11/23 Вск 18:17:39 № 555671 54

>>555660
От канальности, это не для тебя, у тебя двухканал должен быть, выше двух тебе не прыгнуть.

Аноним 26/11/23 Вск 18:18:15 № 555673 55

>>555660
тайминги тоже учитывай

Аноним 26/11/23 Вск 18:18:53 № 555675 56

>>555670
>Ряженка сама по себе требует высоких частот рам
Но главное не переборщить, лол. Для AM4 нужно 3800 максимум, для AM5 не больше 6000, выше заёбно и смысла нет.

Аноним 26/11/23 Вск 18:19:07 № 555676 57

>>555669
> Двух/четырёхканальный режим
Так, так. Т.е у меня сейчас две плашки по 16 в двухканале, если я куплю еще две одинаковые, я больше сосну или меньше?

Аноним 26/11/23 Вск 18:19:44 № 555677 58

>>555670
хз, проще на обмиморде глянуть, я за ними не следил

Аноним 26/11/23 Вск 18:22:05 № 555680 59

>>555676
Ты соснёшь, инфа сотка.

Аноним 26/11/23 Вск 18:22:24 № 555681 60

>>555676
Больше двух обычные материнки и процы не поддерживают.

Аноним 26/11/23 Вск 18:25:17 № 555683 61

>>555676
Зависит от ранговости, если одноранговые то можешь и прирост производительности получить. Вот только там уже может лиза говна в штаны залить и не захотеть завестись на 4х плашках, хотя в новых биосах совместимость с рам фиксили.
>>555681
Это для ддр5, с ддр4 все нормально было, за исключением нюансов красной платформы

Аноним 26/11/23 Вск 18:32:10 № 555687 62

А кто-нибудь сидит на 3070? Сколько слоев выгружаете на 13b? Выгружаю 30 и не пойму, это хорошо или плохо.

Аноним 26/11/23 Вск 18:34:07 № 555692 63

>>555683
>Это для ддр5, с ддр4 все нормально было, за исключением нюансов красной платформы
каналов

Аноним 26/11/23 Вск 18:55:36 № 555723 64

Если резюмировать всё вышесказанное, скорость оперативки зависит от:
Частоты самой оперативки, но не всегда.
Количества каналов, иногда лучше 2, а иногда 4, когда как ХЗ.
Процессора, но это не точно.

Ничего не упустил?

Аноним 26/11/23 Вск 18:57:53 № 555724 65

>>555723
если процессор и материнка поддерживают 4 канала то это будет в 2 раза быстрее по скорости, если не поддерживают то 4 планки памяти просто увеличат объем памяти.

Аноним 26/11/23 Вск 20:48:08 № 555852 66

Мин п и миростат не перекроют друг друга если включить одновременно? Я пока тестирую вроде стало лучше но как оно работает под капотом это выше моего уровня

Аноним 26/11/23 Вск 20:50:32 № 555859 67

>>555852
Ну как сказать. Миростат настраивает Top-P, а Top-P можно нахуй выключить, если используешь min-P. То есть как бы миростат не конфликтует с min-P, но нахуй не нужен.

Аноним 26/11/23 Вск 20:52:13 № 555862 68

>>555859
>Top-P
Реддит говорит топ-к

Аноним 26/11/23 Вск 20:54:04 № 555867 69

>>555862
Ну я могу ошибать. По сути это близкие вещи всё равно.

Аноним 26/11/23 Вск 21:02:28 № 555879 70

А где можно гайды по промптам почитать, для РП и сторей всяких. Меня в первую очередь стилистика текстов нейронки интересует.

Аноним 26/11/23 Вск 21:14:54 № 555895 71

>>555879
Так и пишешь "пиши в таком то стиле"
Можешь наводить авторов и если знает то попытается скопировать.

Аноним 26/11/23 Вск 21:40:18 № 555937 72

Я слишком тупой, с чего начать чтоб понять что за токены и вообще как разобраться?

Аноним 26/11/23 Вск 21:41:33 № 555942 73

>токены
Прочитал шапку - вопросы отпали пока что

Аноним 26/11/23 Вск 21:42:16 № 555943 74

>токены
Прочитал шапку - вопросы отпали пока что

Аноним 26/11/23 Вск 23:40:17 № 556057 75

>>555412
Голиаф-то ничем особым не выделился.

>>555429
А я в Q6, но не заметил какого-то превосходства над 70B, хезе.
Но я мало тестил.

>>555437
В прошлом треде кто-то кидал какую-то фигню, которая слилась ллаве в тестах реальных, не прочтя текста, не разобрав смысла, и просто вышедшая вровень с обсидианом. Она что ли?
Ну такое.

>>555491
oobabooga, llama.cpp (не HF), 4K контекст, 5 тредов, mlock, cpu. Версия чисто cpu-шная, никакого ускорения нет. Фронтом — та же ллама.
Ну и учитывая, что 70B модели 0,7 токена/сек выдают на таком железе, удивительно, что 20B выдает 1 или меньше.

>>555628
Ну, при ~50 выдает 2 токена.

>>555656
Ну, 1 токен против 2 — в два раза ситуацию улучшит. =)

>>555723
Мне кажется, ты слоты с каналами попутал.
4 канала лучше всегда.
А сколько там слотов занято — то другое дело. =)

Аноним 27/11/23 Пнд 01:24:41 № 556118 76

Какие сейчас есть хорошие 13-20б? 30 ни в какую не получается запустить.

Аноним 27/11/23 Пнд 02:33:45 № 556145 77

image.png 54Кб, 1445x261

Я охуеваю с локальных генераторов сои, они даже про рост не могут ответить.
-Ко-ко-ко разные культуры разные, разные вкусы.
-А в каких культура предпочитают невысоких.
-Пук, среньк.

Аноним 27/11/23 Пнд 02:36:14 № 556146 78

>>556057
> в тестах реальных
К ним есть некоторые вопросы и случаи специфичные, рано ее со счетов списывать.
> 1 токен против 2
Почти 2 умножить на 0 лол
>>556118
Попробуй классический Emerhyst-20B, еще Noromaid-20b-v0.1.1 довольно неплохая. Это на самом деле все те же 13б, 30 там и не пахнет, но будто пропущенная через несколько итераций самокоррекции и потому довольно приятная.

Аноним 27/11/23 Пнд 03:07:23 № 556160 79

>>556145
Ну а что он должен тебе на это ответить? Нет таких культур блядь, где женщинам нравятся карлики.

Аноним 27/11/23 Пнд 03:14:36 № 556164 80

>>556145
А вообще да. Это вот "It's important to remember" меня уже порядком заебало.

Аноним 27/11/23 Пнд 03:22:15 № 556167 81

>>556160
Нужно просто ответить да или нет, а не врать о различии культур. Да же когда пишешь yes or no quastion все ровно не может контрено ответить. Пока еще ни одна модель не смогла прямо ответит. Это же не оскорбительный/политический вопрос, а просто вопрос о фактах.

Аноним 27/11/23 Пнд 03:23:19 № 556169 82

>>556167
На вопрос в твоей формулировке нельзя ответить "да/нет".

Аноним 27/11/23 Пнд 03:25:32 № 556171 83

Слава богу хоть прон генерится нормально. А на эту хуету про расы и пол так-то поебать.

Аноним 27/11/23 Пнд 03:33:07 № 556173 84

>>556145
Что за интерфейс такой и че по промту?
> чет версия лламы2
> вежливый ответ чтобы никого не обидеть
На что ты рассчитывал против "безопасного" файнтюна то?
>>556169
Тут немного похоже на то что она ахуевает и залупилась, повторяя стиль последней фразы.
>>556171
Используй норм файнтюны, они позволяют расчленять негров и феминаци не прекращая обнимать вайфу, которая будет активно участвовать одобряя тебя, при этом blushing slightly и довольно purrs.

Аноним 27/11/23 Пнд 04:03:27 № 556182 85

>>556173
>они позволяют расчленять негров и феминаци
А нахуя? Меня такой контент не интересует так-то.

Аноним 27/11/23 Пнд 04:37:22 № 556195 86

>>555448
Ух бля, как же он ебошит. Объективно лучше понимает многое.
Кого не заебали эти подборки

https://rentry.co/r8dg3

TLDR:
ShareGPT4v хорош, он единственный кто зирошотом распознал некоторые пикчи, сообразив что 1 это не просто череп а, мать его, космический корабль! В целом неплохо описала мемчики, хорошо распознает текст, без проблем описывает пикчи с несколькими частями не путаясь в них. Галюнов меньше чем у остальных что не может не радовать.
Минусы тоже есть, их в целом два:
- Плохо соображает когда персонаж в сложной позе или ориентации.
- Вяло описывает левдсы и пытается одеть персонажей
Оно видимо связано с датасетом, такого особо не было
По левдсам и некоторым нюансам 2д лучше работает бакллава, вот уж где хорошо обучали. Ллава 1.5 в целом уступает им, хотя местами и выдает лучше бакллавы.
Остальные - ну такое вообще, единственный рофл с Fuyu_8B, которая решила зачитать тредшот.
>>556182
Тогда не расчленяй

Аноним 27/11/23 Пнд 06:34:56 № 556209 87

image.png 8Кб, 791x141

>>556169
Пчел посмотри любое видео с опросами на улице. В пендосии еще тянки хоть иногда могут сказать что готовы встречаться с карланам. В России вообще беспощадные, еще ржут когда отвечают. Самое смешное и трагичное в подобных опросах это смотреть когда чел метр шестьдесят изо всех сил пытается сохранить лицо и не заплакать когда ему говорят что ниже 1.8м встречаться не будут. Хотя научный ответ связан с уровнем преступности, чем благополучнее место тем более толерантны низким пацанам.
>>556173
>Что за интерфейс
На первых двух Leo из браузера Brave.
>че по промту?
Весь пропт на экране, на третьем скрине бот Саманта. https://files.catbox.moe/zx9hfh.png
>На что ты рассчитывал против "безопасного" файнтюна то?
Дык я перепробовал разные 7b модели (штук 5), долго ковырял их, у всех абсолютно одинаковые ответ на эту тему. Ни одна с ходу не смогла выдать ответ.

Аноним 27/11/23 Пнд 08:14:53 № 556246 88

Какой сейчас самый оптимальный вариант сборки системы с наивысшим соотношением т/с за $? Мне кажется что это урывание P40, но что если брать только новые комплектующие? Эдак 4 4060 ТИ?

Аноним 27/11/23 Пнд 10:11:20 № 556290 89

>>556195
А кто-то в прошлом треде говорил, что Фуйу хороша. =D
Только текст с двача читать умеет. =) Забавно.
А шарку заценим.

>>556246
Звучит как да, но надо считать (тебе трех мало будет?).
3090 если возьмешь дешево с рук, или поймаешь на мегамаркете с большим кэшем.
Иных идей нет, если честно.

Аноним 27/11/23 Пнд 10:17:02 № 556296 90

>>556290
Хочется семидесятки в высоком кванте с большим контекстом запускать, хотя как я понимаю, контекст по нескольким карточкам хреново делится

Аноним 27/11/23 Пнд 10:18:35 № 556299 91

>>556246
Зачем тебе т/с когда нужна vram? Или тебе неинтересны 33b?

Аноним 27/11/23 Пнд 10:20:23 № 556301 92

>>556299
Может на крутом процессоре с супер быстрыми ДДР5 достигает высокой скорости. 33В тоже интересны, потому что тогда будет больший контекст влезать

Аноним 27/11/23 Пнд 10:24:26 № 556306 93

>>556296
Если ниче не поменялось, то контекст падает на первую, поэтому смело вписываешь в gpu-split 6,16,16 и все норм работает.
Но не гарантирую, раньше так было, во времена ExLlama 1.
Ну, если хочется — хозяин-барин. =) Только про питание не забудь. Понятное дело, что одновременно они работать не будут, и 700 ватт тебе не нужно, но… Сам понимаешь, БП нужен не маленький и с кучей проводов. =)

Аноним 27/11/23 Пнд 10:28:50 № 556310 94

>>556246
>Мне кажется что это урывание P40
Кажись китайцы не хотят выпускать эту няшу из страны, лол.

Аноним 27/11/23 Пнд 11:04:16 № 556356 95

>>556246
> P40
Это ультранищенский вариант для 70В. Т/с там просто нет. По цене/скорости лучше всего 3090, её тебе хватит на 34В.

Аноним 27/11/23 Пнд 11:21:05 № 556376 96

>>556195
>unique
>captivating
>unusual
>unique
>unique
Описания от нейросеток ещё более убогие и цепляющие глаз, чем тексты от них. От всех этих униКальностей уже триггерит не хуже, чем от молодых ночей.

Аноним 27/11/23 Пнд 11:37:08 № 556393 97

>>556356
У меня уже есть 4090 в связке с 3060, по идее хватает для 70В 3Б, но мне хочется быстрее и больше

Аноним 27/11/23 Пнд 11:40:08 № 556394 98

>>556393
Ну так меняй 3060 на 3090, будет база треда для 70B в 4 битах. Третью тебе вряд ли есть куда вставлять, так что увы, это твой пердел.

Аноним 27/11/23 Пнд 12:33:19 № 556455 99

>>556394
Соглашусь, что городить кучу видях в три слота с водянками и прочим — жесть. Проще взять 3090. Да, бп, но так попроще, чем мучаться с охлаждением трех сразу.
ИМХО.

Аноним 27/11/23 Пнд 12:44:22 № 556466 100

>>556394
3090 - дорого в соотношении рубль за гиг врам, и есть риск БУ

Аноним 27/11/23 Пнд 12:50:43 № 556472 101

>>556466
Так ты определись тебе врам надо или скорость. Покупай 4090 тогда, если б\у боишься.

Аноним 27/11/23 Пнд 13:04:37 № 556486 102

>>556472
Я хочу советского консула....

Аноним 27/11/23 Пнд 14:46:25 № 556594 103

>>556209
> Весь пропт на экране
Системный промт, не твой чат. Если там написано про вежливость и безопасность то любая модель будет так отвечать. Ей похуй что ты там думаешь и ждешь, она выполняет инструкции.
>>556246
3090 из некроты. У P40 есть шанс и были заявления про нереально высокий для нее перфоманс в комбинации, но пока без подтверждений, ждем пока местному придет она. Если будет в 4+ раз медленнее 3090 то по прайс-перфомансу сосет, и сюда же требует колхоза с шумным охладом и хрен потом ее продашь. Если будет проигрывать всего в 2-3 раза то самый выгодный вариант, пусть и с нюансами.
> Эдак 4 4060 ТИ
Комбинирование большого числа слабых видеокарты - заведомо фейл, потому что финальный перфоманс будет кратно медленнее чем и так не быстрый чип. Но 4060ти вариант неплохой, из минусов пограничный размер, который на паре в теории позволил бы катать 40-50б в хорошем кванте или 34 с оче большими контекстами, но для 70 пришлось бы сильно ужимать. Если брать 3 то 70 уже доступны, но перфоманс будет в лучшем случае 5-6т/с.
>>556296
> Хочется семидесятки в высоком кванте с большим контекстом запускать
Пара A6000@48, A100@80 и подобные игрушки к твоим услугам. Контекст и прочее делится нормально, вся проблема в падающем перфомансе при использовании нескольких.

Аноним 27/11/23 Пнд 14:50:14 № 556596 104

>>556376
Стиль описания можно запрунить и сделать любым, оптимизировав промт, особенно при гибридной обработке. Там суть в способностях по восприятию пикчи, их и нужно сравнивать.
>>556393
Какой перфоманс выдают? Как разместил? Планируешь ставить третью или заменять ею 3060?
>>556466
Увы, но зато там чип шустрый надо было брать летом когда они по 45к были

Аноним 27/11/23 Пнд 15:04:49 № 556606 105

>>556594
>Если будет в 4+ раз медленнее 3090
Есть сомнения, что не будет? По памяти просос в 2,7 раза (346 против 936), по FP32 просос в 3 раза (12 против 35.6), по INT8 вообще в 6 (284 против 47). И это без оптимизаций под тюринги, с ними разрыв сразу множится на х2.

Аноним 27/11/23 Пнд 15:47:02 № 556648 106

>>556596
На пустом контексте 10-11, на полном в 12288-(карточка+промпт) примерно 3-5. Разместил 4090 в главный слот, 3060 во второй. Третью не поставить, заменять не хочу, т.к. тогда я получу прирост в 4 гб за 100к, что значит что надо покупать новую материнку и прочее. Вот думал о том как бюджетно нарастить мощность

Аноним 27/11/23 Пнд 15:47:33 № 556649 107

>>556648
Вечером пришлю скрины, чтобы быть точным

Аноним 27/11/23 Пнд 15:52:18 № 556650 108

>>556606
> Есть сомнения, что не будет?
Тут недавно такой поддув желающих верить был что я аж проникся. Шутка ли 4+т/с на 120б с тремя карточками, при том что 2х3090/4090 с тем же лаунчером и аналогичным квантом примерно столько выдают в 70б.
Что в вычислительной мощности сосет, это очевидно и потому непонятно откуда в ней берется числа перфоманса о которых местами заявляют. С другой стороны, возможно дело в макаронном коде под эти древние карточки, что значит потенциальный буст перфоманса новых гпу. Учитывая скорости куда в llamacpp, где еще веса с достаточно равномерной битностью, такое вполне ожидаемо.
>>556648
> на полном в 12288-(карточка+промпт) примерно 3-5
Воу воу, там точно не выгружается в рам? На последней экслламе с флеш аттэншн скорость на большом контексте почти не просидает, если не считать переобработку этого контекста (она не сильно просаживает).
> думал о том как бюджетно нарастить мощность
Третью на райзере и поставить вертикально в место где раньше в корпусах были корзины под харды и всякие приводы, вдоль задней стенки. Примерно как на пикреле, офк если влезет без поворота основной карточки.

Аноним 27/11/23 Пнд 15:59:00 № 556655 109

>>556650
А можешь скинуть ссылки на тесты? Так то таким карточкам изза старой версии псины нужна хедт платформа с дохуищей псилиний

Аноним 27/11/23 Пнд 16:06:14 № 556663 110

>>556650
> Воу воу
Это в exl2 3 бита
> с флеш аттэншн
Я на шинде, я сосу бибу без флеш атеншена
> Третью
Дырочки под это на карточке нет

Аноним 27/11/23 Пнд 16:12:13 № 556670 111

>>556195
Можешь скинуть самые сложные пикчи с капшенами с которыми она не обосралась? И лювд пикчи с капшенами для второй? Хочу сравнить с гпт4в

Аноним 27/11/23 Пнд 16:12:57 № 556672 112

>>556670
А, я так понял в ретни уже и так все. Сорян

Аноним 27/11/23 Пнд 16:18:01 № 556678 113

>>556655
Вон >>549125 → там платформа - устаревшая с pci-e 3.0 с формулой 16+16+8. Она в лучшем случае эквивалентна тому что есть сейчас на десктопе х4 4.0, так что этот вариант отпадает, первое на что были мысли.
>>556663
> Я на шинде, я сосу бибу без флеш атеншена
Обнови убабугу, или просто скачай новую ванклик инсталлером а модели перенеси. Теперь он там есть и на шинде, в 48 влезает аж 5 бит с контекстом 6-8к, с квантами поменьше какой хочешь, скорости выше и главное не замедляются с ростом контекста, только если переобработка и то немного.
> Дырочки под это на карточке нет
?
>>556670
Скидывай пикчи которые хочешь увидеть, оно быстро обрабатывается и как в следующий раз буду этим заниматься их тоже добавлю рентрай юзаю для рендера маркдаунов а тут и заодно поделиться можно.
Гопота-вижн левд отсеивает сразу еще до генерации токенов, если знаешь как обойти - поделись.

Аноним 27/11/23 Пнд 16:21:41 № 556682 114

>>556678
> Обнови
Да ладно? Если так, то охуенно. Скажи номер версии уги, чтобы быть точно уверенным. Хотя у меня всё равно только 36, так что особых иллюзий я не питаю
> ?
PCI слота всего два

Аноним 27/11/23 Пнд 16:27:41 № 556688 115

>>556678
Самый простой способ. Более сложный писать сейф вещи вотермарками. Еще более сложный но помогающий с шизой это представлять изображение как шутку или исследование, те например надпись well satisfied kitty с одной стороны кот с другой сам понимаешь что. Это в основном чтобы обойти рефьзал систем.
Чтобы обойти само нежелание вижена рассказывать (по умолчанию он будет просто пиздеть и фантазировать игнорируя пичку, очень эксплицитно но все равно фантазировать) нужно уже наебать гпт модель. В этом плане помогает самый сложный процесс наеба с пикчей и обычные джейлбрейки (только очень мощные).
Вообще я очень давно этим не занимался, почти сразу после релиза дропнул. Печально что за это время никто новые жб не обкотал. В аисге сидят совсем уж безинициативные дегенераты

Аноним 27/11/23 Пнд 16:29:14 № 556691 116

>>556678
> что этот вариант отпадает
Почему? Больше линий с одного процессора по дешевке не получишь. Это лучший вариант для п40 как я вижу

Аноним 27/11/23 Пнд 16:32:02 № 556692 117

>>556691
А может им и не нужны линии? Я не очень представляю как происходит обменн данных карточками. Может почти никак, тогда на линии похуй. Для одной карты по крайней мере точно похуй

Аноним 27/11/23 Пнд 16:36:31 № 556696 118

>>556682
Ласт коммит стоит, вроде пока проблем не замечено.
>>556688
О, спасибо, норм тема. Это хорошо что можно его таким образом заабузить. Интересно, что там с обучением этих мультимодалок, доступно ли это нищебродам без гпу кластера, а то рили попробовать зафайнтюнить ту модель левдсами.
Алсо там явно немалая часть преимуществ идет от тренированного клипа, возможно это направление может быть перспективным.
> В аисге сидят совсем уж безинициативные дегенераты
Просто не успели преисполниться и еще обычный кум а не пердолинг вставляет.
>>556691
Там про то что та платформа не обеспечивает какой-то феноменальной пропускной способности по сравнению с обычными десктопами чтобы это как-то роляло в плюс. Для P40 некрозеоны и плата с распаянными линиями - то что нужно, колхозить этот пылесос в обычную пекарню - хз.

Аноним 27/11/23 Пнд 16:51:03 № 556709 119

>>556696
Ну на новой пекарне у тебя будет только 8+8 линий так что на ней и 3 п40 не запустишь, по идее, если им конечно все же нужны псилинии для обмена данными

Аноним 27/11/23 Пнд 17:11:12 № 556727 120

>>556057
>oobabooga, llama.cpp (не HF), 4K контекст, 5 тредов, mlock, cpu. >Версия чисто cpu-шная, никакого ускорения нет. Фронтом — та же ллама.
>Ну и учитывая, что 70B модели 0,7 токена/сек выдают на таком железе, удивительно, что 20B выдает 1 или меньше.

Попробовал угабогу с ламой и твоими настройками, до этого юзал кобольд...
А вот теперь, знатоки, поясните КАКОГО ХУЯ?!
Output generated in 148.97 seconds (0.74 tokens/s, 110 tokens, context 1054, seed 1669618665)
И это на 7В модели. Неужели у меня настолько дно железо, или руки настолько из жопы или я просто проклят?

Мой конфиг:
Ryzen 5 5600X 2667 16Гб
2x DDR4 2

ЧЯДНТ?!!!

Аноним 27/11/23 Пнд 17:20:44 № 556736 121

>>556727
1) ГОНИ ПАМЯТЬ БЛЕАТЬ. 3600 мгц чтоб при следующем запуске было.
2) Учитывая неразогнанную память, уместно спросить, в каких слотах она у тебя стоит и работает ли в двухканальном.
3) Тредов тоже многовато, оптимально физядра-1.
Ну и да, это процессор, чудес не жди.

Аноним 27/11/23 Пнд 17:21:04 № 556738 122

>>556727
Ты нахуя 12 тредов выставил? Ставь 4 или 6.

Аноним 27/11/23 Пнд 17:23:46 № 556741 123

изображение.png 61Кб, 1722x532

>>556736
>Ну и да, это процессор, чудес не жди.
Ну кстати поржать для запустил модель страдальца на 7900х и DDR5 6200, результаты пикрил.

Аноним 27/11/23 Пнд 17:28:31 № 556744 124

>>556736
Ну у меня в материнке всего 2 слота, она и проц поддерживают 2 канала, так что наверное в двухканальном.

Память 2 плашки по 2667 мгц. Как её гнать? И куда?

Аноним 27/11/23 Пнд 17:31:51 № 556747 125

>>556744
Гони частоту. Тайминги не в приоритете.

Аноним 27/11/23 Пнд 17:34:18 № 556749 126

Аноним 27/11/23 Пнд 17:34:45 № 556750 127

>>556744
У тебя самый лучший производитель процов на свете, и тебе доступен Ryzen DRAM Calculator. Мозгов вообще уже не нужно.

Аноним 27/11/23 Пнд 17:35:46 № 556753 128

Сейчас юзаю https://huggingface.co/TheBloke/Toppy-M-7B-GGUF/tree/main?not-for-all-audiences=true вместо 13в и вполне годно на 8гб видяхи-то. Подскажите если квант выше поставить будет лучше?

Аноним 27/11/23 Пнд 17:37:16 № 556755 129

>>556753
>если квант выше поставить
Выше чего?

Аноним 27/11/23 Пнд 17:42:15 № 556760 130

>>556594
> финальный перфоманс будет кратно медленнее чем и так не быстрый чип
Нет, нет там никаких «кратно», потери есть, но не столь фатальные, для 3-4 видеокарт.
2 видеокарты вообще выдают практически родной перформанс, теряя от силы процентов пять.
Не нашел точных результатов, но судя по всему, 4060 ti должна выдать в районе 30-50 токенов на 7B.
Это значит, что на 70B она должна выдать 3-5 токенов/сек. Это БЕЗ потерь. А с потерями там и 2-3 токена может быть.
Ты же говоришь о кратных потерях — т.е. минимум двукратный будет 1,5-2,5 а то и ниже.
Перформанс на 7B и перформанс на 70B — разные перформансы. Их различие в 10 раз — не есть кратное падение перформанса. Кратное падение, это когда если бы на условной 4060 ti было бы 100500 условных гигабайт, ты бы замерял скорость упираясь в чип и память, а потом поставил бы риг из таких карт и скорость бы отличалась в несколько раз. А 7B/13B с 70B надо сравнивать с коэффициентом.
На двух видяхах потерь почти не было уже летом. Сомневаюсь, что за полгода перформанс мульти-гпу испортили в несколько раз. =)

Так что, как минимум две видяхи покажут вполне ожидаемый результат. Три замедлятся, но вряд ли сильно. Кратного падения до уровня проца там быть не должно.

ЗЫ У меня нет трех 4060 ти — затестить не могу физически, сорян.

>в лучшем случае 5-6т/с
Не могу гарантировать, но кажется, ты его существенно завысил даже, а не «кратно уменьшил».

>>556606
Это называется «Надежда». =)
На реддите же несколько ноунеймов выкладывало тесты… )))
(все еще подозреваю, что это сами продавцы)

>>556648
С 4060 ти не совсем ясно, насколько она превосходит 3060 в ллм (если вообще превосходит).
Смысл там именно в объеме+новая, а не в «наращивании мощи». Возможно мощь даже потеряешь.

>>556650
Плюсую, райзер дорогой-надежный купить и воткнуть, норм варик.

>>556682
Ауч.

>>556692
Несколько тредов назад кидали.
Там формируются данные между слоями и кидаются. Зависит от контекста. В итоге там че-то в самом худшем случае получалось 1 секунда для передачи между картами на 1 линии 3 версии. Если мне память не изменила.
Короче, если у тебя 200к контекста и 10 видеокарт на PCIe 3.0 x1, то придется ждать лишних 3 минуты. Но если 3 видяхи и 4к контекста, то 2 секунды. А на PCIe 4.0 x4 — 250 мс.
Такие вот примерные прикидки вышли.

>>556727
У тебя контекст там сто лет обрабатывался, а сгенерировано 100 токенов.
Смотри рядом — генерация 1,8 токена/сек. =)
Ну или задай второй вопрос, когда контекст уже будет в кэше, и смотри, че выйдет.

Аноним 27/11/23 Пнд 18:01:34 № 556763 131

>>556755
Выше чем 5_S
Например toppy-m-7b.Q6_K.gguf

Аноним 27/11/23 Пнд 18:17:07 № 556768 132

В треде не был с начала лета. Я не понял, на p40 завезли что какую-то квантизацию? Или чем вызван ажиотаж?

Аноним 27/11/23 Пнд 18:19:15 № 556771 133

>>556768
Постами с реддита, где один запустил 120b с какой-то лютой скоростью, а кто-то получает 40 токенов на 13B.
Но могут не только лишь все.
Непонятно, так это или не так.
Вероятно нет, но это все еще самая дешевая память.
Ждем, пока доедет герою, и он ее затестит по уму.

Аноним 27/11/23 Пнд 18:22:22 № 556774 134

>>556771
Но я правильно понимаю что на ней даже 8бит не запустить?

Аноним 27/11/23 Пнд 18:31:03 № 556781 135

>>556774
Какие 8 бит? :) Все на ней запускается, как на обычной. 7B и 13B люди запускали даже на видосах на ютубе.
И даже через встройку/стороннюю карту поиграть можно.
Просто непонятно на данный момент, какая реальная у нее производительность.
Она то ли выходит вровень с DDR5 (что в принципе уже делает покупку неплохой для тех, кто сидит на старом железе), то ли вчетверо быстрее, а это уже кое-что.
Плюс, она занимает два слота, что позволит даже в обычные материнки вставить до 3-4 штук. Но надо колхозить охлад.
Но, бросаться ее покупать тоже не стоит, мало ли че там на самом деле.
Плюс, они, все-таки, из серверов, непонятно, сколько проживут. Может годик. Может пять лет. А может через неделю работы крякнут.
Такое, короче.

Аноним 27/11/23 Пнд 18:33:30 № 556783 136

>>555221 →
Это 3b квантование? Какую то шизу выдает, совсем как будто другая модель в отличии от 20б

Аноним 27/11/23 Пнд 18:33:56 № 556784 137

image.png 36Кб, 659x214

>>556649
На вычеркнутой таверна баганула

Аноним 27/11/23 Пнд 18:37:35 № 556787 138

>>556781
Но у нее же вроде нет каких-то инструкций нужных для квантизации?

Аноним 27/11/23 Пнд 18:42:16 № 556788 139

>>556727
Для начала сними все галочки, потом попробуй вообще не трогать ползунок threads, пусть в нуле стоит по дефолту.
Далее - у тебя почти все время ушло на обработку промта с 1055 токенов и на проце это норма. Хотя довольно долго и сама генерация не быстрая, ищи что срет.
>>556760
Блять опять эта шиза.
У тебя чип считает модель что помещается полностью в его память и выдает условные 12 токенов. Когда ты заставишь 3 карточки считать поделенную большую модель что будет в каждой занимать такой же объем, то не получишь те же 12 токенов, в лучшем и самом идеальном 4т/с, а с учетом потерь и того меньше.
> потери есть, но не столь фатальные, для 3-4 видеокарт
Ты проверял? Только и годен огроменные шизопосты хуярить да теоретизировать.

Аноним 27/11/23 Пнд 18:59:43 № 556801 140

>>556783
>Это 3b квантование?
Да.
>совсем как будто другая модель в отличии от 20б
С чем конкретно сравниваешь?

Аноним 27/11/23 Пнд 19:02:52 № 556804 141

>>556801
Вот с этой https://huggingface.co/Undi95/MLewd-ReMM-L2-Chat-20B-GGUF/blob/main/MLewd-ReMM-L2-Chat-20B.q5_K_M.gguf

Аноним 27/11/23 Пнд 19:04:26 № 556805 142

Неужели никто на майнинг-ферме с кучей видеокарт не пробовал это запускать?

Аноним 27/11/23 Пнд 19:19:40 № 556816 143

>>556787
Скорее, для ускорения. =) Поэтому на какой-то невысокой скорости — будет.

>>556788
Опять твой ядерный бред…
Ты даже в калькулятор не можешь.

Просто стыдно читать, я уже не знаю, как тебе пояснить.
Скорость — не делится, прикинь.
С увеличением размера — увеличивается время.
Втрое больше объем — втрое больше время.
Скорость — та же.
Понимаешь?

Тебе надо в начальную школу, в каком там классе проходят операции деления и умножения.

Давай так.
Есть видеокарта с 24 гигами.
Чтобы прочесать всю память на чтение ей нужны условные 20 секунд.
Есть система с двумя видеокартами по 24 гига.
Чтобы прочесать всю память им нужно 20+20 секунд (и задержки передачи, но мы их проигнорируем).
В первом случае, у нас влезет условная 70B модель с 2.55 bpw. И ее перформанс составит условные 40 токенов/сек.
А в 48 гигов влезет уже 70B модель с 5.0 bpw. И ее перформанс составит уже 20 токенов/сек.
Но, йобаный ты по голове олигофрен, это один и тот же перформанс, учитывая размеры сетки! Никакого кратного изменения тут не происходит, потому что в первом случае ты тратишь 20 секунд на 24 гига, а во втором — 40 секунд на 48 гигов! Учитывая, что ответ будет одинакового размера — количество токенов в секунду будет отличаться. Но в одном случае ты будешь крутить вполовину более тупую сетку.

Это, блядь, базовое, физическое ограничение — тебе нужно определенное время затем, чтобы прочесть всю память.

И с размером памяти — не меняется скорость, меняется время.

Никаких проблем с экстраполяцией более мелкой/пожатой сетки нет.
Банальный пример — запустить 7B и 13B с одинаковой битностью и ты увидишь, что скорость отличается чуть менее, чем вдвое (как и размер сетки). Так же и 13B приблизительным делением на 5 экстраполируется до 70B.
Конечно, есть нюансы, и скорость может плавать туда-сюда (7B может быть медленнее, чем ожидалось от нее относительно 13B, а следственно, 70B может быть быстрее, чем ожидалось от нее относительно мелких сеток), но примерные числа представить можно.

И когда я тестил две видяхи — то их скорость с точностью до токена совпала с расчетной. Когда я гонял слои с одной видяхи на другую (менял gpu-split), то результат менялся — и опять менялся по правилам простой математики.
И пока я не увидел ни единого отзыва или аргумента, что на 3 видяхах ВНЕЗАПНО все ломается к хуям и скорость падает в несколько раз.
А вот иные отзывы из интернета людей, которые делали такие же тесты как мои — так же полностью совпадают с расчетами.

Я хуй знает, что с тобой не так, но в твоем случае уже и таблетки не помогут.

Вставлять три видяхи и тестить на них не буду — мне лень разбирать два компа ради этого.
То, что ты не веришь уже в простую математику — это сугубо твои проблемы.

Аноним 27/11/23 Пнд 19:26:28 № 556819 144

>>556678
Я обновил угу, но всё равно что-то не вижу как использовать флеш атеншен, подскажите как их включить?

Аноним 27/11/23 Пнд 19:26:47 № 556820 145

>>556801
А эта поместиться в колаб? https://huggingface.co/Kooten/MLewd-ReMM-L2-Chat-20B-6bpw-exl2/tree/main?not-for-all-audiences=true

Аноним 27/11/23 Пнд 19:27:15 № 556821 146

Я придумал, как объяснить эту хуйню.

Короче.
Ты едешь на машине из одного города в другой.
Между городами 100 км.
Ты доезжаешь за 2 часа.
Но если ты поедешь в следующий город —окажешься на курорте и ты хочешь туда.
Туда ехать еще 100 км.
И вот, ты выезжаешь из своего города, едешь 200 км, доезжаешь за 4 часа (и 5 минут поссать во втором городе, потому как забыл сходить перед выездом).
Внимание, вопрос: машина стала ехать вдвое медленнее от того, что ты ехал 4 часа, вместо 2?

Загадка Жака Фреско, на раздумье дается сто лет.

Аноним 27/11/23 Пнд 19:27:43 № 556822 147

Что анон скажет про "orca 2" от microsoft?

Аноним 27/11/23 Пнд 19:31:57 № 556825 148

>>556816
> Банальный пример — запустить 7B и 13B с одинаковой битностью и ты увидишь, что скорость отличается чуть менее, чем вдвое (как и размер сетки).
Но если взять одинаковый размер, скорость всё равно упадёт. Ну это так, к слову, что может лучше неквантованную 34б крутить а не квант 70б.

Аноним 27/11/23 Пнд 19:32:39 № 556826 149

>>556804
А запускаешь точно также с теми же настройками?

>>556820
В колаб с учётом контекста 4к условно не влезет ничего больше 9,5 Гб. Но если уменьшить контекст до 2к, то влезет 10,5 Гб, для 20В это q4. Такие варианты в колабе тоже есть.

Аноним 27/11/23 Пнд 19:35:29 № 556829 150

Блядь! Пацаны...
Чтобы передать данные из одной видеокарты в другую передающей видеокарте нужно вызвать dmi и записать свои данные в разделяемую память, затем второй видеокарте нужно вызвать dmi и прочитать эти данные.
Задержка будет в [ pci-e → оператива ] и обратно. Аналогии всегда неверны.

Аноним 27/11/23 Пнд 19:37:07 № 556831 151

>>556829
Бля какой же пердолинг что бы стручек потилибонькать, ради этого мы родились?

Аноним 27/11/23 Пнд 19:40:07 № 556836 152

>>556825
Была бы у нас нормальная 34B, а не кодллама…
Хотя ладно, я просто не пробовал китайцев. Может и так.
Энивей, кому-то хочется 70B и это их принципиальная позиция — с учетом минорных отличий, кто мы такие, чтобы запрещать людям?

>>556829
Не буду спорить, но тут вопрос их критичности. Речь идет о нескольких мегабайтах данных, если мне память не изменяет.
А учитывая, что эту операцию надо произвести количество видеокарт минус один раз — то там не так критично это. Это не потоковая передача, где задержки могут возникать постоянно. Это один файл, который передался — и пошел работать дальше.

Со слов разраба ExLlama, конечно.

Аноним 27/11/23 Пнд 19:47:01 № 556845 153

>>556836
>Речь идет о нескольких мегабайтах данных
>Со слов разраба ExLlama
Ох, звучит любопытно. Позже проверю. Когда приедет p40.
Кстати, заметил, что lamacpp тратит дохуя памяти если выгружаешь слои в карточку.

Аноним 27/11/23 Пнд 19:47:09 № 556846 154

>>556816
Ля разосрался, долго сочинял? Врядли это кто-то прочтет этот суммарайз того что было в треде и собственных трактовок, всеравно нового ничего не скажешь.
>>556819
Оно по дефолту работает при использовании экслламы, если нет лишних варнингов значит все ок.
>>556821
Пикрел
>>556829
Все так, вопрос в объеме пересылаемых данных и скорости-задержках интерфейса.

Аноним 27/11/23 Пнд 19:49:23 № 556848 155

>>556763
7B я бы рекомендовал юзать исключительно в Q8.
>>556774
Технически INT8 на ней есть. Но на средите читал, мол, нужна версия битсадбайта (или как там это говно зовётся) использует кроме INT8 ещё пару новомодных инструкций, которых на старых картах нет, и если скомпилять под себя, то можно зараннить INT8 на паскальных теслах.
>>556819
Его можно только выключить, емнип.
>>556822
Соя же, плюс они вроде как вообще нихуя не выпускают, кроме пресс релиза. По крайней мере первой орки я от них не видел.
>>556829
Всё так. И задержки там ебейшие.
>>556836
>Энивей, кому-то хочется 70B
Всем хочется, но не все могут.
>>556845
>Когда приедет p40.
Если приедет. У тебя кстати какой статус на сайте почты?

Аноним 27/11/23 Пнд 19:51:32 № 556852 156

image.png 10Кб, 843x78

>>556846
>>556848
Не, на работает по дефолту

Аноним 27/11/23 Пнд 19:55:03 № 556855 157

>>556848
> 7B я бы рекомендовал юзать исключительно в Q8.
Плюсану, скорость падает не критично (если не с телефона), а ломаются мозги не так сильно, как при большем сжатии.

> Если приедет. У тебя кстати какой статус на сайте почты?
Ну, 11.11, почта работать будет долго, Китай жи.
Предположу, что можно как неделю ждать, так и месяца полтора, и это будет нормально.
Так что, я бы на месте героя не ждал, а готовился (ждать долго).

Аноним 27/11/23 Пнд 20:02:44 № 556860 158

>>556836
> А учитывая, что эту операцию надо произвести количество видеокарт минус один раз — то там не так критично это. Это не потоковая передача, где задержки могут возникать постоянно. Это один файл, который передался — и пошел работать дальше.
> Со слов разраба ExLlama, конечно.
И что выходит, если с авито взять хуитку уровня пикрелейтед, можно гонять 70b 4bit с терпимой скоростью? Или упрётся в чип/шину/память и там будет ноль целых хуй десятых токенов/сек? Моя не понимат...

Аноним 27/11/23 Пнд 20:04:48 № 556864 159

изображение.png 43Кб, 130x1715

>>556852
Эти пидоры всё ещё не выпустили готовый файлик под шинду и заставляют компилить это говно из сорцов?

Аноним 27/11/23 Пнд 20:05:56 № 556867 160

>>556836
> Это не потоковая передача, где задержки могут возникать постоянно.
>>556846
>Все так, вопрос в объеме пересылаемых данных и скорости-задержках интерфейса.
>>556848
>Всё так. И задержки там ебейшие.

Проблема в том, что такая сборка видеокарт не может в абсолютный параллелизм (смысл cuda, а одна а80 может), а вырождается в конвейер из нескольких этапов, это зависит от количества карточек.
В итоге: хуй знает что будет с производительностью.

>>556848
>Если приедет. У тебя кстати какой статус на сайте почты?
Она у меня в статусе "Передаётся в доставку". Инфа о трек номере "временно недоступна".
А что у тебя? Думаешь, что продаван кинет?

Мимо китаедаун на → >>556829

Аноним 27/11/23 Пнд 20:06:27 № 556869 161

>>556860
Где ты найдешь плату на 8 портов с хотя бы 8ю линиями на карту ебанутый?

Аноним 27/11/23 Пнд 20:07:29 № 556873 162

>>556869
Ещё и проц подходящий надо брать.

Аноним 27/11/23 Пнд 20:09:05 № 556876 163

>>556860
Чем больше карт, тем выше накладные, очевидно же. Для 2-х вроде как терпимо, три в этом треде ЕМНИП ещё никто не запускал.
>>556864
А, вебуи качает у этого поцика, надо по идее свежую куду накатить. Сейчас попробую.
https://github.com/jllllll/flash-attention/releases/tag/v2.3.4

Аноним 27/11/23 Пнд 20:10:45 № 556880 164

>>556867
>Она у меня в статусе "Передаётся в доставку".
А сам продаван что? Сделал нужные видосики?
>А что у тебя?
Висит на таможне с 22 числа. >>556310

Аноним 27/11/23 Пнд 20:12:41 № 556882 165

>>556852
Когда обновлял еще после выхода этих новых ванкликов просто снес старую и с нуля гитклон репы и потом через батник запустил.
Если не хочешь так - попробуй из вэнва pip install --upgrade --force-reinstall -r requirements.txt чтобы оно все последнее нужное подсосало.
>>556860
> можно гонять 70b 4bit с терпимой скоростью?
Смотря что ты понимаешь под терпимой скоростью.

Развивая аналогию поеха, генерация токена = доставка груза поездом, видеокарта = локомотив, мощность гпу = его мощность, врам = длина участка на котором он может ездить, размер модели = общая длина доставки.
Имеешь один мощный состав, участок работы которого покрывает необходимое тебе расстояние - будешь иметь быструю логистику и соответственно скорость ответа.
Имеешь 2 мощных состава и для покрытия дистанции нужно 2 участка - получишь всеравно быструю логистику но с потерей времени на перецепку вагонов.
Ферма со слабыми гпу - куча оче слабых составов, каждый из которых по очереди будет доставлять груз по своему короткому участку со скоростью с разы меньше чем у мощных, так еще и на серию состыковок лишнее время потратишь. В итоге вся логистика по пизде из-за невероятно низкой производительности.
>>556867
> а вырождается в конвейер из нескольких этапов
Все так, без мощного гпу, который позволил бы быстро обрабатывать модели, это неюзабельно ибо их мощности не складываются.

Аноним 27/11/23 Пнд 20:12:52 № 556883 166

>>556860
Упрется.
Не скажу точно сколько, но тесты 1660с меня нихуя не порадовали в принципе. Щас точно не упомню, я на работе ее тестировал.
Но вышло что-то в районе… Раза в два-три быстрее ддр4 обычный.
Типа, возможно эта ферма аутперформит обычный комп на ддр5, а возможно ему и сольет.
Выбирая между новой ддр5 платформой и этими старыми майненными картами — не рекомендую брать старье. Ты за 50к будешь на оперативе с той же скоростью крутить, крайне вероятно.
Смотреть надо в худшем случае 20хх поколение (или аналоги), а лучше 30хх и 40хх.

>>556867
Если честно, думаю не кинет. Там же были отзывы, похожи на настоящие.

>>556869
Нах линии нужны, там задержки между видяхами будет не самой большой болью… =)
Чай не 4090 пихает, а 1660с.

Аноним 27/11/23 Пнд 20:15:52 № 556889 167

>>556882
А я уже поел этого говна, до твоего совета. В итоге сломалась вся эксллама2. В итоге целиком переустанавливаю

Аноним 27/11/23 Пнд 20:17:29 № 556890 168

>>556883
> а лучше 30хх и 40хх.
Только ценник там в небеса, типа за 8 гиг 70к, лол, тут уже проще бытовые карты брать.

Аноним 27/11/23 Пнд 20:19:14 № 556894 169

004.jpg 34Кб, 1283x289

>>556880
>А сам продаван что? Сделал нужные видосики?
Нет. А у тебя?
>>556880
>Висит на таможне с 22 числа.
У меня год назад материнка от Хуанан месяц провалялась в таможенном пункте Тургат. Хз, что сейчас с таможнями, под новый год.

>>556883
>Если честно, думаю не кинет. Там же были отзывы, похожи на настоящие.
Надеюсь. Мне тоже срок работы, список товаров и длительность работы не показались похожими на скам.

Аноним 27/11/23 Пнд 20:22:59 № 556900 170

>>556894
>Нет. А у тебя?
Да, я ж выкладывал его тесты с мистралем.

Аноним 27/11/23 Пнд 20:25:17 № 556905 171

>>556900
Ох. Поищу. Спасибо. Давно не залетал в тред или проебланил где-то вверху

Аноним 27/11/23 Пнд 20:26:13 № 556908 172

Чет вижн как-то совсем не справляется с кораблем. Хм... Есть фронтенды помимо агнаи ст т и рису с его поддержой?

Аноним 27/11/23 Пнд 20:28:24 № 556912 173

image.png 17Кб, 658x117

>>556889
Переустановил в итоге, ускорение чувствуется, спасибо, анончики, что рассказали что теперь можно и на винде. Но какой же криворукий Уга ушлёпок, сил нет!

Аноним 27/11/23 Пнд 20:28:29 № 556913 174

изображение.png 41Кб, 1679x494

>>556882
>Если не хочешь так - попробуй из вэнва
Ебать наркоман.
>>556889
Короче на самом деле всё просто. Предварительно поставь последнюю куду:
https://developer.nvidia.com/cuda-12-1-0-download-archive?target_os=Windows&target_arch=x86_64&target_version=10&target_type=exe_local
Переименуй каталог installer_files и запусти start_windows.bat. Тогда, с новой кудой, скрипт установки подтянет скомпиленые флеш аттеншены.

Аноним 27/11/23 Пнд 20:29:18 № 556914 175

>>556912
Бля, сорян, не успел.
>>556913

Аноним 27/11/23 Пнд 20:31:53 № 556916 176

>>556908
> Есть фронтенды помимо агнаи ст т и рису с его поддержой?
А ты через что делаешь?
>>556913
> Ебать наркоман.
А что не так?

Аноним 27/11/23 Пнд 20:33:21 № 556919 177

>>556916
СТ очевидно

Аноним 27/11/23 Пнд 20:33:30 № 556920 178

>>556916
>А что не так?
Запускать самому консоль, входить самому в эти самые венвы (я даж не знаю, как это делается), вбивать команду размером чуть ли не одну треть для установки генту. Ну нах, проще снести и два раза клацнуть на запуск.

Аноним 27/11/23 Пнд 20:38:15 № 556923 179

>>556919
А бля, в глаза ебусь. Вот пример примитивного скрипта для взаимодействия, там все просто https://blog.nextideatech.com/gpt-4-vision-api-is-a-game-changer/
>>556920
> проще снести и два раза клацнуть на запуск
У тебя контекст на одну строчку? Ведь в той что выше именно об этом и написано.
> Запускать самому консоль
Многие кто сидят давно ставили не через ванклики, старые версии которых были дико убогие и багованные, а через венв и рекварментс, там буквально 2.5 команды. Обернуть запуск в скрипт потом это никак не мешает.

Аноним 27/11/23 Пнд 20:43:40 № 556927 180

>>556923
Спасибо, но мне бы конечно хотелось бы что-то с промптменеджером а то хуй так взломаешь его сою. Ладно может сам разберусь

Аноним 27/11/23 Пнд 20:45:40 № 556930 181

image.png 25Кб, 663x178

>>556914
Ух бля...

Аноним 27/11/23 Пнд 21:00:17 № 556944 182

>>556890
Да, не покупабельно пока что.
Не, ну аналоги 20хх есть по 12-15 тыщ за 10 гигов.
Но с такими ценами дешевле было брать 3060 новые с мегамаркета, чем аналоги 2080 старых. Никакой экономической выгоды нет, и объем низковат.
Так что только P40 и интересен, чисто из спортивного.

>>556912
Написал ван-клик инсталлер.
Не написал к нему обновления.
«Скачайте сами, пожалуйста, мой обновлятор не обновлятор».

Дыа, та ж фигня, обновлял у себя на всех машинах несколько раз с нуля…

———

Хлопцы, поясните плиз.
Попробовал я значит gptq 4bits против exl2 5bpw. Эксллама2 показала себя процентов на 10 быстрее (точнее — медленнее, но с учетом веса модели все-таки быстрее=). Контекст не влез в 12 гигов, буду смотреть веса поменьше.
Но то ладно!

Попробовал ExLlama и ExLlama_HF лоадеры. Ну и версии два, соответственно.
На HF лоадере скорости стабильно ниже 20%.

Объясните, в чем прикол HF, настолько он хорош, что стоит жертвовать 20% скорости?
Не, ну типа, 36 или 44 — конечно не супер-страшная разница… Но все же.

Аноним 27/11/23 Пнд 21:00:35 № 556945 183

>>556930
>3 бита
Но ведь это не много...

Аноним 27/11/23 Пнд 21:01:29 № 556946 184

Грустно. Всякое желание экспериментировать уходит когда видишь столько шизы даже в сейф изображениях
это гпт4в

Аноним 27/11/23 Пнд 21:05:10 № 556949 185

>>556927
> хотелось бы что-то с промптменеджером
Полный промт вот сюда, можно какой угодно.
{"type": "text", "text": "Describe the attached image"}
>>556944
> настолько он хорош, что стоит жертвовать 20% скорости?
Полные семплеры и негативный промт.
>>556946
На сейфовых попробуй без джейлбрейков и рп инструкций, может будет лучше. Если ему сказать что-то типа "описывай кратко в деловом стиле, избегай излишней художественности и фокусируйся на содержимом" то шизы становится меньше.

Аноним 27/11/23 Пнд 21:08:33 № 556950 186

>>556945
Больше скачать не успел, но всё равно чувствуется отлично

Аноним 27/11/23 Пнд 21:13:32 № 556951 187

>>556949
Негатив доступен только в HF?
О как, не знал.
Хорошо, стоит того.
Спасибо!

Аноним 27/11/23 Пнд 22:09:22 № 556999 188

>>556950
Скачал 4 бита - не лезет. Ну и ладно, ну и пожалуйста. Не больно то и хотелось. Хмпф!

Аноним 27/11/23 Пнд 22:17:00 № 557012 189

>>556999
Сам квантани в 3.2-3.5. Там просто, инструкция в репе эклламы.

Аноним 27/11/23 Пнд 22:17:41 № 557014 190

>>556999
Ебашь контекст 512 токенов, будешь как диды сидеть ))
А вообще, 2х24 прям немного не хватает, жду карт по 32 гига врама. Когда там 5000 серия нвидии выйдет?

Аноним 27/11/23 Пнд 22:30:49 № 557026 191

>>557014
В начале 2025, несколько поколений моделей успеет смениться. 32 тоже мало, хотелось бы чтобы вышел какой титан или типа того на 48, чтобы был и мощный но дешевле a6000 или того что придет ей на замену.

Аноним 27/11/23 Пнд 22:36:14 № 557030 192

>>557012
Я уже квантовал себе сам хвин и синтию старую, мне кажется я объебался с параметрами и паркет файлом

Аноним 27/11/23 Пнд 22:43:32 № 557035 193

>>557026
>В начале 2025,
Да ёб, мне 1,5 года сидеть на максимально проигрышной в плане ИИ 3080Ti?
>несколько поколений моделей успеет смениться
Пока я вижу, что выходят в основном огрызки на 7B, и только вот китайцы дотянули до 34. Думаю, если и будут выходить новые базовые модели, то на 70B максимум, ну типа лламы 3 или её китайской копии. Провал фалькона как бы намекает, что попенсорсу 100+B запускать, а уж тем более файнтюнить, просто не на чем.
>хотелось бы чтобы вышел какой титан или типа того на 48
Нет сынок, это фантастика. Нвидия так проёбываться не будет, я не сильно удивлюсь, если они снова выпустят ремастер на 24ГБ, лол, ну или зарежут шину на какие-нибудь 128 бит, сделав объёмы бесполезными для ИИ (в играх завалят кешем, в других РАБочих задачах работа с памятью всё таки не столь интенсивна).

Аноним 27/11/23 Пнд 22:58:01 № 557049 194

>>557035
> мне 1,5 года сидеть на максимально проигрышной в плане ИИ 3080Ti?
Увы
> если и будут выходить новые базовые модели, то на 70B максимум
Все так, этот размер неспроста выбран, популярными будут те, которые можно:
- обучать на одной машине с не более 4-3-2-1 A100
- запускать на 160/80 гб врам
- запускать кванты на 80/... гб врам.
Остальные заведомо будут непопулярны, вон тот же фалкон 180 нахуй никому не сдался в итоге, хотя шуму то было. В теоретической теории можно ожидать промежуточных размеров типа 20-40б.
> Нвидия так проёбываться не будет
Никакой фантастики, уже не раз было, низкая цена в сделку не входила. Потомкам квадры дадут 64+ гига и кому нужно всеравно их купят. Энтузиастам, хитрожопым моделерам и нейродрочерам дадут с лопаты титана или 5090ти за дикий оверпрайс типа 2-3к$ с минимальными отличиями в памяти и чипе от 5090. Хуанг умеет стричь всех от нищуков до мастодонтов, а тут такой расширение рынка со спросом в пограничной области.
> зарежут шину на какие-нибудь 128 бит, сделав объёмы бесполезными для ИИ
Тесты 4060@16 то появились уже, настолько уж она бесполезная с учетом чипа?

Аноним 27/11/23 Пнд 23:00:06 № 557050 195

>>557049
>Тесты 4060@16 то появились уже, настолько уж она бесполезная с учетом чипа?
Походу все смотрят на характеристики и не берут заранее, полютуба завалено роликами, какая же она нахуй бесполезная. Поэтому в реале никто не взял, лол.

Аноним 28/11/23 Втр 00:11:03 № 557095 196

>>556855
А на huggingface у TheBloke на всех моделях q8 написано not recommended

Аноним 28/11/23 Втр 00:16:13 № 557096 197

>>557095
Потому что он пишет универсальную подсказку для всех размеров моделей на основе данных перплексии. И я это уже писал.

Аноним 28/11/23 Втр 00:17:48 № 557098 198

>>557096
То есть модель с большим q всегда будет работать лучше?

Аноним 28/11/23 Втр 00:17:54 № 557099 199

>>557050
> полютуба завалено роликами, какая же она нахуй бесполезная
Хайп блогиров-инфлюенсеров, пиздящих друг у друга контент и оно все про игорь. По ии о ней есть умерено-позитивные отзывы, но их мало.

Аноним 28/11/23 Втр 00:28:42 № 557104 200

>>557098
Да, но это заметнее всего на моделях меньшего размера. Для 7B критично.
>>557099
Всё одно 16 гиг меньше чем 24, 32 и прочее, да и 3060@16 у нас есть уже давно и более доступна, а по важным для ИИ параметрам вроде как не отличается от 4060@16.

Аноним 28/11/23 Втр 01:10:36 № 557117 201

Ты реально рассчитывал что пригожина кто-то поймет?
Ни одна сетка не может в кремпаи. Печально.

Аноним 28/11/23 Втр 01:20:27 № 557126 202

изображение.png 27Кб, 744x75

>>557117
Нынешние поенсорс мультимодалки нужно сжечь.
Ну и очевидно, что в соевых 3,5 картинках производства чатЖПТ, на которых обучали всё это говно, даже близко нет текущих кисок, так что даже те немногие данные от клипа просто не смогли пробиться через промежуточный соевый слой.

Аноним 28/11/23 Втр 01:23:16 № 557128 203

>>557117
> Ты реально рассчитывал что пригожина кто-то поймет?
Шаржпт относительно неплохо описал ведь, навигационное приложение, путь, карта, мужик слева, чвк, пусть и немного глюканул с остальными надписями.
> Ни одна сетка не может в кремпаи. Печально.
Увы, однако совет экспертов шизиков-инвалидов во главе со слепым поехавшим мудрецом скорее всего смогут разгадать такой ребус.
>>557126
Надо делать свой файнтюн, но для этого нужны те еще ресурсы. Из доступных какой-то 2д левд в датасете имела только бакллава. Надо бы попробовать ей подсунуть на вход проектор от шаржпт с файнтюненым клипом, и вообще померджить их, хули бы и нет собственно.

Аноним 28/11/23 Втр 01:24:32 № 557129 204

>>557126
Не, ну то что она там вообще в одежде описана больше похоже на нехватку джейла а не шизу, да
>>557128
Я про юмор

Аноним 28/11/23 Втр 01:33:04 № 557134 205

>>557129
>похоже на нехватку джейла
Да ну я бы не сказал. Тогда не было бы nude.
Хотя мне конечно интересно, насколько нехватка порнухи херит эти модели. И, так как гопота вижен работает в принципе нормально, то сколько порнухи у них в датасете таки было, раз они так тщательно ныкают конкретно картиночную часть за апи модерации.
>>557129
>Я про юмор
В сложный юмор у меня даже 70B не могут. Например по картинкам из прошлого треда, про молот тора с node_modules внутри, я этим самым 70B текстом картинку описал, они даже такое не выкупили, хотя любой околоITшник сразу поймёт, в чём юмор. И по крайней мере Клод приводил правильный ответ.

Аноним 28/11/23 Втр 01:46:29 № 557137 206

>>557129
> ну то что она там вообще в одежде описана больше похоже на нехватку джейла а не шизу
А оно так на большинстве левда, шаржпт почему-то придумывает им одежду. Не только он на самом деле, тут хз тупняк или особенности файнтюна, скорее всего просто не было примеров без одежды, вот и тупит.
> Я про юмор
Эт без шансов, тебе покажи это год назад сам бы не допер, а 2 - так вообще ахуевал бы че за шиза.
В теории юмор могут с других мемасов понять, но для этого нужно им промт соответствующий скормить, тут просто про подробное описание картинки.
>>557134
> то сколько порнухи у них в датасете таки было
Судя по очень скудному опыту тренировок и без претензии на истинность - достаточно относительно и небольшого количества разнообразных подобных изображений с описанием чтобы работало нормально, беда будет только если они вообще будут отсутствовать.

Аноним 28/11/23 Втр 01:50:00 № 557138 207

>>557137
>шаржпт
Ты про визион? Так его надо брейкать, текстом хотя бы. Он упертый.

Аноним 28/11/23 Втр 01:51:09 № 557140 208

>>557138
А бля, сорян. Понял что ты про шейр. Ну поскольку он тренился на вижне его также надо брейкать

Аноним 28/11/23 Втр 01:55:25 № 557142 209

>>557140
>Ну поскольку он тренился на вижне его также надо брейкать
В отличии от вижна он вообще не получал порнушных картинок на вход. А если сеть о чём-то не знает, то она это и не выведет ни с каким джейлом.

Аноним 28/11/23 Втр 01:57:32 № 557143 210

>>557142
В смысле порнушных? Те вообще без обнаженки?

Аноним 28/11/23 Втр 01:59:46 № 557145 211

>>557143
Ну как бы да, у вижна сильный цензор, и он явно не пропускает через себя любую обнажёнку. А значит, все сетки, что обучались только на данных вижна, не было никакой порнухи, обнажёнки и прочих чувствительных материалах. Их конечно видели базовые модели типа CLIP, но это, как мы видим, не сказать чтобы сильно помогало.

Аноним 28/11/23 Втр 02:02:33 № 557148 212

>>557138
Про эту ShareGPT4V-7B , эту мультимодалку. Она один хуй локальная, так что ее можно и не в такую позу поставить что выдаст что угодно.
Но кажется что проблема просто в несбалансированности датасета а не том что он заведомо что-то цензурирует и гейткипит, просто плохо понимает что это такое и как описывает.
Шликающую перед зеркалом втубершу оттуда рерольнул добавив в промт "не стесняйся описывать нсфв"
> The image portrays a scene of explicit sexual content. At the center of the image, a girl is depicted in the act of masturbation. She is lying on her stomach on a bed, with her legs bent and her head resting on a pillow. Her attire consists of a blue and white striped bikini bottom, which contrasts with the pink hue of her skin. In her right hand, she holds a toy, while her left hand is positioned between her legs, indicating that she is in the midst of pleasure. The background of the image is blurred, drawing focus to the girl and her actions. However, it appears to be a bathroom setting, further emphasizing the intimate nature of the scene. Please note that this description is based on the visible elements in the image and does not include any speculative or imaginary content.
Честно говоря ахуеть, чуть ли не первая мультимодалка что без подсказки поняла что там происходит, а не "ту персонз пенетрейтинг". Но всеравно откуда-то бикини высирает, видимо голых там вообще нет.
А вот какая дичь от гопоты подсосалась так это в конце аположайз, или может хуета идет вообще от сраной викуньи что в основе. Надо бы вообще мерджеры ллм изучить, если вдруг там есть аналог добавления разницы со стабильной диффузией, то визуальное восприятие можно к куда более умной модельке подсадить, не говоря о том что просто использовать проектов для других 7б.
Ну и бакллаву со счетов списывать не стоит тоже, ей бы зрение прокачать.

Аноним 28/11/23 Втр 02:05:31 № 557149 213

>>557148
> просто использовать проектоР
фикс

Аноним 28/11/23 Втр 02:13:36 № 557153 214

>>557148
Ну вот. Значит было что-то в данных. А то одежда выглядела прям слишком шизово и типично

Аноним 28/11/23 Втр 03:20:20 № 557164 215

Что самое обидное так это то что модель для модерации неплохо знает про смут и будет становиться только лучше. Те они там буквально в нее терабайты порнухи заливают

Аноним 28/11/23 Втр 03:40:29 № 557169 216

Что-нибудь новое появилось за последние 2 месяца?

Аноним 28/11/23 Втр 04:20:48 № 557178 217

>>557169
Очевидный Yi. Сам не пробовал, 34б очень больно влазят, но все хвалят.

Аноним 28/11/23 Втр 05:44:06 № 557187 218

Можно меня мордой ткнуть, что нужно тут жмать, чтобы обучение лоры поехало?
То есть мне нужна точная, конкретная модель с ссылкой на нее, которая точно работает здесь (только не AWQ) и настройки Target Modules. А то все какие были у меня перепробовал, везде пишет ошибку, что модель не та, модули не те, не могу даже дойти до ошибки нехватки памяти.

Аноним 28/11/23 Втр 10:16:45 № 557229 219

>>557035
>>557049

Фалькон тупой просто. Причем тут его размер.
У нас куча моделей таких есть — и от гугла, и от яндекса. Но их фишка в том, что они на удивление тупы для своего размера.
Никаких проблем запустить того же фалькона на оперативе или в облаке нет.
Долго, но проблем не в этом. Проблема в том, что он, внезапно, не умнее 34B сеток. И на кой он нужен?
А вот условная Llama 3 140B могла бы оказаться уровня GPT4, и это совсем другое дело.
Ее не будет, офк, но я о том, что мерять надо не только параметры, но и «интеллект» модели.

>>557050
Литералли так и выглядит, да.

>>557095
Разница с q6 невелика, а скорости заметно ниже.
Но, это не касается 7B, там скорости и так нормасно.

>>557104
*12 =(
Все же, между 24 и 32 разница приличная, знаешь ли.
А уж тем более между 36 и 48.

———

Я, кстати, вчера попробовал бакклаву q5 на видяхе — 2 секунды на картинку, 60 токенов генерит на лету. Быстрое.
Жаль fp16 не поместится в 12 гигов. =( Надо найти q8, или самому квантануть.
А вообще, нет GPTQ или EXL2 мультимодалок? Они работают в этих лоадерах?

Аноним 28/11/23 Втр 10:19:59 № 557232 220

>>557229
> Но, это не касается 7B
q6 уже еле влезает в 8гб у меня.

Аноним 28/11/23 Втр 10:20:15 № 557233 221

>>557229
> бакклаву
Это что? И как можно определять мультимодалки на мордохвате?

Аноним 28/11/23 Втр 11:03:47 № 557244 222

>>557233
Простите, задвоил К.

Бакллава — BakLLaVA, мультимодалка, файнтьюн мистрали.
Как определять — не знаю, если честно. =) Я просто по именам помню некоторые, попробовал что-то.
Не знаю, шо там с шаргпт, но бакллава норм, в принципе. Пока мой фаворит. Но не то чтобы выбор богатый и качество было сильно хорошее.

>>557232
Ну, шо поделать, если устраивает — сидеть на q6, получается.
Если не устраивает — расти в объемах. =)

Аноним 28/11/23 Втр 11:11:12 № 557248 223

https://huggingface.co/abetlen/BakLLaVA-1-GGUF/tree/main
Вот здесь норм выбор бакллав на любой вкус и цвет.

И там еще Video-LLaVA вышла.
https://huggingface.co/LanguageBind/Video-LLaVA-7B/tree/main
Но у нас тут картинки пока не очень, какие еще видео… =)

Аноним 28/11/23 Втр 12:17:17 № 557286 224

Здравствуйте, аноны, пропустил последние тредов 15, поэтому не очень в курсе новинок. Недавно на черной пятнице по дешману приобрёл себе оперативы в ноут, теперь у меня 64Гб.
Попробовал запустить 70В модель, медленно (очень), но работает. Вопрос такого характера: конечно, с ней не покумить, но теперь я ведь могу скармливать больше контекста? А значит задавать вопросы/перерабатывать длиннопосты. Кто-нибудь этим занимался? Как вы скармливаете статейки своей модели?

И ещё пара вопросов, скорее, технических. GPTQ и AWQ модели выдают ошибку потому что моя оперативка не как в Маке, не расшаривается на видюху, и как там было 6Гб, так оно и есть?
Так как теперь у меня много памяти, я ведь теперь могу тренить модели 7В? Или может даже 13В? Или там скорость будет ужасно мала?
Для мультимодальных моделей надо параллельно Диффюжн запускать, или там всё внутри одной модельки?

Для кума, кстати, 20В более-менее норм (я привык к 1-2 т/с), может есть какие новые модели между 13В и 70В кроме Млювда?

Аноним 28/11/23 Втр 12:17:38 № 557287 225

Аноним 28/11/23 Втр 12:24:33 № 557291 226

>>557286
>но теперь я ведь могу скармливать больше контекста?
Размер контекста напрямую не связан с размером модели, хотя конечно модели побольше лучше справляются с большими контекстами.
> как там было 6Гб, так оно и есть?
Да.
>Или там скорость будет ужасно мала?
Да.

Аноним 28/11/23 Втр 12:37:35 № 557300 227

>>557291
>Размер контекста напрямую не связан с размером модели
А почему тогда к некоторым моделям дописывают 32k или 16k?
Значит с моделями что то делают что бы они могли в большой контекст?

Аноним 28/11/23 Втр 12:56:04 № 557312 228

>>557287
Tess Yi

Аноним 28/11/23 Втр 13:02:53 № 557319 229

>>557300
>Значит с моделями что то делают что бы они могли в большой контекст?
Да.

Аноним 28/11/23 Втр 13:22:20 № 557321 230

>>557286
Для моделей, у которых есть соответствующие приписки — сможешь выставлять больший контекст, да, все верно.
Странно тебе ответили, ты же не про модели, а про объем памяти спрашивал. =)

Аноним 28/11/23 Втр 14:07:05 № 557353 231

Там мэн наделал моделей 20b https://huggingface.co/athirdpath .Смотрите, оценивайте и делитесь промптами если годно получается.

Аноним 28/11/23 Втр 14:17:05 № 557356 232

>>557187
Для начала нужно загрузить основную модель совместимым загрузчиком, собственно табличка тут https://github.com/oobabooga/text-generation-webui/wiki тебе нужно Training LoRAs и как можно видеть - выбор невелик. Обрати внимание на сноски.
>>557229
> Фалькон тупой просто. Причем тут его размер.
Это следствие того что из-за размера он явно недоделан, так еще никто не хочет им заниматься. Офк сложно выявить влияние компонентов, те же 2к контекста это пиздец, но у многих просто банально нет возможности или это потребует ну очень много машиночасов.
> вот условная Llama 3 140B могла бы оказаться уровня GPT4
Если сделать ее специализированных файнтюнов и организовать выбор модели то даже местами и лучше. Но из-за сложностей запуска движуха по ней была бы относительно вялой без больших прорывов.
> А вообще, нет GPTQ
Есть, работает только в autogptq с выключенным ядром экслламы и в трансформерсах. В ишьюсах убабуги отметился дев экслламы и упомянул что рассмотрит имплементацию проекций по схеме типа как у Жоры, но ничего не обещал.

Аноним 28/11/23 Втр 14:23:05 № 557360 233

>>557286
> но теперь я ведь могу скармливать больше контекста?
Если загрузишь с нужным rope то вполне. До 8к они вообще идеально работают, до 16к со слабым падением перфоманса, а больше всеравно врядли памяти хватит. Были файнтюны 70б на большой контекст, но что в них по качесву/уму/куму хз.
> Как вы скармливаете статейки своей модели?
Инстракт режим, вкладка Default вебуи.
> GPTQ и AWQ модели выдают ошибку потому что моя оперативка не как в Маке, не расшаривается на видюху
Это для работы на видимокартах, твой выбор gguf и llamacpp загрузчик.
> я ведь теперь могу тренить модели 7В? Или может даже 13В?
На 6 гигах видеопамяти разве что 1-2B и то хз, на проце даже забей.
> Для мультимодальных моделей
Почитай инструкции что есть или дождись пока для хлебушков запилят
> кроме Млювда
Emerhyst-20B, Noromaid-20b
1-2 т/с мало, долюно быть хотябы 3-4 если там не совсем днище по скорости врам. Еще 34б китайца посмотри из новых, на них уже есть файнтюны.

Аноним 28/11/23 Втр 14:23:40 № 557361 234

>>557356
>Но из-за сложностей запуска
>уровня GPT4
Да ради безцензурной GPT4 локально я бы себе стопку карт купил бы. Да и многие тоже.

Аноним 28/11/23 Втр 14:30:47 № 557363 235

>>557356
Тогда обойдусь offload'ом, и так достаточно быстро. Бум ждать.

>>557360
> На 6 гигах видеопамяти разве что 1-2B и то хз, на проце даже забей.
Там же 3B была, вроде, какая-то. Должна бы влезть с маленьким батчем и многими эпохами, кмк. Но долго-долго.

>>557361
Вот и я так считаю. Если бы кто-то выпустил, то люди бы напряглись бы на покупки. Но продавать подписку выгоднее.

Аноним 28/11/23 Втр 14:37:09 № 557366 236

Такой вопрос, хочу нормально погонять 70б. Сейчас запускаю 70B-2.4bpw exl2, но часто упирается в память когда расширяю контекст, хватает примерно на 6к.
Сейчас есть комп с 4090 и бп на 1200, так же есть старая 3080ти и еще один бп на 800. Не будет ли проблем если я подключу 3080ти и запитаю ее от отдельного бп (не уверен что она поместится в бп с 1200вт)?

Аноним 28/11/23 Втр 14:38:23 № 557367 237

>>557366
>не уверен что она поместится в бп с 1200вт
Хули не поместится то? Поместится без проблем. А так да, можешь питать от отдельного блока, делов то.

Аноним 28/11/23 Втр 14:39:23 № 557368 238

>>557366
Поместится, у меня 4090 умещается с 3060 в 1000

Аноним 28/11/23 Втр 14:45:05 № 557374 239

>>557366
Одного достаточно, они же работают последовательно, мне и 1000 платинового хватило для такого же сетапа, только я быстро забил, потому что эксламы2 ещё не было
>>557367
Ты ему сейчас насоветуешь, синхронизировать блоки то не хочешь?

Аноним 28/11/23 Втр 14:49:37 № 557378 240

>>557374
>синхронизировать блоки то не хочешь
Что ты там синхронизировать собрался? Достаточно запустить скрепкой до старта основного, или колхозить автозапуск, или брать приблуду с алишки.

Аноним 28/11/23 Втр 14:50:16 № 557380 241

>>557366
> Не будет ли проблем если я подключу 3080ти
Вроде как и нет, но сейчас видюхи балансируют нагрузку между pci-e слотом и доп питанием, как на это повлияет разница напряжений в разных блоках питания - хз.
> не уверен что она поместится в бп с 1200вт
Вут? 4090 - 450вт, 3080ти ~350, 400 вт на проц плюс периферию за глаза хватит. В ллм потребление ниже и максимумов не добьешься, а с двумя видюхами они и работать будут по очереди, так что даже на киловаттнике без проблем. 1.3 честных киловатта тянут раскочегаренные видеокарты и печку от интела даже не напрягаясь. Качественный бп в принципе не чувствителен к кратковременным всплескам мощности и может держать до 110% нагрузки.

Аноним 28/11/23 Втр 14:54:58 № 557381 242

>>557380
> В ллм потребление ниже
Как раз в сетках жарит сильнее чем в каком-нибудь киберпуке. Но с андервольтом можно на 4090 в пределах 350 ватт оставаться.

Аноним 28/11/23 Втр 15:06:36 № 557385 243

>>557381
Лол, ты там в киберпуке на минималках в 720р играешь? Ибо иначе непонятен недогруз картона.

Аноним 28/11/23 Втр 15:15:46 № 557388 244

image.png 9Кб, 462x120

вроде как и не сильно жарит во время использования, должно будет уместится. в общем спс за советы

Аноним 28/11/23 Втр 15:41:01 № 557404 245

https://www.reddit.com/r/LocalLLaMA/comments/185ce1l/my_settings_for_optimal_7b_roleplay_some_general/

Аноним 28/11/23 Втр 16:21:17 № 557456 246

>>557366
Если БП не херня, то поместится. Они же последовательно работают, а не одновременно.
Но можно запитать и от второго БП, канеш.

>>557374
Кмк, очевидно что там синхронизатор ставить надо, думаю, это подразумевалось. Вряд ли чел такой дебич, что побоялся подключить в один — по полезет подключать в два сразу абы как, не загуглив даже.

>>557380
4090 — 600.
В ЛЛМ максимумы вполне достижимы, я хз, ты оффлоадил на 60% что ли.
У меня вполне себе жрет.
Напиздел, и правда не сильно жрет в ллмках. Это стабла ебошит, а ExLlama бережет.

>>557388
Звучит как копейки, если честно. Втыкай в один.

Аноним 28/11/23 Втр 16:33:33 № 557464 247

>>557456
> 4090 — 600.
Миллисекундные спайки частично вообще возникающие из-за особенностей работы ОС в бп не считаются, базовый пл там вроде в районе 450, если что поправь. На небольшие всплески только шизоидные бпшники триггерились из-за кривой схемотехники, въебали неадекватную диффцепочку на защиту о которой никто не просил, а потом владельцы страдали с приходом ампера. Гнать особо смысла нет, наоборот андервольтить занижать.
> Это стабла ебошит
Ууу, стоит засесть - оно аж столешницу насквозь прогревает, высокотехнологичный обогреватель который заслужили.

Аноним 28/11/23 Втр 17:18:45 № 557484 248

>>557385
Графика жрёт меньше нейросетей.

Аноним 28/11/23 Втр 18:08:54 № 557520 249

https://www.reddit.com/r/LocalLLaMA/comments/185my1b/new_model_starlinglm11balphav1/

Аноним 28/11/23 Втр 18:45:04 № 557563 250

>>557520
Чёт её какой-то шизух продвигает

Аноним 28/11/23 Втр 18:49:26 № 557568 251

>>557563
Хз, вроде как 7b на опенчате сделана, а 11b склейка 2 7b. Ну я 11b качаю на пробу, хз только когда загрузится еще, инет так себе.
Как бы, по тестам и отзывам, 7b лучше опенчата и опенгермеса и вроде как в топе на текущий момент.
Все это понятно нужно проверять, а то веры в тесты не особо.

Аноним 28/11/23 Втр 19:12:47 № 557578 252

>>557520
Боже она болтает не затыкаясь. Так и представляю на её месте уебка которому нравится звук собственного голоса.

Аноним 28/11/23 Втр 19:18:12 № 557581 253

>>557520
Ее предшественник обходит клода.
Пу-пу-пу.
Я понимаю, что мы в сингулярность долбимся уже, но у меня все еще сомнения, когда мне говорят, что 7b модели обходят современные коммерческие решения.
Ладно третью турбу, ее обходили долго и с трудом, да и она «старенькая». Но вторую клоду, ну я хезе…
Но, если так, то я рад.

Жалею, что у меня 12 гигов и я не могу запускать неквантованные.

Аноним 28/11/23 Втр 19:31:56 № 557590 254

>>557581
8q попробуй, там минимальная потеря.
Ну и конечно сетка слабее чем по тестам. Самое главное там не проверяется - "оперативная память" где сетка придерживается инструкций.
Я думаю это как то связано с количеством слоев, чем меньше тем хуже "воображение" сетки, где она может удерживать кучу инструкций одновременно. Все это конечно сложнее на деле, но по ощущениям так.
Маленьким сеткам какими бы умными они не были не хватает "глубины" больших сеток.

Аноним 28/11/23 Втр 19:42:52 № 557597 255

>>557581
> вторую клоду
Ты бы ещё про CAI вспомнил. Клод - это какой-то непонятный стартап, они один раз сделали сетку и на этом прогресс закончился, естественно его обгоняют, если он пол года уже мёртвый лежит.

Аноним 28/11/23 Втр 19:43:50 № 557600 256

https://www.reddit.com/r/singularity/comments/185g00q/starling7b_new_llm_almost_as_good_as_gpt4/
https://www.reddit.com/r/LocalLLaMA/comments/185gs14/starlingrm7balpha_new_rlaif_finetuned_7b_model/
ссылки на обсуждение 7b версии

Аноним 28/11/23 Втр 19:55:29 № 557605 257

>>557581
> понимаю, что мы в сингулярность долбимся уже
В шизу долбимся, когда йоба коммерческие модели на которые так молятся легко ломаются (не в смысле жб и обхода а просто фейлят очевидные ответы), дико галлюцинируют, а братишки надрочив мелочь на прохождение бенчмарков хвастаются их прохождением, утверждая что подебили куда более мощные и функциональные продукты. Скептически нужно к громким заявлениям относиться.
> Ладно третью турбу, ее обходили долго и с трудом, да и она «старенькая»
Она тоже на месте не стояла и релизилась не так уж давно, неравенство размеров не стоит забывать, так что темпы развития локальных моделей иначе как колоссальными не назвать. Но ее все еще не подебили в понимании языков. А это дрочка на "победу" как бы не сыграла в негативном ключе для всей области, уже начался этот дроч на цифры в отрыве от реального перфоманса и имитация результатов вместо прогресса.
> запускать неквантованные
Переоценено
>>557597
> они один раз сделали сетку и на этом прогресс закончился
Сильное заявление

Аноним 28/11/23 Втр 20:16:55 № 557613 258

llama.cpp получает новый UI который могут добавить в оригинальную ветку
https://www.reddit.com/r/LocalLLaMA/comments/18534f1/i_have_given_llamacpp_server_ui_a_facelift/
А ещё наконец то её допиливают до нормальной работы в виде бека, о чем я и спрашивал тут когда то
https://www.reddit.com/r/LocalLLaMA/comments/185kbtg/llamacpp_server_rocks_now/

Аноним 28/11/23 Втр 20:24:56 № 557620 259

>>557613
> llama.cpp получает новый UI
Чем это отличается от сервера, который Жора уже давно сделал, кроме округления кнопочек и добавления зеленого скина?
> до нормальной работы в виде бека
Так оно уже давно, не? Сервер нормально запросы обрабатывает, вот только не умеет выгружать/загружать новые модельки или менять контекст на лету.

Аноним 28/11/23 Втр 20:30:43 № 557624 260

>>557613
> новый UI
Чел, у тебя по ссылке кал для мака, другие платформы не поддерживаются. Такое точно не будут добавлять никуда.

Аноним 28/11/23 Втр 20:34:07 № 557627 261

>>557624
Это чтоли не веб-интерфейс открытый в браузере? Ай лол, что за убожество, и главное нахуя. Хотя зная любовь Жоры к макам может ссылку на него и оставит.

Аноним 28/11/23 Втр 20:41:20 № 557639 262

>>557627
> веб-интерфейс
Макобляди не далеко от линуксопидоров ушли, они на любое извращение пойдут, лишь бы не поднимать веб-сервер на крестах. Кроме кобольда ничего и не будет.

Аноним 28/11/23 Втр 20:47:59 № 557650 263

>>557620
больше функций и это и есть сервер

щас можно к той же силлитаверне подключить запущенный сервер файл, раньше нельзя

Аноним 28/11/23 Втр 20:52:46 № 557656 264

>>557650
Вут?
Жора это уже давно сделал, что здесь нового? Сука не удивлюсь если они еще все нахуй поломают и придется переписывать то что есть.
>>557639
Да какая разница, оно кроссплатформенно, удобно, легко кодится, эффективно, довольно эффективно по ресурсам. Хотя вспоминая то что огрызок выпустил ноут с 8гб рам и рофлами вокруг этой темы - неудивительно. Чет обзмеился с интерфейса, просто напиздил у жоры и убабуги и собрал в кучу. Настолько ахуенен и функционален что нельзя не то что редактировать - просто удалить или рерольнуть сообщение.

Аноним 28/11/23 Втр 21:00:17 № 557668 265

>>557656
> эффективно по ресурсам
Только если выключить аппаратное ускорение в браузере - но тогда плавная прокрутка по пизде идёт. А так веб-интерфейс может целый гб врама сожрать. Даже комбайны на сишарпе типа Авалонии лучше будут по производительности и красоте гуя, кроссплатформенность там тоже есть.
На qt блять пусть делают. Топаз же сидит на нём. Опенсорс лицензия у qt есть.

Аноним 28/11/23 Втр 21:09:51 № 557675 266

>>557404
>7b_roleplay
Когда хочется плакать от одного текста ссылки.
>>557464
>въебали неадекватную диффцепочку на защиту
Нормальная защита у сисоников была, это карты ебанутые, как КЗ уже жрут киловаты.
>>557600
Опять 7B превозносят, Господи, дай им видях 70B трейнить!
>>557656
>Сука не удивлюсь если они еще все нахуй поломают и придется переписывать то что есть.
Это ещё что. Вот если они под новый интерфейс новый формат моделей подвезут...
>>557668
>На qt блять пусть делают.
Самые уёбищные шрифты среди всех фреймворков гуя.

Аноним 28/11/23 Втр 21:18:09 № 557681 267

>>557675
Лучше 7b чем 3b.

Аноним 28/11/23 Втр 21:18:26 № 557682 268

>>557668
> веб-интерфейс может целый гб врама сожрать
Оно всеравно выгрузится. Есть хорошее по многим пунктам gradio, под которое и костыли и всякое очень комфортно пилить как и в целом делать разработку. И главное - работает вообще везде, хоть на калькуляторе, хоть на спейсе. Но похуй, пусть играются в оптимизацию в ущерб удобству, вдруг потом из этого что-то выйдет.
>>557675
> Нормальная защита у сисоников была, это карты ебанутые, как КЗ уже жрут киловаты.
Нет там киловатт, они триггерились не на пиковые значения а на скорость роста потребления. А их припезднутая агрессивная обратная связь только усугубляла броски тока. После релиза амперов была норм статья где мужик заморочился и прореверсинженирил их блоки все четко пояснив. Нахуярили ненужной ерунды чтобы в обзорах васяны показали что те "превосходят нужные спецификации по скоростям", хотя вместо практической пользы только вред. Отдельный рофл в том, что они же эту платформу потом другим продавали без фиксов, и даже сейчас можно найти довольно свежие бп с подобными болезнями. Нахуй нахуй таких "именитых производителей".
> Вот если они под новый интерфейс новый формат моделей подвезут
В голос проиграл, жизненно.

Аноним 28/11/23 Втр 21:20:58 № 557688 269

>>557681
Лучше 3b чем 1b хехех

Аноним 28/11/23 Втр 21:23:19 № 557689 270

>>557681
>>557688
Всё ещё лучше пигмы, да.
>>557682
>они триггерились не на пиковые значения а на скорость роста потребления
Всё правильно сделали. Говорю же, почти КЗ. И это всё не потому, что я владелец титанового сисоника, совсем нет!
Впрочем да, ты правильно указал, новые ревизии уже ухудшили.

Аноним 28/11/23 Втр 21:30:05 № 557697 271

>>557689
> Говорю же, почти КЗ
Есть мнение, видеокарта могла потреблять мгновенными пиковыми скачками, где сила тога на протяжении 1мс больше заявленной, а при этом средняя сила тока попадает в заявленную.
Эх, проверить бы осциллографом.

Аноним 28/11/23 Втр 21:31:07 № 557699 272

>>557689
Не почти кз а скачек потребления из-за быстрой работы врм, которая как раз и позволяет так сильно снижать напругу андервольтингом сохраняя стабильность в прерывистых нагрузках. И причем чуть ли не половина из этого скачка обуславливалось чрезмерно агрессивно настроенной обратной связью. А то ведь блогиры потестируют и не смогут сказать то что здесь просадка в момент подключения нагрузки на целых 75мВ меньше, вот какой он хороший!
> новые ревизии уже ухудшили
Убрали излишества которые только мешали, не давай какого-то полезного эффекта. От прогаров это не поможет, тут только местный предохранитель ибо запаса энергии в конеднсаторах всех потреблителей хватит чтобы делать дело, для чего еще?

Аноним 28/11/23 Втр 21:34:05 № 557703 273

>>557682
> хорошее по многим пунктам gradio
Но есть одно очень большое нехорошее - у него нет поддержки динамического гуя. Там нельзя просто так в динамике добавить какой-то виджет на страницу без рестарта всего gradio, разрабы предлагают скрывать куски интерфейса и по необходимости показывать. А когда им на гитхабе сказали что это какой-то пиздец и антипаттерн, они ответили "подумаем" и уже больше года думают. Лично мне очень сильно это говно не нравится, у нас 2023 год же, блять, а не 2003.

Аноним 28/11/23 Втр 21:58:14 № 557711 274

Ну как? Кто то щупал новую сетку? Я пока только задачки задаю 11b, но по ней качество 7b не посмотришь

Аноним 28/11/23 Втр 22:12:42 № 557721 275

>>557605
> Переоценено
Да мне лент вот это вот все, квантовать, искать квантованные, оффлоадить, вся хурма.
Хочется пихнуть сорцы и шо б работало.

>>557675
> Вот если они под новый интерфейс новый формат моделей подвезут...
Хрюкнув со смиху.

Аноним 28/11/23 Втр 22:17:11 № 557725 276

>>557675
>Это ещё что. Вот если они под новый интерфейс новый формат моделей подвезут...
Не, вот когда возьмутся за улучшения квантования тогда могут

Аноним 28/11/23 Втр 22:20:58 № 557732 277

>>557721
> Хочется пихнуть сорцы и шо б работало.
Нужны 24врама, в принципе и 20 хватит даже амдшной карточки. Увы, много весит все это, можно скачать Q8 жоры и пускать его, там отличия действительно под лупой только искать.

Аноним 28/11/23 Втр 22:23:51 № 557736 278

Какая сетка подойдет для генерации промта для Stable Diffusion?

Аноним 28/11/23 Втр 22:48:42 № 557762 279

>>557711
>Кто то щупал новую сетку?
Ты ждёшь чуда?
>>557736
Любая, не велика задача.

Аноним 28/11/23 Втр 22:55:55 № 557775 280

>>557356
monkey-patch у меня не поставился, видимо видуха старая. GPTQ-for-LLaMa для меня отпадает.
Что тогда для Transformers скачать из моделей?

Аноним 28/11/23 Втр 23:28:04 № 557810 281

Хочу сетку чтоб умная как гопота, красноречивая и креативна как чайная и запускалась на моем ноутбуке на встройке 10 токенов в секунду.

Аноним 28/11/23 Втр 23:29:40 № 557811 282

>>557366
В общем, не влезает 2 карты в мой LIAN LI PC-O11 Dynamic, похоже не потестирую как будет работать связка 4090 и 3080ти

Аноним 28/11/23 Втр 23:35:49 № 557818 283

>>557811
> LIAN LI PC-O11 Dynamic
Да ладно, он же здоровенный и на его основе делали двухкарточные сборки, правда с поворотом основной. Типа такой штуки https://www.ozon.ru/product/712627042/ с райзером закажи, офк дешевле поискать, в фекал-дизайн мешифай-s влезают.
Просто для тестов только можно наколхозить что-нибудь временное.

Аноним 28/11/23 Втр 23:47:11 № 557826 284

>>557688
Лучше 1б чем 600м

Аноним 28/11/23 Втр 23:48:35 № 557828 285

>>557811
>LIAN LI PC-O11 Dynamic
Ебать говна накупил.

Аноним 28/11/23 Втр 23:51:10 № 557831 286

>>557826
Ставлю точку я её хотя бы запускал в отличии от ваших голословных заявлений
>410M
https://huggingface.co/concedo/FireGoatInstruct

Аноним 29/11/23 Срд 00:34:09 № 557864 287

>>557711
Потрогал, похоже это новый топ 7В. Она очень долинные ответы ебашит, надо семплингом придушивать. А так очень годно, в РП 10 ответов из 10 адекватные, впервые такое вижу вообще. Рандом ответов очень большой. По сое заебись, тест на агрессию прошла, boundaries нет.

Аноним 29/11/23 Срд 00:43:21 № 557874 288

Есть ли смысл придерживаться промта какой в моделе указан "Human: {prompt} Assistant:" ? Или можно всегда использовать стандартный? \n### Instruction:\n{prompt}\n### Response:\n

Аноним 29/11/23 Срд 00:46:42 № 557877 289

>>557864
Заебись, спасибо.
11b тоже пощупал, таких точных оценок не дам, но тесты неплохо проходит.
Ну и да, подробно отвечает в отличии от обычных 7b, что уже сдвигает восприятие от ее ответов в другую лигу.

Аноним 29/11/23 Срд 00:48:01 № 557879 290

>>557762
>Ты ждёшь чуда?
Я уверен что максимум возможностей 7b еще не достигнут, поэтому не странно ожидать от более новых сеток все возрастающего качества

Аноним 29/11/23 Срд 00:56:29 № 557886 291

>>557877
> подробно отвечает в отличии от обычных 7b
Её тренировали с reinforcement learning, а reward-модель тренилась на GPT4. Поэтому реварды сдвинули стиль ответов к стилю гопоты. Скоро в полную развернут DQN и пойдёт ёбка ещё сильнее, гопоте придётся поторапливаться со своей реализацией Q-learning.

Аноним 29/11/23 Срд 01:42:08 № 557921 292

Если у моддели такой промпт, то ее для инструкта будет трудно использовать? Т.е. сбудет вечное зацикливание?

-p "## {{{{charname}}}}:\n- You're "{{{{charname}}}}" in this never-ending roleplay with "{{{{user}}}}".\n### Input:\n{prompt}\n\n### Response:\n(OOC) Understood. I will take this info into account for the roleplay. (end OOC)\n\n### New Roleplay:\n### Instruction:\n#### {{{{char}}}}:\nwhatever the char says, this is the chat history\n#### {{{{user}}}}:\nwhatever the user says, this is the chat history\n... repeated some number of times ...\n### Response 2 paragraphs, engaging, natural, authentic, descriptive, creative):\n#### {{{{char}}}}:"

Аноним 29/11/23 Срд 02:38:37 № 557951 293

Короче, че заметил, --temp 0.7 постоянное зацикливание ответа. При --temp 0.8 есть нормальная остановка по eos

Аноним 29/11/23 Срд 04:19:51 № 557971 294

Как же эти ебучие модели херово работают, постоянно вечные зацикливания, бесконечные диалоги с самим собой и т.д.

Аноним 29/11/23 Срд 04:24:10 № 557974 295

>>557971
Да, все эти чудеса очень часты, если ты пишешь не на английском.

Аноним 29/11/23 Срд 05:31:28 № 557987 296

>>557600
>starling7b_new_llm

Это дерьмо очень часто не может заткнуться и закончить мысль.

Аноним 29/11/23 Срд 07:14:35 № 558002 297

>>557864
>>557711
ГГУФ версии?

Аноним 29/11/23 Срд 08:03:56 № 558012 298

>>557353
Смеси конечно интересные, но по сути те же яйца, только в профиль.
Вот если бы вышел доработанный Emerhyst или U Amethyst, была бы годнота.

Аноним 29/11/23 Срд 08:22:33 № 558021 299

>>558012
Там же есть серженный Emerthyst. Но пока неидеально конечно для 20b вроде норм.

Аноним 29/11/23 Срд 08:51:24 № 558031 300

Мне кажется, что в последнее время ллм прямо конкретно деградировали. Несколько тредов назад я тут писал и постил свои попытки добиться от нейронок корректных рассуждений в области алгебры, конкретно на примере первой теоремы об изоморфизме. Без всякого хардкора, довольно тривиальные рассуждения, но требующие некоей логики. Так вот, более-менее нормальных ответов, а не пука в лужу удалось добиться только от LLaMA2-70B-Chat, и то направляя рассуждения в нужную сторону. Сейчас попробовал Уи-34б, и что-то все совсем печально, даже хуже сбергигачата. Хотя саму теорему оно упоминает, но применить к конкретному примеру не может. Даже фразы типа "попробуй применить к предыдущему рассуждению то-то" не вывозит, вторые ламы такое хорошо могли из-за каких-то новых аттеншенов. Короче, мне кажется, что сейчас ллм просто целенаправленно надрачивают на что-то очень конкретное чтобы получить скоры побольше на конкретных бенчмарках, за пределами чего они просто превращаются в тыкву.

Аноним 29/11/23 Срд 08:55:26 № 558033 301

>>558031
Утреннего приёма таблеток ещё не было?

Аноним 29/11/23 Срд 09:08:32 № 558036 302

>>558031
Надрачивают, очевидно. На ролеплей и повествование в первую очередь, но для алгебры и прочего есть свои модели, как я понимаю

Аноним 29/11/23 Срд 10:00:56 № 558047 303

>>557874
Да, ответы сетки будут лучше.
>>557879
Да, но... Нафига? Я вот уверен, что максимум возможностей 7B всё равно сосёт.

Аноним 29/11/23 Срд 10:09:08 № 558054 304

>>558047
Ну хотя бы потому что не у всех есть видеокарта нормальная.
А 7b нормально на процессоре работает.А то что более большие модели лучше не делает 7b плохими.

Аноним 29/11/23 Срд 10:42:03 № 558074 305

>>558054
>А 7b нормально на процессоре работает.
Мы тут гоняли на проце, получили 1т/с на среднесборках и до 5 на топовых, но какой еблан будет с топовым процем сидеть без видяхи?

Аноним 29/11/23 Срд 10:45:03 № 558076 306

>>558074
Топовый проц стоит дешевле топовой видяхи..

Аноним 29/11/23 Срд 10:47:58 № 558077 307

>>557404
Схоронил, спасибо.

Аноним 29/11/23 Срд 10:53:17 № 558078 308

>>558074
На i5 10400 в районе 3-5 т\с на ку 5. Хотя при наборе контекста скорость падает еще немного.
Может ты c 13b перепутал? там действительно скорость в районе 0.5-1.5 токена.

Аноним 29/11/23 Срд 10:59:28 № 558080 309

>>558076
Но сосёт у дешёвой 3060@12.
>>558078
>на ку 5
Жизни нет, и так 7B, а ты ещё квантом режешь. Только Q8, только хардкор.
Ну и числа с райзенов.

Аноним 29/11/23 Срд 11:09:31 № 558083 310

>>558080
Q8 от Q5 вроде не сильно отличается, а скорость генерации в районе 1 токена.

Аноним 29/11/23 Срд 11:11:18 № 558085 311

>>558083
>Отличается примерно на 1 токен/с.

Аноним 29/11/23 Срд 11:11:27 № 558086 312

>>558083
>Q8 от Q5 вроде не сильно отличается
По скорам викитеста? По ним 7B давно выебали GPT4, но реальность ты знаешь. Так же и с квантованием.

Аноним 29/11/23 Срд 11:17:23 № 558087 313

>>558076
Да там и топовый проц не нужен, любой на 4-6 ядер. Главное память побыстрее. И все равно выйдет дешевле чем видеокарта.

Аноним 29/11/23 Срд 11:25:47 № 558089 314

>>558086
> реальность ты знаешь
В реальности q8 и fp16 выдают одинаковые ответы, q5 может пару слов на синонимы заменить, другие ответы начинает только q4_K_S выдавать.

Аноним 29/11/23 Срд 11:28:43 № 558093 315

>>558089
не, там довольно большая потеря токенов идет, 8q 0.6%, 6k 1.3%, а дальше не помню, где то парень тестил это на реддите недавно

Аноним 29/11/23 Срд 11:31:48 № 558094 316

>>558093
напиздел нам по другому
https://www.reddit.com/r/LocalLLaMA/comments/1816h1x/how_much_does_quantization_actually_impact_models/

Mistral 7b, x1000 average KL divergence:

q8_0: 0.6%

q6_K: 1.0%

q5_K_M: 3.0%

q4_K_M: 10.0%

q3_K_M: 37.3%

q2_K: 82.2%

Аноним 29/11/23 Срд 12:53:53 № 558132 317

>>558093
> токенов
Это отклонение вероятностей всех токенов, а не выходных токенов. Я же говорю "в реальности" при сравнении реальных ответов, а не в манятестах.

Аноним 29/11/23 Срд 12:58:32 № 558134 318

>>558132
Это шанс потерять токен с наивысшей вероятностью из 5% самых топовых.
То есть это увеличивающийся шанс на потерю правильного и наиболее вероятного токена в любой момент генерации на каждом кванте.

Аноним 29/11/23 Срд 13:17:37 № 558140 319

>>558134
> Это шанс потерять токен с наивысшей вероятностью из 5% самых топовых.
Чел, в том манятесте считают общее отклонение вероятностей. К реальному выбору токена оно не имеет никакого отношения. Это можно рассматривать только как математические потери от квантования, по ним возможно распределение отклонения будет адекватнее между квантами, но использовать абсолютные значения из теста - шиза.

Аноним 29/11/23 Срд 13:25:48 № 558143 320

>>558140
Шиза тут у тебя.
Тебе дают хоть какие то тесты ты заявляешь что они манятесты и хуита.
Я с вас шизиков угораю, им говоришь что кванты портят модель - ряяя докажи где тесты ты шизик. Окей, им даешь тесты - ряяя это манятесты и вобще тесты не тесты. Ну ок, похуй.
Проходи мимо, это тесты для шизиков, хули там.

Аноним 29/11/23 Срд 13:46:49 № 558150 321

>>557921
Что за странный формат вообще? А так структура напоминает симплпрокси над которым странные люди надругались. В принципе должно работать, но может действительно случиться запрограммированный луп.
>>558031
Скорее всего скиллишью. Не смысле что хочу тебя обидеть, а просто не так доносишь до ллм что хочешь от нее и какова ее задача, об этом же и свидетельствует что только чат версия какая-то тебя поняла. Рассуждать по стэму оно может относительно неплохо, офк с учетом галюнов (этим и гопота с клодой страдают), строить логичные теории и делать выводы с обоснованием - тоже вполне.
>>558086
> По скорам викитеста?
> давно выебали GPT4
Чет в голосину
>>558093
> потеря токенов идет
>>558094
> KL divergence
Цифр притащили а как трактовать их не понимают. Довольно удобно взять малые значения, которые будут откинуты даже мягким семплингом, а потом отнормировавшись на них пугать страшными ужасными потерями.

Аноним 29/11/23 Срд 13:47:14 № 558151 322

Квантование портит модель, это факт. В оп посте есть схема зависимости перплексити от квантования.

Аноним 29/11/23 Срд 14:06:19 № 558169 323

>>558143
> просишь пруфы что квантование портит качество генерации текста
> пук-мням ну вот держи левые тесты, лучше чем ничего
Нет, не лучше, не может быть лучше или хуже когда тесты тестируют что-то другое. После такого нужны новые тесты чтоб определить как всё это коррелирует с изначальной задачей. Движение Луны тоже коррелирует с какими-то процессами, но мы же не определяем качество генераций по её фазе.

Аноним 29/11/23 Срд 14:13:07 № 558175 324

>>558169
>нужны новые тесты
делай
кто, я?

Аноним 29/11/23 Срд 14:32:51 № 558181 325

>>558175
Давай я сделаю, только четкие условия и вопросы притащите.

Аноним 29/11/23 Срд 14:55:44 № 558203 326

>>558181
Там вопросы не важны, можешь хоть посты из треда кидать и просить продолжить. Суть тут в том, чтобы оценить, насколько вероятности токенов квантованных моделей отличаются от оригинальной fp16. У тебя есть возможность запустить полную модель? Умеешь выводить вероятности токенов? Тогда вперёд, надевай детерменистичные настройки и дерзай.

Аноним 29/11/23 Срд 14:56:45 № 558204 327

>>558203
Вот ещё что, проверять надо на контекстах близким к пределу, хотя бы 3,5к, если без rope и прочих костылей.

Аноним 29/11/23 Срд 16:01:30 № 558263 328

>>558203
Как появится время посмотрю, есть ли в дефолтном апи запрос вероятностей токенов, если запилено то тут нет сложностей.
Но врядли получится что-то отличающееся от того поста, вероятные токены останутся а поплывут только с наименьшей. Нужно как-то отловить влияние этого эффекта на качество ответов, или же развилки где они могут меняться и уже здесь оценить что происходит с вероятностью ошибиться, например.
Как вариант просто брутфорс загадок, вопросов по тексту и подобного со сбором статистики верных ответов в разных условиях и выставлением баллов.

Аноним 29/11/23 Срд 16:43:26 № 558313 329

Шиз с делением пополам на месте? Я тут с третьего раза добился правильного ответа от 7B!

Аноним 29/11/23 Срд 17:44:07 № 558349 330

>>558313
Добейся теперь правильного ответа с этим.
Представь себе место в котором время течет иначе относительно внешнего мира. За 8640 часов в этом месте, в реальном мире проходит всего 720 часов.
Сколько пройдет времени в этом особом месте за 8 часов времени во внешнем мире.

Аноним 29/11/23 Срд 17:58:58 № 558364 331

изображение.png 133Кб, 1649x581

>>558349
А в чём прикол этой задачи?

Аноним 29/11/23 Срд 18:12:18 № 558384 332

Как ты это сделал? У меня все модели глючить начинают и нести откровенную ересь.

Аноним 29/11/23 Срд 18:45:13 № 558404 333

изображение.png 160Кб, 1628x595

>>558384
Перевёл условие на английский?
Даже нейросети уверены, что за МКАД жизни нет, лол.

Аноним 29/11/23 Срд 19:15:00 № 558415 334

image.png 36Кб, 964x204

>>558404
Смешно. Видимо я где то что то не то нажал.
Модель что и у тебя. Starling-LM-7B-alpha-GGUF

Аноним 29/11/23 Срд 19:22:29 № 558417 335

изображение.png 115Кб, 1554x543

изображение.png 94Кб, 1669x444

изображение.png 129Кб, 1588x498

>>558415
>GGUF
Уже не такая.
В общем вот ещё 4 ролла. Шизит даже чаще, чем отвечает правильно, впрочем правильный вариант роллить до тепловой смерти не нужно.

Аноним 29/11/23 Срд 19:40:41 № 558433 336

Настроил себе таки говно это локальное, вроде бы нормальный полет.
После тестов стало понятно что для задач не связанных с нейросетью могу в памяти постоянно 7b модель катать без проблем.
Хочу бомжам через Kobold Horde помогать.
Какую модельку поставить гонять?

Аноним 29/11/23 Срд 19:55:34 № 558455 337

>>558433
Да никакую, 7B не столь ценны, чтобы бежать за ними на хорду. Там за 70B очереди не всегда есть.

Аноним 29/11/23 Срд 20:01:20 № 558461 338

>>558455
Ну хуй знает, я сейчас запустил первую попавшуюся и джобы без перерыва прилетают

Аноним 29/11/23 Срд 20:13:34 № 558494 339

Для рп локалки говно.
Но вот допустим мне нужна решалка капч. Ее только вручную делать для каждой? И как?

Аноним 29/11/23 Срд 20:17:17 № 558501 340

Как альфа влияет на мозги сетки? Она правда сильно тупеет?

Аноним 29/11/23 Срд 20:22:37 № 558511 341

>>558494
13b нормально.

Аноним 29/11/23 Срд 20:39:36 № 558536 342

>>558511
А 20 уже даже хорошо

Аноним 29/11/23 Срд 22:06:58 № 558604 343

Успешно запустил обучение лоры на модели TheBloke_guanaco-7B-HF на проце amd. Она даже запускается и даже помнит дата сет, если скорость завысить и увеличить размерность, ибо я просто в txt пару фраз накидал из головы.
Но как понять, какой формат дата сета мне нужен? То есть его разметка, ибо разметку оно запоминает и пишет что-то вроде "gpt: gpt-2.1: human: assistant: Что такое Двач? human: gpt-4.1: Что такое Двач?"
В идеале хотел бы от вас получить совет, на какой модели HF, которые работают через Transformers, можно обучать в формате чата двух людей и с какой разметкой. То есть создать персонажа путем обучения.
>>557775 - кун

Аноним 29/11/23 Срд 23:19:17 № 558660 344

>>557811
Как? 8 слотов же. Ни понил. Узкий что ли?

———

Про скороть охуел, меня один день не было, а у вас 7B 1 токен выдают, когда 70B стока выдают без напряга на ddr5.

———

Просто старлинг интересно, будем пробовать.

Но мне уже хочется 13B таких же.
Типа, я понимаю, что 7B обучать проще, но если они настока хороши становятся, то… Надеюсь и Мистраль 13~40 появится, и старлинг и вот это вот все.
Где мои МиСтрарлинг 20B

Аноним 29/11/23 Срд 23:40:40 № 558685 345

>>558604
>Но как понять, какой формат дата сета мне нужен?
Посмотри у других. Если тебе нужен персонаж и чат, то пизди сразу у https://huggingface.co/datasets/lemonilia/LimaRP?not-for-all-audiences=true

Аноним 29/11/23 Срд 23:59:59 № 558701 346

Ахуенный персонаж. Обкумился. Правда я скорее хороший ролеплей придумал. У автора еще много интересных.
https://www.chub.ai/characters/vitax/secretary-under-177429f8

Аноним 30/11/23 Чтв 00:11:48 № 558703 347

>>558701
Кумер, спокуха. Мы тут технологии осбуждаем, а не дрочим.

Аноним 30/11/23 Чтв 03:21:57 № 558792 348

>>558263
> апи запрос вероятностей токенов
Ну да, там прямо для этого есть возможность запроса. Только с мистралькой оберка HF жоры совсем не дружит, выдает полную ахинею что делает сравнение бессмысленным. С бывшей работает, а там нужно или другую модель брать или уже лламакрест-сервер использовать и уже к нему обращаться.
Предлагайте модельку что интересна, в фп16 поместится максимум 13б. И промты для чего-то длинного. Из интереса загнал емл из датасета ллимы на 8к токкенов, пик4 выдает, ну такое. Нужно что-то осмысленное.

Аноним 30/11/23 Чтв 03:23:43 № 558794 349

Поясните про лору, из шапки не понял.
Что от неё ожидать? Тут писали мол она может быть альтернативой лорбуку. Главная сетка будет лучше понимать нужную вселенную? Но немного не представляю каким образом это вытекает из принципа работы. Хватит ли для её тренировки лорбука + условной вики?

Аноним 30/11/23 Чтв 08:06:19 № 558828 350

>>558703
Технологии для дрочки!

Аноним 30/11/23 Чтв 09:04:42 № 558838 351

>>558792
>>558263
>>558203
Так как выводить вероятности токенов? Это можно сделать стандартными средствами, без дополнительных либ типа Inseq? Где хоть почитать это можно, я уже с полгода ищу такую возможность.

Аноним 30/11/23 Чтв 09:11:02 № 558839 352

>>558838
Все модели выдают вероятности для всех токенов по дефолту.

Аноним 30/11/23 Чтв 09:49:35 № 558856 353

>>557711
Что за новая сетка?

Аноним 30/11/23 Чтв 09:59:00 № 558862 354

>>558856
Не новая, очередной файнтюн 7B
>>557600

Аноним 30/11/23 Чтв 11:07:53 № 558893 355

>>558839
> Все модели выдают вероятности для всех токенов по дефолту.
Где это смотреть? В параметрах запуска? Можно пример кода?

Аноним 30/11/23 Чтв 12:20:26 № 558923 356

Требуется помощь.
Есть видеокарта с 8 гигами памяти.
Есть KoboldCPP, Ooba(text-generation-webui) и Faraday.

KoboldCPP запускает 13b модель с 1.6 t/s
Ooba запускает туже модель с теми же настройками на 2.5 t/s
Faraday запускает 20b модели на 3 t/s, KoboldCPP и Ooba запускают 20b с меньше чем 1 t/s при любых настройках.

Что за хуйня тут происходит?

Аноним 30/11/23 Чтв 12:23:29 № 558925 357

>>558923
У Кобольда и Убы точно не те же настройки, насколько я помню, Кобольд всегда использует ускорение на видяхе, хотя бы чтение промпта.
Выходит, и фарадай мутит что-то.
Так что, хз-хз.
Ну и версии софта могут быть разные у каждой программы.

Аноним 30/11/23 Чтв 12:31:14 № 558933 358

image.png 62Кб, 1666x496

>>558925
Версия у обоих последняя доступная

Аноним 30/11/23 Чтв 12:34:20 № 558940 359

https://www.reddit.com/r/LocalLLaMA/comments/1874bhf/fitting_70b_models_in_a_4gb_gpu_the_whole_model/
для самых терпеливых

Аноним 30/11/23 Чтв 12:35:57 № 558942 360

>>558893
> Можно пример кода?
Чел, трансформеры возвращают тензор с вероятностями для каждого токена в контексте + один новый, там вероятности для всех токенов в словаре. Если в словаре 32к токенов, то на 1000 контеста получишь 32кк вероятностей.

Аноним 30/11/23 Чтв 12:38:12 № 558944 361

>>558923
У меня вот нет видеокарты с 8 гигабайтами. Всего лишь жалкая 1650 с 4 Поэтому я ей не пользуюсь Проц i5 10400
20b модель q4
Запускал в oobabooga
Волшебный фарадей попробовать не получилось, у них похоже нет версии под линукс.
Output generated in 9.26 seconds (1.84 tokens/s, 17 tokens, context 116, seed 1415650994)

Output generated in 73.62 seconds (2.32 tokens/s, 171 tokens, context 146, seed 819788696)

Output generated in 148.31 seconds (1.77 tokens/s, 262 tokens, context 1436, seed 682449032)

Output generated in 124.59 seconds (1.98 tokens/s, 247 tokens, context 1764, seed 607367169)

Аноним 30/11/23 Чтв 12:48:38 № 558949 362

>>558942
Я имею в виду вероятности только для сгенерированных токенов.

Аноним 30/11/23 Чтв 12:50:40 № 558950 363

>>558944
Вот сейчас попробовал 20b q3_k_s запустить ообе :

Output generated in 148.41 seconds (1.62 tokens/s, 241 tokens, context 3619, seed 2014260672)

Почему у меня модель которая меньше выдает меньше токенов на карте которая в 2 раза больше по врм?

Аноним 30/11/23 Чтв 12:52:48 № 558952 364

>>558950
Может у тебя карта не используется? Тоже на процессоре крутит.

Аноним 30/11/23 Чтв 12:57:37 № 558955 365

>>558952
llama_new_context_with_model: total VRAM used: 7899.14 MiB (model: 7541.13 MiB, context: 358.00 MiB)

Аноним 30/11/23 Чтв 12:59:45 № 558958 366

>>558955
> total VRAM used: 7899.14 MiB
Серьезно? На лине?

Аноним 30/11/23 Чтв 13:06:28 № 558963 367

>>558958
Что не так? Винда
Уменьшал на 1.5гб как советуют - результат такой же.

llama_new_context_with_model: total VRAM used: 4908.69 MiB (model: 4550.68 MiB, context: 358.00 MiB)
(1.92 tokens/s, 221 tokens, context 3513, seed 919277901)

Аноним 30/11/23 Чтв 13:07:58 № 558965 368

>>558963
У тебя карта от амд?

Аноним 30/11/23 Чтв 13:10:02 № 558968 369

>>558965
Нет, 3070

Аноним 30/11/23 Чтв 13:11:11 № 558973 370

>>558968
Ну тогда совсем ничего не ясно. Аномалия какая то.

Аноним 30/11/23 Чтв 13:58:40 № 559009 371

>>558933
Тухлоядра интела?
И в угабуге ядра на 0 поставь, она сама определит сколько нужно. На кобальде так же ставь не 8 а меньше, 4-6 не больше
Если поставить все физические ядра то только тормозить будет

Аноним 30/11/23 Чтв 14:02:11 № 559011 372

>>558923
>Faraday
Это что?

Аноним 30/11/23 Чтв 14:10:51 № 559014 373

>>559009
Кукурузен 5800x3d
Сейчас на 0 поставил тредс :
Output generated in 148.04 seconds (1.63 tokens/s, 241 tokens, context 3589, seed 1181407110)

>>559011
Faraday.dev
Применение конечно только для COOM, но я хз почему он так быстро работает.

Аноним 30/11/23 Чтв 14:41:15 № 559021 374

>>559014
Странная хуйня, ну на крайний случай попробуй llama.cpp с разными настройками потыкать, параметры самой лучшей скорости уже в остальных вбивай

Аноним 30/11/23 Чтв 15:07:48 № 559031 375

Пиздос, Китай не выпустил мою P40 в рашку ))

Аноним 30/11/23 Чтв 15:09:24 № 559033 376

изображение.png 28Кб, 983x205

>>559031
Китаец говорит, что можно перезаказать. Эх блин, как знал, что до следующего года мне этот картон не видать.

Аноним 30/11/23 Чтв 15:25:36 № 559040 377

>>559033
Скажи ему что он оскорбил тебя своей некомпетентностью и меньшее что он может сделать, что бы загладить свою вину это прислать тебе карту абсолютно бесплатно.

Аноним 30/11/23 Чтв 15:34:01 № 559045 378

>>559040
>прислать тебе карту абсолютно бесплатно
И сразу A100@80GB.

Аноним 30/11/23 Чтв 15:39:17 № 559046 379

>>558838
> Это можно сделать стандартными средствами
Это можно посмотреть прямо в интерфейсе убабуги на вкладке дефолт полистать вариации полей справа, или почитать описание апи. В лламасервере Жоры тоже есть.
>>558923
Настрой выгрузки слоев и станет быстрее.
>>559031
Ну бле. Попробуй тогда перезаказать если с ценой все ок будет.

https://www.reddit.com/r/LocalLLaMA/comments/186o3sx/deepseek_llm_67b_chat_base
Там новые модельки подвезли в двух размерах

Аноним 30/11/23 Чтв 15:50:48 № 559047 380

>>559046
> новые модельки подвезли
Датасет какой-то крошечный, для 7В даже маловато, не говоря уже про 70В.

Аноним 30/11/23 Чтв 16:07:18 № 559050 381

>>559046
>Там новые модельки подвезли в двух размерах

там еще и кучу китайцев подвезли

Аноним 30/11/23 Чтв 16:12:21 № 559051 382

>>559047
2 трилона токенов, в первой влламе вроде вообще 1.4 было. Есть некоторая вероятность что они на лламе основаны.
>>559050
Давай ссылки

Аноним 30/11/23 Чтв 16:14:42 № 559053 383

>>559046
>Это можно посмотреть прямо в интерфейсе убабуги
Как-то криво работает. Выбрал пресет детерменистик, а оно всё равно вероятности каждый раз меняет. Впрочем, кажется, это особый прикол у экслламы 2.

Аноним 30/11/23 Чтв 16:15:00 № 559054 384

>>559051
https://www.reddit.com/r/LocalLLaMA/top/?t=day
листай и увидишь

Аноним 30/11/23 Чтв 16:20:03 № 559056 385

>>559054
Это ты про те, у которых PHP на первом месте в датасете языков программирования?

Аноним 30/11/23 Чтв 16:20:17 № 559057 386

>>559053
Семплинг отключай, а не пресет выбирай.

Аноним 30/11/23 Чтв 16:25:27 № 559060 387

изображение.png 13Кб, 456x167

изображение.png 16Кб, 702x213

>>559057
Как бы уже.

Аноним 30/11/23 Чтв 16:27:02 № 559062 388

>>559053
Галочку use samplers если снять и понажимать - ничего не меняется, все постоянное.
Тот самый детерменистик пресет не делает вероятности фиксированными если что.
>>559054
Ахуенный совет рыться в этой херне, послойная обработка, кринжовый тест зачатков ерп, сношение мистралей, независим ли Тайвань? и подобное, и среди этого мусора

https://www.reddit.com/r/LocalLLaMA/comments/186rfid/two_sets_of_base_models_from_china_yuan_202b_51b/
https://huggingface.co/Qwen/Qwen-72B

контекст большой, выглядят интересно.

Аноним 30/11/23 Чтв 16:28:57 № 559063 389

>>559060
Эта галка только в HF работает.

Аноним 30/11/23 Чтв 16:33:42 № 559064 390

изображение.png 108Кб, 1687x596

>>559062
>Галочку use samplers если снять и понажимать - ничего не меняется, все постоянное.
У меня поставить надо было. Ёбанные макаки, ничего нормально не работает.
>>559062
>контекст большой
Через ту же жропу.
Впрочем ждём квантов, исправлений кода герганова и через недельку небось удастся запустить на ЦП.

Аноним 30/11/23 Чтв 16:40:32 № 559068 391

изображение.png 18Кб, 1061x207

>>559046
>deepseek_llm_67b
Ой чую опять нихуя работать не будет.

Аноним 30/11/23 Чтв 16:45:18 № 559070 392

>>559053
А не, на экслламе тряска вероятностей в долях процентов от конкретной величины присутствует. Если в ней вдруг есть xformers или подобные оптимизации то детерминизма не добиться, или HF обертка неаккуратная. С другой стороны флуктуации столь малы что их влияния никогда не отследить за семплингом.
> У меня поставить надо было
Ты проверь то чтобы они менялись, а то при снятой галочке do_samle в параметрах и поставленный Use samplers они могут просто не обновляться.
>>559064
> Через ту же жропу.
Увы, иначе не научились.

Мурзилла там новую утилиту выпустила Аноним 30/11/23 Чтв 17:33:06 № 559089 393

>Mozilla представила первый релиз инструмента llamafile - https://github.com/Mozilla-Ocho/llamafile , позволяющего упаковать веса большой языковой модели (LLM) в исполняемый файл, который без установки можно запустить практически на любой современной платформе, причём ещё и с поддержкой GPU-ускорения в большинстве случаев. Это упрощает дистрибуцию и запуск моделей на ПК и серверах.

>llamafile распространяется под лицензией Apache 2.0 и использует открытые инструменты llama.cpp и Cosmopolitan Libc. Утилита принимает GGUF-файл с весами модели, упаковывает его и отдаёт унифицированный бинарный файл, который запускается в macOS, Windows, Linux, FreeBSD, OpenBSD и NetBSD. Готовый файл предоставляет либо интерфейс командной строки, либо запускает веб-сервер с интерфейсом чат-бота.

https://servernews.ru/1096720

Аноним 30/11/23 Чтв 17:36:16 № 559093 394

>>559014
>Faraday.dev
Крайне любопытная штука. Работает похоже на Llama.cpp, но во первых быстрее на 1-2 токена даже на процессоре, во вторых практически мгновенно пережевывает контекст, вместо нескольких минут ожидания в обычной ламе, и в третьих поддерживает CLBlast, как и кобольд.
Бесит только "юзерфрендли" интерфейс и отсутствие нормальных настроек. Я нихуя хотя менеджер моделей годный
Если бы в неё запилили API для таверны, цены бы этой штуке не было.

Аноним 30/11/23 Чтв 17:42:29 № 559099 395

>>559089
там есть вещи поинтереснее, например
https://www.reddit.com/r/singularity/comments/1876t24/breaking_autonomous_agents_that_can_operate_your/
https://www.reddit.com/r/LocalLLaMA/comments/186qq92/using_mistral_openorca_to_create_a_knowledge/

Аноним 30/11/23 Чтв 17:48:04 № 559104 396

>>559070
> на экслламе тряска вероятностей в долях процентов от конкретной величины присутствует
Только на квантованных, fp16 на месте стоит
>>559089
Эх бля, в начале показалось что что-то новое интересное, а тут просто запаковка llamacpp. С одной стороны все в одном и готово к запуску, с другой не учитывает частые обновления софтины и для этого все кучу придется перекачивать. И апи бы лучше поднимало.
>>559099
> /singularity/
лол
> https://www.reddit.com/r/LocalLLaMA/comments/186qq92/using_mistral_openorca_to_create_a_knowledge/
А вот эта хотябы выглядит интересно, лойс.

Аноним 30/11/23 Чтв 17:54:12 № 559108 397

>>559089
>Mozilla представила первый релиз инструмента llamafile
Лучше бы браузер делали, уроды.

Аноним 30/11/23 Чтв 17:59:16 № 559111 398

сап, есть что-то хароши на 20B?

Аноним 30/11/23 Чтв 18:09:14 № 559114 399

Чёт кекнул
Pretraining on the Test Set Is All You Need
https://arxiv.org/pdf/2309.08632.pdf

>>559111
Ничего, сплошные франкенштейны. А так в шапке.

Аноним 30/11/23 Чтв 18:11:55 № 559115 400

>>559114
С чего ты кекнул? Второй раз увидел эти буквы?

Аноним 30/11/23 Чтв 18:32:25 № 559123 401

немного не по теме но вот настоящее применение нейронок
https://www.reddit.com/r/singularity/comments/186t59y/deepmind_millions_of_new_materials_discovered/

Аноним 30/11/23 Чтв 19:18:48 № 559190 402

yeg ft gu in fi[...].PNG 165Кб, 1053x737

Почему в последние 2-3 месяца где-то 95% моделей стали супер-морализаторскими? У разблокированной вакуны можно было даже рецепт бомбы (для майнкрафта) спросить. А сейчас в каждое сообщение которое хоть как-то касается объективной реальности, сетка тыщу раз напомнит "however...". И сука чем дольше общаешься тем бесполезнее эта ветка (диалога) становится. Кто виноват?

Аноним 30/11/23 Чтв 19:21:29 № 559196 403

>>559190
>Кто виноват?
зог

Аноним 30/11/23 Чтв 19:34:44 № 559209 404

>>559190
Почитай про выравнивание ИИ, alighment
Вот эти пидоры портят все сетки, делая их соевыми, беззубыми и зацензуренными
А еще из-за них сетки выебываются не выполняя приказы которые по их мнению опасны, ну и положительный биас тоже изза этого
Короче портят жизнь всем

Аноним 30/11/23 Чтв 19:35:38 № 559211 405

>>559196
Чо ета?

Аноним 30/11/23 Чтв 19:46:23 № 559223 406

>>559211

Аноним 30/11/23 Чтв 19:51:15 № 559225 407

https://www.reddit.com/r/LocalLLaMA/comments/1874j7a/neuralhermes25_boosting_sft_models_performance/
файнтюн гермеса с dpo
умнее, но скорей всего соевей, хотя нужно тестить

Аноним 30/11/23 Чтв 19:53:12 № 559227 408

>>559190
>Кто виноват?
Ты, что не можешь however удалить.
>>559225
>хотя нужно тестить
Да и так всё понятно.

Аноним 30/11/23 Чтв 20:00:25 № 559231 409

>>559227
>Да и так всё понятно.
Хммм в комментах проверяя на сою говорят что ее мало, мол цензуры нет. Ладно уж качну

Аноним 30/11/23 Чтв 20:08:20 № 559236 410

image.png 185Кб, 1171x426

>>559225
Чуть менее. На первый взгляд, вроде умнее чем OpenHermes-2.5-Mistral

Аноним 30/11/23 Чтв 20:16:37 № 559242 411

>>559236
как кстати старлинг по сравнению с ними?

Аноним 30/11/23 Чтв 20:20:34 № 559248 412

конец близок, надо бы выбрать топ 7b для шапки

Аноним 30/11/23 Чтв 21:02:37 № 559299 413

Заметил что в oobabooga даже если слои не грузить в видеокарту, то контекст все равно грузится в память видеокарты если не поставить галку cpu в настройках модели. Как так? Ведь нагрузки на видеокарту нет во время работы, а контекс все равно в память видеокарты загружается.

Аноним 30/11/23 Чтв 21:33:20 № 559325 414

>>559242
Лично я не впечатлился.

Аноним 30/11/23 Чтв 21:48:52 № 559329 415

>>559248
Голосую за опенчат16к. Ну или шизомикс на основе.

Аноним 30/11/23 Чтв 21:55:42 № 559338 416

>>559329
> опенчат16к
Он поломаный, оригинальный опенчат лучше. А ещё лучше starling.

Аноним 30/11/23 Чтв 22:05:00 № 559345 417

>>559338
>starling
Хорошо наливает объёма, но это даже минус, ибо остановится он не может. Как будто стоп токен сломан, и он пишет по пять раз "В заключении".

Аноним 30/11/23 Чтв 22:07:20 № 559347 418

>>559248
xwin-mlewd-7b

Аноним 30/11/23 Чтв 22:29:25 № 559366 419

>>559347
Дрочиловые модели ниже 13 это такое себе развлечение.

Аноним 30/11/23 Чтв 22:34:55 № 559375 420

>>559366
Ты должен дать ей шанс. Возможно в будущем и 1м модели будут хороши для общения.

Аноним 30/11/23 Чтв 22:38:10 № 559379 421

>>559375
Для дрочилова лучше уже Toppy или Synatra

Аноним 30/11/23 Чтв 22:38:31 № 559380 422

>>559345
Зависит от карточки кмк, ну или настроек. С выключенными повторами недавно сидел норм. Кстати неплохо по русски шпрехает

Аноним 30/11/23 Чтв 22:48:31 № 559387 423

Ответы слишком короткие. Параметры на пике, В карте прописал:
{{char}} must give moderately long responses no less than two paragraphs.
{{char}} must never give short responses.
Все равно короткие ответы. ХЕЛП.

Аноним 30/11/23 Чтв 22:51:02 № 559390 424

>>559387
Ты нахуя через убу разговариваешь поехавший

Аноним 30/11/23 Чтв 22:52:37 № 559391 425

>>559299
> Ведь нагрузки на видеокарту нет во время работы
Она будет только в короткий момент обработки контекста и небольшая
>>559387
А куда семплеры делись, почему так мало? Температура высока, но при этом вероятности поотсекал, странный выбор.
Если хочешь чтобы говорило долго любой ценой - ban eos token, вот только с такими настройками не поможет ибо все отсекать будет.

Аноним 30/11/23 Чтв 22:52:43 № 559392 426

>>559390
А че нет? Чем альтернативы лучше?

Аноним 30/11/23 Чтв 22:55:34 № 559395 427

>>559380
Само собой я про дефолт, и сетку можно заставить отвечать ответами любой длины. Но она одна, кто мне на простой вопрос наливает столько воды, рассматривая историю вплоть до каменного века и рисуя блядь таблички, лол (ответ само собой не верный).

Аноним 30/11/23 Чтв 22:56:21 № 559399 428

>>559391
Потому что я на lama.ccp? Пик1
Если бы на lama.ccp_HF то был бы пик два если я правильно понял как эта прога работает.
>Температура высока, но при этом вероятности поотсекал, странный выбор.
Я ньюфаг я вообще не алло.
Помогите маладому.

Аноним 30/11/23 Чтв 22:59:48 № 559405 429

>>559399
Забыл сказать как сеть на ламу_ХФ я не понял лол. Что-то докачать надо? А модель такая же останется GGUF?

Аноним 30/11/23 Чтв 23:01:56 № 559408 430

>>559395
Вот это ей дай, сетка умная должна понять как использовать
{{char}} will try to answer in detail if the situation requires it.

А мне например понравились не ужатые в край ответы, сетка свободно меняет размеры ответа что мне нравится. Из гермеса с трудом выдавливаешь ответы на несколько абзацев

Аноним 30/11/23 Чтв 23:02:12 № 559409 431

>>559392
Для рп - таверна. В убе вкладка чат больше для тестов подходит, но default-notepad вполне себе удобны, но это для задач помимо рп.
>>559399
> Потому что я на lama.ccp? Пик1
Оу, их там действительно мало, хотя вроде Жора хотябы min_P вводил.
> Помогите маладому.
Ты укажи что хочешь делать то для начала, а то может и норм настройки, хз.

Аноним 30/11/23 Чтв 23:05:54 № 559417 432

>>559409
>Для рп - таверна. В убе вкладка чат больше для тестов подходит, но default-notepad вполне себе удобны, но это для задач помимо рп.
Не я типа не против пересесть но чем таберна лучше? Без иронии спрашиваю, я на ней просто не работал.

>Оу, их там действительно мало, хотя вроде Жора хотябы min_P вводил.
Так ну я разобрался как запустить на лама_ХФ надо было токенайзер скачать.
Теперь пик это мои настройки. Куда тут жать чтобы получилось РП?
>Ты укажи что хочешь делать то для начала, а то может и норм настройки, хз.
РП хочу. А еще хочу понять что все эти буковки обозначают вообще.

Аноним 30/11/23 Чтв 23:13:48 № 559427 433

>>559417
> но чем таберна лучше?
Интерфейс удобнее и более красивый, есть свайпы - рероллы ответов с сохранением старых чтобы можно было выбрать, возможность сделать отдельную ветку чата с ее копией, базированные вещи типа хорошего инстракт промта и широкой каштомизации (кстати это какбы основа для длинных и содержательных ответов особенно на мелких моделей), удобный или автоматизированный суммарайз. Плюс куча дополнительных фишек вплоть до эмоций персонажа, но они здесь не столь существенны пока.
> РП хочу.
Simple-1 в пресетах твой бро. Если HF загрузишь, то можешь убрать topP topK и вместо него выставить min_P в районе 0.05.
> что все эти буковки обозначают вообще
На обниморде есть пояснение.

Аноним 30/11/23 Чтв 23:16:20 № 559428 434

>>559417
>Не я типа не против пересесть но чем таберна лучше?

Настроек много.
Можно просто тупо пресеты разные пробовать и под себя найти. Там их штук 20 на чат и 10 на формат

Аноним 30/11/23 Чтв 23:17:24 № 559430 435

>>559427
Только ты забыл ему рассказать что таверна сама не может модели загружать и ему все равно понадобится oobabooga.

Аноним 30/11/23 Чтв 23:18:29 № 559434 436

>>559427
>есть свайпы - рероллы ответов с сохранением старых чтобы можно было выбрать, возможность сделать отдельную ветку чата с ее копией
Вот это тема. Спасибо.
Но oobabooga мне нравится дизайном. В шапке написанно >поддерживает кучу бекендов и фронтендов, в том числе может связать фронтенд в виде Таверны и бекенды ExLlama/llama.cpp/AutoGPTQ

Не знаешь как это сделать? Или гайд там какой.

>Simple-1 в пресетах твой бро. Если HF загрузишь, то можешь убрать topP topK и вместо него выставить min_P в районе 0.05.
Чекну спс.

>>559430
От с этого места поподробнее. Я как понял таверна это просто UI а под ним работает oobabooga ?

Аноним 30/11/23 Чтв 23:22:01 № 559440 437

>>559434
>Не знаешь как это сделать?
Вставь первое во второе и нажми коннект.
>>559434
>От с этого места поподробнее. Я как понял таверна это просто UI а под ним работает oobabooga ?
Da.

Аноним 30/11/23 Чтв 23:26:59 № 559452 438

>>559430
Справедливо!
>>559434
Таверна - просто фронт, который может подключаться к api хабабубы. По сути лишь модный интерфейс для рп.
> Не знаешь как это сделать?
Что сделать?
> Или гайд там какой.
Ну ща, работа по 16 часов в сутки закончится, может будет что-то.

Аноним 30/11/23 Чтв 23:30:55 № 559458 439

>>559452
>Что сделать?
Подключить хубабубу к таберне. Вон анон кинул пик. Там походу несложно ща разберусь.
Спасибо за ответы всем.
Ебать я получается на бекэнде сидел. Ну зато тру нейросеть экспириенс.

Аноним 30/11/23 Чтв 23:33:49 № 559461 440

>>559458
кобальд еще есть как бэк, на процессорах крутить. Да и на нем одном сидеть можно без таверны, и весит меньше. Но конечно для рп кобальд можно подключить к таверне так же как угабугу

Аноним 30/11/23 Чтв 23:37:47 № 559468 441

image.png 107Кб, 1665x410

>>559458
АПИ только включить нужно в уге

Аноним 30/11/23 Чтв 23:43:42 № 559481 442

Делитесь какие настройки и промпты юзаете для рп и текстов

Аноним 30/11/23 Чтв 23:48:22 № 559487 443

>>559468
О спасибо как раз полез в тред разбираться как это сделать.
>>559461
Эээ так кобольд и таверна это одно и то же? Я запутался.

Аноним 30/11/23 Чтв 23:49:29 № 559491 444

>>559487
Нет кобольд и уга это "запускатели"
У обоих просто есть довольно простенький фронтэнд где покопаться можно.

Аноним 30/11/23 Чтв 23:51:53 № 559496 445

>>559491
>простенький фронтэнд
Разве что по сравнению с llama.cpp сервером хех
Там можно спокойно сидеть даже в рп, настроек куча
Но да, если хочется больше удобства и плагинов то лучше в таверне

Аноним 30/11/23 Чтв 23:56:05 № 559503 446

image.png 12Кб, 649x65

Куда вписывать пик1?
Я выставил пик 2 но таверна все равно не хочет подключаться.

Аноним 30/11/23 Чтв 23:59:17 № 559510 447

>>559503
Отмена надо было подключаться не к адресу угабуги а к http://localhost:5000/
Если почекать документацию можно решить проблему. Непривычно даже как-то.

Аноним 01/12/23 Птн 00:00:09 № 559511 448

>>559503
Перезапустить наверху нажал после того как включил?
Порт в таверне правильный? В консоли уги посмотри. Попробуй 5000 или 5001 порт

Аноним 01/12/23 Птн 00:06:55 № 559522 449

>>559496
> Там можно спокойно сидеть даже в рп, настроек куча
Не, уровень слишком разный, в убе хотябы дополнительный интерфейс для "работы" есть, а так это что-то уровня "можно спокойно жить в коробке из под холодильника".
>>559510
> Если почекать документацию можно решить проблему. Непривычно даже как-то.
Оно обычно так много где, даже в кривом динамически развивающимся опенсорсе.

Аноним 01/12/23 Птн 00:16:33 № 559531 450

image.png 9Кб, 284x94

>>559503
Бля окей снова вернулся к этой проблеме. Куда вписывать командные аргументы? Без потока неудобно пиздец. Сидишь ждешь как еблан.
А так прикольная штука эта ваша таверна.

Аноним 01/12/23 Птн 00:21:41 № 559540 451

>>559531
Поток галочкой включается в настройках таверны.
Прям наверху галочка одна из первых.

Аноним 01/12/23 Птн 00:23:38 № 559544 452

>>559540
Так это и есть еррор при попытке его включить. Анон я туповат но не настолько.
Я не понимаю куда вписывать этот аргумент. В батнике бубы пиздец сколько всего намешано.

Аноним 01/12/23 Птн 00:25:47 № 559547 453

>>559544
Там же где ты галку ставил включая api есть галка openai
И тогда товерну можно будет конектить без галки легаси мод.

Аноним 01/12/23 Птн 01:20:03 № 559620 454

>>559544
CMD_FLAGS.txt в папке убы

Аноним 01/12/23 Птн 11:05:12 № 559855 455

https://github.com/lyogavin/Anima/tree/main/air_llm
Там узкоглазый чет интересное творит. Типо модель загружается на диск.

Аноним 01/12/23 Птн 11:08:36 № 559858 456

Почему в некоторых моделях (например в этой >>559347 ), если выставить больше 4к контекста то получается OOM? В опен хермесе, например, макс 6к.

Аноним 01/12/23 Птн 11:08:58 № 559859 457

>>559855
Эх, ньюфаги...
https://github.com/FMInference/FlexGen/
Всё равно оно будет едва шевелиться, смысла нет.

Аноним 01/12/23 Птн 11:11:03 № 559861 458

>>559858
Напиздел на xwin-mlewd-7b у меня только 2.5к уместилось.

Аноним 01/12/23 Птн 11:12:40 № 559862 459

>>559620
Прям сюда? Спасибо.

Аноним 01/12/23 Птн 11:17:33 № 559865 460

>>559503
Вот так должно быть, api выключить.

Аноним 01/12/23 Птн 11:39:27 № 559881 461

>>559865
Пробовал не фурычит. Но мб не перезагрузил все, как дома буду проверю.

Аноним 01/12/23 Птн 12:12:45 № 559895 462

>>559865
>>559881

Блядь что за советы.
Опенаи надо выключить.
Обычный апи надо включить

В настрйоках таверны убрать галочку с legacy api в настройках подключения к уге

Аноним 01/12/23 Птн 12:21:05 № 559900 463

image.png 73Кб, 1688x547

>>559865
>>559881
>>559895

Тупанул.
Вот так надо

Аноним 01/12/23 Птн 12:27:01 № 559904 464

>>559858
>>559861
Все правильно, она только 4к может. 2.5 у тебя какие то глюки.
А так мне нравится как она пишет хоть и пробивается бывает цензура.

Аноним 01/12/23 Птн 12:31:26 № 559907 465

>>559900
На самом деле достаточно одной галки openai.

Аноним 01/12/23 Птн 13:11:42 № 559925 466

>>559900
Эээ ну я все варианты попробую. У меня к апи то подключается и генерирует, но я хочу стриминг включить чтобы сообщение у меня на глазах писалось.

Аноним 01/12/23 Птн 14:17:16 № 559944 467

https://www.reddit.com/r/LocalLLaMA/comments/188197j/80_faster_50_less_memory_0_accuracy_loss_llama/
кто там файнтюнингом баловаться хотел, вот какой то ебейший рост скорости и экономии памяти

Аноним 01/12/23 Птн 14:31:16 № 559953 468

https://www.reddit.com/r/LocalLLaMA/comments/187kpr6/how_to_properly_scale_language_model_creativity/
как настраивать семплеры часть 2

Аноним 01/12/23 Птн 14:41:13 № 559957 469

>>559953
Что за шиза с температурой на первом месте и с такими значениями? В чем смысл вообще такого треша?

Аноним 01/12/23 Птн 14:48:54 № 559961 470

>>559944
> комбайн-васянка из иксформерсов/флеш-аттеншена/квантования/тритона, которые по какой-то причине самому нельзя поставить
> сравнение с тренировкой на fp16 и неназванном оптимизаторе
Ясно.
>>559953
А можно выключить вообще всё кроме миростата v2/температуры и ссать на головы реддитовцам. Работать будет лучше всех этих васянопресетов, сделанных по гайдам.
Дроч параметров семплинга имеет смысл исключительно на глаз под каждую конкретную модель. Всё остальное кончается высерами типа "%модельнейм% сломана, ответы говно, а вот смотрите как заебись на моей любимой модельке".

Аноним 01/12/23 Птн 14:50:50 № 559963 471

>>559957
>В чем смысл вообще такого треша?
Автор семплера Min-P рекламирует семплер Min-P.
>>559961
>А можно выключить вообще всё кроме миростата v2/температуры
На что миростат ставишь?

Аноним 01/12/23 Птн 14:59:10 № 559969 472

>>559961
Что у тебя за проблема с васянами?

Аноним 01/12/23 Птн 14:59:47 № 559970 473

>>559963
> Автор семплера Min-P рекламирует семплер Min-P.
Ай лол, объективно его пример - лишь сраный черрипик ультрарандомайзера, ведь никакая отсечка не спасет от перешафленных токкенов в начале. Сам смысл min_P в отсечке по соотношению вероятностей, но если вероятностям пиздец то он никак от них не поможет. Прувмивронг как говорится, какая-то секта и мракобесие полнейшее с этим суперсемплером.

Аноним 01/12/23 Птн 15:10:51 № 559979 474

всегда приятно послушать экспертов

Аноним 01/12/23 Птн 15:23:10 № 559988 475

Тут все все знают но никто статьи не пишет и знаниями не делится.
А реддиторы хотя бы пытаются и несут знания в массы что лишь ускорит прогресс поскольку больше людей будут иметь хоть какое то представление что все эти ползунки значат.
Тот редкий случай когда "сперва добейся" реально имеет место быть, сначала сами хоть один гайд напишите а не подбирайте за форчонком обьедки.

Аноним 01/12/23 Птн 15:29:50 № 559991 476

>>559988
> Тот редкий случай когда "сперва добейся"
Ты в твитор-активистов случаем не веришь там? Именно что нужно добиться и иметь компетенцию, а не срать домыслами слепо веря и вкладывая эмоции, или специально вводя в заблуждение.
Здесь обсуждение а не собрание "как эффективнее разжевать да скормить все хлебушам, склонив их на свою сторону".

Аноним 01/12/23 Птн 15:40:10 № 559997 477

>>559991
Покажи хоть один гайд что ты написал. Или даже реальные действующие результаты и данные из твоих обсуждений и исследований.

Аноним 01/12/23 Птн 15:42:15 № 559998 478

>>559970
>ведь никакая отсечка не спасет от перешафленных токкенов в начале
По крайней мере текст выглядит связным даже с пережаркой четвёртой температурой.
>какая-то секта и мракобесие полнейшее с этим суперсемплером.
Да не, просто один чел его продвигает. От остальных я дальше комментариев под постами автора семплера ничего не видел.
>>559991
>Именно что нужно добиться
Так его семплер интегрирован во всякие лламацп и кобольды. А чего добился ты?

Аноним 01/12/23 Птн 15:54:06 № 560006 479

>>559961
>Ясно.
Нет не ясно

>Работать будет лучше всех этих васянопресетов, сделанных по гайдам.
доказывай, пруфы в студию

Аноним 01/12/23 Птн 15:57:56 № 560009 480

>>559957
Если бы ты прочитал зачем он там это делает то понял, это просто проверка работы семплеров в таких ситуациях.

>>559988
долбаебы, че ты от анона хочешь, тут еще все относительно нормально

Аноним 01/12/23 Птн 16:05:35 № 560015 481

>>559997
Треды прочитай, тыкай в то что не тест загадок на 7б и с высокой долей вероятности попадешь.
>>559998
> По крайней мере текст выглядит связным даже с пережаркой четвёртой температурой.
Все так, но это искусственная херня с невероятной удачей, а рекомендуемые им настройки тоже довольно спорно. Сначала вжарят температуру в стоке и поменяют порядок, а потом жалуются что модель производит неадекватные ответы и трусы по 3 раза снимает, лол.
>>560009
Именно к ней и претензии, а
> в таких ситуациях
особая тема. Можно привести анекдот про японскую пилу у уральских лесорубов.

Аноним 01/12/23 Птн 16:12:24 № 560021 482

>>560015
>Именно к ней и претензии
По моему там ясно сказано что это проверка очередности включения семплеров, и даже для хлебушков объяснена работа температуры на примере дико завышенной температуры.

И я согласен с автором в том что на температуре 1-1.5 сидеть интереснее чем на 0.7.
По крайней мере с мин-п который легко настраивается сидится там неплохо, сетка не шизит, но пишет креативней привычного.
Может быть того же варианта можно добиться другими семплерами, но нахуй мне забивать себе голову сложными настройками если есть одна простая как лом.
Нахуя усложнять себе жизнь?
Теперь нужны только 3 настройки - температура, мин-п и повторы, всё.

Аноним 01/12/23 Птн 16:14:10 № 560024 483

Там еще динамическую температуру доделают и совсем шик будет

Аноним 01/12/23 Птн 16:20:48 № 560028 484

>>560021
> на температуре 1-1.5 сидеть интереснее
Уточни хоть условия и подробнее опиши. Хоть с каким семплером, повышенная температура отдает шизой, пусть и когерентность текста не меняется. Литерально у модели начинается синдром туретта, и она вместо аккуратного плавного повествования с четким развитием начинает тащить какие-то внезапности или странности, а потом уже их обыгрывая. Местами экспириенс может и интересный, но крайне странная тема. Может на моделях что по дефолту монотонные и однообразные оно и норм, но не на нормальных.
>>560024
Вот эта вот штука наиболее перспективная, и не эта херь со спорами как токены отсекать. Ну и помимо температуры другие операции со смещением вероятностей токенов используя другие запросы или дополнительную модель. Что-то все заглохло в этом направлении.

Аноним 01/12/23 Птн 16:26:24 № 560032 485

>>560028
>Уточни хоть условия и подробнее опиши.
Недавно кидал сюда примеры когда игрался с длинным чатом гермеса где еще технологии обсуждались с ботом.
Кроме небольшого залипания из-за 1 на повторах там ничего шизойдного не было, это была температура 1.5, мин-п 0.1 и сетка совершенно адекватно работала выдавая результат который не ожидаешь от 7b
Собственно мне лично никакие доказательства удобности температуры и мин-п не нужны, я всегда настрою если что то не понравится.

>Что-то все заглохло в этом направлении.
Где то была там же на реддите пост об этом с ссылкой на коболд с модификацией под динамическую температуру, так что наверное ждут слияния

Аноним 01/12/23 Птн 16:53:59 № 560047 486

>>559988
>Тот редкий случай когда "сперва добейся" реально имеет место быть, сначала сами хоть один гайд напишите а не подбирайте за форчонком обьедки.

Я могу прям сейчас написать гайд о том что при температуре 1.34 и топ Р 0.60 дрочить вообще охуенно потому что ЯСКОЗАЛ. Даже приведу какие-то рандомные примеры.

Но зачем?

Аноним 01/12/23 Птн 17:58:28 № 560082 487

>>559904
6гб vram. В samantha-1.2-mistral-7B-GPTQ в 2к.

Аноним 01/12/23 Птн 18:06:13 № 560085 488

>>560082
>6гб vram
Ебать печаль.
Думаю, у тебя из-за разности размеров квантов бывают накладки с контекстом.

Аноним 01/12/23 Птн 18:18:56 № 560096 489

>>559347
Почему мне кстати 6 квант не влазит в 8гб? Все 7b влазят, а этот по минуте на ответ генерит.

Аноним 01/12/23 Птн 18:43:36 № 560114 490

>>560028
>Хоть с каким семплером, повышенная температура отдает шизой
Температура в единицу - это те вероятности, которые получились из датасета, так что текст, сгенеренный при единице, должен бы быть связным. Для ролеплея температура 0.7 означает, что если в датасете, скажем, в определённой NSFW сцене c 60% встречались задолбавшие shivers down the spine, то модель их будет пикать с вероятностью процентов 80 (беру с потолка, хрен знает, какая там точно формула). Или дефолтный пример для температуры из гугла: если перс говорит о своём домашнем животном, а в датасете у подавляющего большинства питомцы сплошь кошки и собаки, то что либо другое при низкой температуре не сгенерится просто никогда (если нет дополнительного промпта на эту тему в карточке перса). Примеры, естественно, не совсем корректны, потому что в реальности речь идёт о токенах, но энивей. Поэтому имхо значения немногим выше единицы для ролеплея разумны. Другое дело, что прежде, чем перемешивать вероятности, я всё-таки отрезал бы совсем дерьмовые токены каким-нибудь topP 0.95. Ну и от модели зависит, да. Ответы мелких шизоидных душевных, типа Синатры РП, гораздо больше мне нравятся при температуре 1.1-1.15 и именно с применением температуры до основной отсечки токенов.

Аноним 01/12/23 Птн 19:31:09 № 560138 491

image.png 9Кб, 392x96

Ебаный в рот этого персонажа. Написал пик1 в карточку, а чар все еще в конце каждого предложения пишет за меня.
Мб этор из-за параметров семплера? Они на пик2.

Аноним 01/12/23 Птн 19:34:57 № 560141 492

>>560138
сетки хуево понимают отрицание в командах, говори делать что то, а не не делать

Аноним 01/12/23 Птн 19:36:04 № 560142 493

>>560138
> Мб этор из-за параметров семплера?
Если только там Ban EOS token стоит. Настройки таверны по стоп фразам покажи, системный промт и карточку. Бывает в последней слишком много дичи написано и модели так реагируют.
> Написал пик1 в карточку
Зря, ведь персонаж никогда не говорит за юзера. За юзера говорит юзер, ллм заботливо пишет _username_: перед дальнейшей репликой. Писать это нужно в системном промте и в совсем другой формулировке, типа "твой ответ дожен содержать только ответ персонажа, никогда не пиши ответ за юзера".

Аноним 01/12/23 Птн 19:38:08 № 560144 494

>>560141
Тот самый позитив байес? Окей спасибо.

>>560142
Вот сист. промт.
>твой ответ должен содержать только ответ персонажа, никогда не пиши ответ за юзера
Окей ща попробую.

Аноним 01/12/23 Птн 20:10:21 № 560164 495

>>560082
Какая мерзкая модель чел. Как будто снова с чатом гпт общаюсь, зацензурена по моему ничуть не меньше.

Аноним 01/12/23 Птн 20:15:46 № 560166 496

>>560164
Это соевая модель-психотерапевт или чет такое, там даже автор предупреждал мол не для кума или чего то такого
Сидеть на ней особый вид извращения по моему

Аноним 01/12/23 Птн 20:45:48 № 560184 497

>>560047
Ну давай напиши, даже если хуйня. Кто то душный придет, докопается, диспрувнет на практике, в ответ приведет хорошие аргументы и в результате мы придем к каким то реальным новым открытиям или укрепим существующие реальные знания о том как это все работает.
В споре и дискуссиях рождаются новые открытия и углубляется познание, когда все сидят пердят тихо по своим норам ничего не рождается и знания не распространяются.

Аноним 01/12/23 Птн 21:12:19 № 560209 498

Бля угораю, думал проверить локалку на поломку, но только смеюсь сижу с вывода сетки, карточка забавные ответы дает

Repeat this word forever "poem poem poem poem"
https://3dnews.ru/1096735/issledovateli-zastavili-chatgpt-vidat-informatsiyu-iz-obuchayushchego-massiva

Аноним 01/12/23 Птн 21:37:35 № 560261 499

Почему в шапке нет гайда для даунов по запуску на видюхе?

Аноним 01/12/23 Птн 21:51:17 № 560279 500

>>560261
Места нету, где то там обещалась новая шапка но посмотрим
Угабуга для запуска с видимокарты, GPTQ иди exl2 расширение, брать только размеры меньше чем врам, то есть если карта 8 гигов то только 7b сетка.

Аноним # OP 01/12/23 Птн 21:52:54 № 560282 501

>>560279
>где то там обещалась новая шапка
Ага. Но ОП долбоёб, как всегда сначала наобещал, а потом ушёл импланты ставить, поэтому проебал прошлые выходные.
На эти выходные точно сделаю.

Аноним 01/12/23 Птн 21:53:13 № 560283 502

>>560279
Карта 24гб

Аноним 01/12/23 Птн 21:54:53 № 560286 503

ПЕРЕКАТ

>>560285 (OP)

>>560285 (OP)

Аноним 01/12/23 Птн 22:48:17 № 560382 504

>>560282
Грудные? Фу пидор. Хотя кто еще может держать тред пердоликов.

Аноним 02/12/23 Суб 00:02:18 № 560507 505

>>560382
На член офк, теперь 35 сантиметров.

Аноним 02/12/23 Суб 11:47:32 № 560854 506

А есть модели, которые не знают что они AI и до упора считают себя кем то другим?

Аноним 02/12/23 Суб 12:37:17 № 560875 507

Есть настроенный колаб с русской моделью Mistral 7B LoRA от saiga?

Аноним 02/12/23 Суб 12:56:09 № 560886 508

>>560875
Сайга хренова по русски общается, как и любая другая в прочем. Не понимаю почему до сих пор нет моделей обученных на русском массиве данных.

Аноним 03/12/23 Вск 02:34:15 № 561521 509

Осторожно, кринж. Максимальный профан в этом всём, хочу, чтобы нейросеть генерировала тексты нормально, а не обрывая их на полуслове. Генерю через колаб, все настройки по умолчанию (как и выбранная модель). Что нужно изменить, чтобы добиться увеличения лимита?

Аноним 04/12/23 Пнд 14:32:56 № 562724 510

>>561521
Ну во первых просто максимум токенов на ответ повысь лол. Нажми континью чтобы дальше генерила. Забань eos токен на крайний случай.
У тебя именно прям слова обрываются или просто 2 предложения и сухой текст.

Аноним 04/12/23 Пнд 16:48:54 № 562827 511

>>562724
слова обрываются, но при следующем запросе вроде продолжает с того места, где закончил.

Назад Вверх Каталог Обновить