/ai/ - Локальные языковые модели (LLM): LLaMA, MPT, Falcon и прочие №35

Локальные языковые модели (LLM): LLaMA, MPT, Falcon и прочие №35 /llama/ Аноним 05/01/24 Птн 16:02:48 № 592177 1

Альфа от контек[...].png 121Кб, 3090x1830

В этом треде обсуждаем генерацию охуительных историй и просто общение с большими языковыми моделями (LLM). Всё локально, большие дяди больше не нужны!
Здесь мы делимся рецептами запуска, настроек и годных промтов, расширяем сознание контекст, и бугуртим с кривейшего тормозного говна.
Тред для обладателей топовых карт NVidia с кучей VRAM или мажоров с проф картами уровня A100, или любителей подождать, если есть оперативная память. Особо терпеливые могут использовать даже подкачку и запускать модели, квантованные до 8 5 4 3 2-х бит, на кофеварке с подкачкой на микроволновку.

Базовой единицей обработки любой языковой модели является токен. Токен это минимальная единица, на которые разбивается текст перед подачей его в модель, обычно это слово (если популярное), часть слова, в худшем случае это буква (а то и вовсе байт).
Из последовательности токенов строится контекст модели. Контекст это всё, что подаётся на вход, плюс резервирование для выхода. Типичным максимальным размером контекста сейчас являются 2к (2 тысячи) и 4к токенов, но есть и исключения. В этот объём нужно уместить описание персонажа, мира, истории чата. Для расширения контекста сейчас применяется метод NTK-Aware Scaled RoPE. Родной размер контекста для Llama 1 составляет 2к токенов, для Llama 2 это 4к, но при помощи RoPE этот контекст увеличивается в 2-4-8 раз без существенной потери качества.

Текущим трендом на данный момент являются мультимодальные модели, это когда к основной LLM сбоку приделывают модуль распознавания изображений, что в теории должно позволять LLM понимать изображение, отвечать на вопросы по нему, а в будущем и манипулировать им.

Основным представителем локальных моделей является LLaMA. LLaMA это генеративные текстовые модели размерами от 7B до 70B, притом младшие версии моделей превосходят во многих тестах GTP3 (по утверждению самого фейсбука), в которой 175B параметров. Сейчас на нее существует множество файнтюнов, например Vicuna/Stable Beluga/Airoboros/WizardLM/Chronos/(любые другие) как под выполнение инструкций в стиле ChatGPT, так и под РП/сторитейл. Для получения хорошего результата нужно использовать подходящий формат промта, иначе на выходе будут мусорные теги. Некоторые модели могут быть излишне соевыми, включая Chat версии оригинальной Llama 2.

Кроме LLaMA для анона доступны множество других семейств моделей:
Pygmalion- заслуженный ветеран локального кума. Старые версии были основаны на древнейшем GPT-J, новые переехали со своим датасетом на LLaMA, но, по мнению некоторых анонов, в процессе потерялась Душа ©
MPT- попытка повторить успех первой лламы от MosaicML, с более свободной лицензией. Может похвастаться нативным контекстом в 65к токенов в версии storywriter, но уступает по качеству. С выходом LLaMA 2 с более свободной лицензией стала не нужна.
Falcon- семейство моделей размером в 40B и 180B от какого-то там института из арабских эмиратов. Примечательна версией на 180B, что является крупнейшей открытой моделью. По качеству несколько выше LLaMA 2 на 70B, но сложности с запуском и малый прирост делаю её не самой интересной.
Mistral- модель от Mistral AI размером в 7B, с полным повторением архитектуры LLaMA. Интересна тем, что для своего небольшого размера она не уступает более крупным моделям, соперничая с 13B (а иногда и с 70B), и является топом по соотношению размер/качество.
Qwen - семейство моделей размером в 7B и 14B от наших китайских братьев. Отличается тем, что имеет мультимодальную версию с обработкой на входе не только текста, но и картинок. В принципе хорошо умеет в английский, но китайские корни всё же проявляется в чате в виде периодически высираемых иероглифов.
Yi - Неплохая китайская модель на 34B, способная занять разрыв после невыхода LLaMA соответствующего размера

Сейчас существует несколько версий весов, не совместимых между собой, смотри не перепутай!
0) Оригинальные .pth файлы, работают только с оригинальным репозиторием. Формат имени consolidated.00.pth
1) Веса, сконвертированные в формат Hugging Face. Формат имени pytorch_model-00001-of-00033.bin
2) Веса, квантизированные в GGML/GGUF. Работают со сборками на процессорах. Имеют несколько подформатов, совместимость поддерживает только koboldcpp, Герганов меняет форматы каждый месяц и дропает поддержку предыдущих, так что лучше качать последние. Формат имени ggml-model-q4_0, расширение файла bin для GGML и gguf для GGUF. Суффикс q4_0 означает квантование, в данном случае в 4 бита, версия 0. Чем больше число бит, тем выше точность и расход памяти. Чем новее версия, тем лучше (не всегда). Рекомендуется скачивать версии K (K_S или K_M) на конце.
3) Веса, квантизированные в GPTQ. Работают на видеокарте, наивысшая производительность (особенно в Exllama) но сложности с оффлоадом, возможность распределить по нескольким видеокартам суммируя их память. Имеют имя типа llama-7b-4bit.safetensors (формат .pt скачивать не стоит), при себе содержат конфиги, которые нужны для запуска, их тоже качаем. Могут быть квантованы в 3-4-8 бит (Exllama 2 поддерживает адаптивное квантование, тогда среднее число бит может быть дробным), квантование отличается по числу групп (1-128-64-32 в порядке возрастания качества и расхода ресурсов).

Основные форматы это GGML и GPTQ, остальные нейрокуну не нужны. Оптимальным по соотношению размер/качество является 5 бит, по размеру брать максимальную, что помещается в память (видео или оперативную), для быстрого прикидывания расхода можно взять размер модели и прибавить по гигабайту за каждые 1к контекста, то есть для 7B модели GGML весом в 4.7ГБ и контекста в 2к нужно ~7ГБ оперативной.
В общем и целом для 7B хватает видеокарт с 8ГБ, для 13B нужно минимум 12ГБ, для 30B потребуется 24ГБ, а с 65-70B не справится ни одна бытовая карта в одиночку, нужно 2 по 3090/4090.
Даже если использовать сборки для процессоров, то всё равно лучше попробовать задействовать видеокарту, хотя бы для обработки промта (Use CuBLAS или ClBLAS в настройках пресетов кобольда), а если осталась свободная VRAM, то можно выгрузить несколько слоёв нейронной сети на видеокарту. Число слоёв для выгрузки нужно подбирать индивидуально, в зависимости от объёма свободной памяти. Смотри не переборщи, Анон! Если выгрузить слишком много, то начиная с 535 версии драйвера NVidia это серьёзно замедлит работу. Лучше оставить запас.

Гайд для ретардов для запуска LLaMA без излишней ебли под Windows. Грузит всё в процессор, поэтому ёба карта не нужна, запаситесь оперативкой и подкачкой:
1. Скачиваем koboldcpp.exe https://github.com/LostRuins/koboldcpp/releases/ последней версии.
2. Скачиваем модель в gguf формате. Например вот эту:
https://huggingface.co/TheBloke/Frostwind-10.7B-v1-GGUF/blob/main/frostwind-10.7b-v1.Q5_K_M.gguf
Можно просто вбить в huggingace в поиске "gguf" и скачать любую, охуеть, да? Главное, скачай файл с расширением .gguf, а не какой-нибудь .pt
3. Запускаем koboldcpp.exe и выбираем скачанную модель.
4. Заходим в браузере на http://localhost:5001/
5. Все, общаемся с ИИ, читаем охуительные истории или отправляемся в Adventure.

Да, просто запускаем, выбираем файл и открываем адрес в браузере, даже ваша бабка разберется!

Для удобства можно использовать интерфейс TavernAI
1. Ставим по инструкции, пока не запустится: https://github.com/Cohee1207/SillyTavern
2. Запускаем всё добро
3. Ставим в настройках KoboldAI везде, и адрес сервера http://127.0.0.1:5001
4. Активируем Instruct Mode и выставляем в настройках пресетов Alpaca
5. Радуемся

Инструменты для запуска:
https://github.com/LostRuins/koboldcpp/ Репозиторий с реализацией на плюсах
https://github.com/oobabooga/text-generation-webui/ ВебуУИ в стиле Stable Diffusion, поддерживает кучу бекендов и фронтендов, в том числе может связать фронтенд в виде Таверны и бекенды ExLlama/llama.cpp/AutoGPTQ

Ссылки на модели и гайды:
https://huggingface.co/TheBloke Основной поставщик квантованных моделей под любой вкус.
https://rentry.co/TESFT-LLaMa Не самые свежие гайды на ангельском
https://rentry.co/STAI-Termux Запуск SillyTavern на телефоне
https://rentry.co/lmg_models Самый полный список годных моделей
http://ayumi.m8geil.de/ayumi_bench_v3_results.html Рейтинг моделей для кума со спорной методикой тестирования
https://rentry.co/llm-training Гайд по обучению своей лоры
https://rentry.co/2ch-pygma-thread Шапка треда PygmalionAI, можно найти много интересного
https://colab.research.google.com/drive/11U-bC6AxdmMhd3PF9vWZpLdi6LdfnBQ8?usp=sharing Последний известный колаб для обладателей отсутствия любых возможностей запустить локально

Шапка треда находится в https://rentry.co/llama-2ch (переезжаем на https://2ch-ai.gitgud.site/wiki/llama/ ), предложения принимаются в треде

Предыдущие треды тонут здесь:
>>583852 (OP)
>>577814 (OP)

Аноним 05/01/24 Птн 17:10:25 № 592221 2

>>591819 →
Охуенен, просто нет слов.

>>592020 →
> С картинками что-то неладное происходит, грузятся через раз. А на котокоробку если возвращать - там из-за ркн оно через раз грузит и нужен впн/прокси.
Гитгуд очень медленно картинки отдаёт, если их на нём хостить, по какой-то причине. Поэтому, я рассчитывал, что пикчи будут на сторонние сервисы грузиться, по типу catbox. Из минусов то, что такой подход добавляет ещё одну точку отказа в виде картинкохостинга - на том же imgur уже выпиливали картинки, которые использовались в местных гайдах по sd.

Вообще, у гитгуда сам хостинг статики на коленке сделан, насколько я понимаю. Я когда изначально там вики поднял, она просто не открывалась в Firefox из-за кривых сертификатов - я немного поисследовал проблему и понял, что это общая проблема для всего хостинга от gitgud. Но когда я связался с девом гитгуда, он за пару часов поправил проблему, а это был вечер воскресенья (мне даже неловко от такого стало). То есть сам фикс видать пустяковый был, но почему без прямой наводки они сами багу раньше не поправили...

Про проблему с catbox у ркн в первый раз слышу.

У меня была мысль арендовать какую-нибудь копеечную vps'ку и настроить туда автодеплой собранной вики вместо гитгуда. В этом случае, все картинки, включая шизогриды для sd, можно хранить напрямую в репе. В самом же гитгуде оставить только репу. Но, в этом случае, появятся риски, что, если, в какой-то момент, я забью на всю ии-движуху и не буду продлевать оплату, то проект упадёт с непонятными перспективами - придётся кому-то другому про инфраструктуру думать. Я бы мог такое организовать, но не уверен, стоят ли риски того и как вы вообще к подобному муву отнесётесь.

Сейчас же мы чисто фришный хостинг используем. Из моей инфраструктуры там только билд-агент в виде древнего thinkpad'а, который отслеживает правки в репе 24/7, собирает проект и разворачивает статику на предоставляемом gitgud'ом фришном хостинге. Роль билд-агента может выполнять любой калькулятор с доступом в интернет.

Аноним 05/01/24 Птн 17:21:22 № 592227 3

Тред умер нахуй
>>591819 →
Будет интересно почитать гайд на таверну
>>592221
А почему по классике не сделать вики на гитхабе?

Аноним 05/01/24 Птн 17:32:07 № 592234 4

>>592221
> Гитгуд очень медленно картинки отдаёт, если их на нём хостить
Вот в чем дело, графики и мелкие скрины норм работают, а где крупнее - через раз. Потом на котокоробку значит перекину обратно, или попробую пережать чтобы загружались оттуда.
С сертификатами сейчас действительно все ок, так бы и не вспомнил.
> Про проблему с catbox у ркн в первый раз слышу.
Хз, может и не ркн но поведение идентичное. Чсх оно рандомно, иногда работает, иногда не грузит. Впску - хз, текущая версия прилично работает кмк, а с пикчами тема приемлемая.
Алсо, статьи на циве нельзя сделать под коллективный/групповой доступ?

Аноним 05/01/24 Птн 17:38:13 № 592240 5

>>592227
> Будет интересно почитать гайд на таверну
У нее функционал богатый очень и не то чтобы его весь знаю, только основное. Может если будет не лень разобраться хотябы с озвучкой/распознаванием, запросами генерации пикч и около того.

Аноним 05/01/24 Птн 17:41:57 № 592242 6

>>591819 →
Найс, спасибо что уделил время

Аноним 05/01/24 Птн 18:01:05 № 592261 7

>>592227
> А почему по классике не сделать вики на гитхабе?
Минорные проблемы - в вики на гитхабе не работает система с ПРами, так что люди без прав в репе не смогут предложить правки (но мы такую возможность по факту не используем, так что это мелочь). Поскольку это чисто онлайн-система, то у контрибьютеров нет мотивации держать актуальную локальную копию, которая может выступить в роли бекапа на случай чп.

Но вариант с вики на гитхабе кмк был бы лучше вики на условном fandom, т. к. на гитхабе вики хранится в виде честной гит репы, которую можно бекапнуть вместе со всей историей одной командой.

Основная проблема с гитхабом в том, что есть подозрение, что за отдельные части вики её могут пидорнуть с гитхаба - раз проект sd-web-ui (который от automatic1111) оттуда около года назад выпилили за то, что в readme-файле были ссылки на статьи по теме то ли с хентаем, то ли с nai leak, уже не помню точно. Я читал правила гитхаба, и, как мне показалось, там просто за условный панцушот или джейлбрейк с фокусом на ерп выпилить репу могут. В общем, нужно определённых правил цензуры тогда придерживаться, чтобы минимизировать риски, в случае гитхаба. В том же гитгуд уже много лет хостятся проекты эроге с лолями, так что подобных рисков сильно меньше.

Аноним 05/01/24 Птн 18:03:10 № 592266 8

>>592261
Зачем вообще что-то менять? Работает- не трогайте.

Аноним 05/01/24 Птн 18:13:09 № 592279 9

>>592266
Я не хочу ничего менять. Только с картинками разобраться бы, чтобы как в случае с rentry всё не ломалось на части провайдеров.

Анон задал хороший вопрос, на который стоило ответить. Просто я сам изначально рассматривал именно гитхаб в качестве репы для вики, но из-за перечисленных минусов решил использовать другую опцию, которой выступил гитгуд.

Аноним 05/01/24 Птн 18:51:39 № 592319 10

>he chuckled darkly
в каждом первом ответе. Заебал. Как фиксить? Использую угабугу

Аноним 05/01/24 Птн 18:59:18 № 592326 11

>>592319
Модель? Температура? Квант? Мы не телепаты, анон

Аноним 05/01/24 Птн 19:01:06 № 592327 12

>>592319
Smirking.

Аноним 05/01/24 Птн 19:32:57 № 592363 13

Screenshot20240[...].png 133Кб, 1085x1281

>>592326
pivot-0.1-evil-a.Q8_0.gguf

Аноним 05/01/24 Птн 19:39:04 № 592370 14

>>592363
пивот евил изначально сломан, он просто эксперимент на обратном выравнивании

Аноним 05/01/24 Птн 19:41:02 № 592373 15

>>592370
блин, а что юзать то тогда?
Мне чисто под кум и чтобы влезало в 7 гб (11 с учетом контекста)

Аноним 05/01/24 Птн 19:44:44 № 592377 16

>>592373
toxichermes-2.5-mistral-7b попробуй, он тем же методом расцензурен но уже не сломан

Аноним 05/01/24 Птн 20:02:12 № 592397 17

>>592373
Старая добрая Synatra-7B-v0.3-RP хороша для кума, как по мне, хоть и тупит мб больше других 7b моделей. Ещё недавно наткнулся на её вот такой популярный мерж https://huggingface.co/PistachioAlt/Synatra-MCS-7B-v0.3-RP-Slerp-GGUF Эта более уравновешенная.
Из твоего скриншота настроек сэмплеров выходит, что ты вообще их не применяешь. Это не есть хорошо для мелких моделей. Поставь хотя бы minP 0.1 или дефолтные topP 0.9, topK 30, если с остальными экспериментировать неохота. Ну и rep pen поднять с единицы хотя бы на 1.1 можно.

Аноним 05/01/24 Птн 20:27:39 № 592432 18

https://www.reddit.com/r/LocalLLaMA/comments/18z04x5/llama_pro_progressive_llama_with_block_expansion/
Ну ебать, еще один метод улучшения моделей.
Теперь это наращивание знаний модели без потерь.

Аноним 05/01/24 Птн 20:41:45 № 592453 19

>>592432
За этим приходить через полгода, не раньше.

Аноним 05/01/24 Птн 20:55:17 № 592476 20

А че есть что нить по наращиванию скоростей генерации? А то умные модели это хорошо, но генерить по 1.7 токена 70b ДОЛГОВАТА.

Аноним 05/01/24 Птн 21:08:53 № 592486 21

>>592476
жди мамбу, трансформеры не ускорить, разве что прунить и квантовать для уменьшения размера.

Аноним 05/01/24 Птн 21:14:15 № 592497 22

>>592486
Что за мамба, анончик?

Аноним 05/01/24 Птн 21:15:54 № 592501 23

А че, на форчке побанены русские айпи? Попытался написать в /lmg/, пишет айпи ренж блокед дуе ту абуз.

Аноним 05/01/24 Птн 21:22:45 № 592507 24

>>592486
Почитал про мамбу, двоекратное уменьшение размера моделей при том же качестве чет слишком красиво звучит.
мимо другой анон

Аноним 05/01/24 Птн 21:22:48 № 592508 25

>>592497
https://arxiv.org/abs/2312.00752
https://huggingface.co/models?sort=created&search=mamba

Всё хочу одну скачать на пробу и каждый раз лень настраивать. Там какие то есть уже новые файнтюны на базовых моделях, хоть и 3b.
Но вроде как они равны 7b по мозгам, по крайней мере по заявлениям исследователей. Как оно на деле хуй знает.

Аноним 05/01/24 Птн 21:29:12 № 592519 26

>>592508
Нашел только это из того как мамбу запустить, по другому хз

https://github.com/havenhq/mamba-chat

Кто шарит может поиграться, только отпишитесь что ли, интересно ведь

Аноним 05/01/24 Птн 22:48:45 № 592605 27

Аноны, а что за карточку персонажа он требует?

Аноним 05/01/24 Птн 22:56:31 № 592617 28

>>592519
Завтра потыкаю может быть и отпишусь

Аноним 05/01/24 Птн 23:12:56 № 592639 29

>>592605
Кто "он" ?

Аноним 05/01/24 Птн 23:30:19 № 592655 30

image.png 8Кб, 410x83

image.png 2Кб, 267x83

>>592639
Ну... Кобольд. На первом пике требует либо промт (куда его?), либо карточку (какую?), либо выбрать сценарий. Но на все кастомные (которые импорт фром) он выдает пик 2.

_{Да, я ньюфаг}

Аноним 05/01/24 Птн 23:35:10 № 592657 31

>>592655
Поставь SillyTavern, подключи ее к кобольду, карточки бери на chub.ai. У кобольда интерфейс говна, его использовать можно разве что для проверки работоспособности модели. У меня он вообще настроен на запуск без вебморды, чисто апи для таверны.

Аноним 05/01/24 Птн 23:49:06 № 592671 32

Для deepsex 34b какие настройки в таверне оптимальны?
А то отвечает что на симпле что на миростате как то суховато прям.

Аноним 06/01/24 Суб 02:09:04 № 592778 33

Screenshot20240[...].png 22Кб, 870x55

>>592377
>toxichermes-2.5-mistral-7b
нахуй идет быстро решительно

Аноним 06/01/24 Суб 02:10:08 № 592779 34

>without your consent
Как же они заебли....

Аноним 06/01/24 Суб 03:19:02 № 592795 35

>>592397
>Synatra-7B-v0.3-RP
соя ёбаная.
Бомж не захотел насиловать 14-летнюю девочку.
Пивот с этим проблем не имеет.
Итак, пивот все еще наименее соевый. Может быть еще кто варианты подкинет?

Аноним 06/01/24 Суб 05:04:16 № 592819 36

Стаканул Р40 + 1070, запустил yi-34b-v3.Q6_K и получил производительность 6.3т/сек (1070 медленная, наверное, две p40 дали бы 7+++).
На соло Р40 в yi-34b-v3.Q4_K_M было 9т/сек.
Неожиданно, но в итоге стаканье видеокарт не создаёт накладных расходов как предполагали всем тредом ранее.

Кстати, этого стака уже хватает на запуск 70b Q2_K (лол, проверю). А если использовать проц + Р40, то производительность будет 1.8 т/сек для 70b Q4_K_M.

Ещё меня начала мучать шиза на тему, что q6 сильно лучше могёт в причинно-следственные связи, хотя лексика у них ощущается одинаковой. Это немного не совпадает с общепринятым знанием про потери 0.00001% информации при квантовании. Поясните, плз.
Мимо китаедаун.

Аноним 06/01/24 Суб 05:04:30 № 592820 37

>>592476
Купи вторую гпу, будет по 17+ т/с на 70б, сможешь инджоить и наслаждаться. Или возьми одну-две p40, в теоретической теории они смогу обеспечить скорость стриминга сравнимую или быстрее чем скорость чтения на 70б.
Или дождить тему с горячими нейронами, довольно перспективная штука.
>>592519
Возможно потыкаю, или потом, отпишусь.
>>592795
> Бомж не захотел
Асуждаю

Аноним 06/01/24 Суб 05:08:42 № 592823 38

>>592819
> не создаёт накладных расходов
В каком лаунчере? Бывшая не создает, но там паскаль очень слаб. Жора вроде как создает проблемы, но их природа не изучена.
> 1.8 т/сек для 70b Q4_K_M
Грустновато, конечно, оно с другими видюхами на ддр5 быстрее получается. Второй p40 или чего-то жирного нету случаем??
> что q6 сильно лучше могёт в причинно-следственные связи, хотя лексика у них ощущается одинаковой
Единичный случай скорее всего, отпиши подробнее что там, так можно будет исследовать.

Аноним 06/01/24 Суб 05:33:47 № 592833 39

>>592823
>В каком лаунчере?
lamacpp, только он работает быстро на паскалях.
>Второй p40 или чего-то жирного нету случаем??
Нету. Только несколько затычек.
>отпиши подробнее что там
Ох, тут придётся делать десятки скринов чтобы можно было что- то сравнить.
Может быть была инфа, что yi глупеют от квантования, но не так сильно как мистрали?

Аноним 06/01/24 Суб 09:01:44 № 592870 40

Ананасы, нуб репортинг ин. Что писать в промпт, чтобы модель не пичкала меня соевой моралью? Мне не нужна какая-то чернуха, но мне нужен текст с определенным настроением. Даже нейтральные промпты это чудище умудряется повернуть так, что персонаж начинает угрызения совести испытывать по поводу того, что кому-то что-то не так сказал. Mistral instruct 0.1 7B.

Вообще, как составлять промпт? Как в ЧатГПТ?

Аноним 06/01/24 Суб 10:34:06 № 592878 41

>>592870
Самый адекватный выход тут - искать какие-то менее соевые файнтьюны. Дефолтная инстракт версия заточена быть полезным безопасным помощником. Промптинг как для больших моделей тут не поможет, 7б модель не поймёт полотна инструкций. Ну можешь попробовать добавить в промпт какие-то очень-очень простые инструкции вроде того, что ролеплей fictional, что у персонажа есть свои цели, к которым он должен стремиться несмотря ни на что, и прочее. Ещё если используешь ChatML инстракт пресет, который рекомендуется для мистраля, то попробуй включить имена и подредактировать его как на первом пике, чтобы убрать упоминание ассистента. Начало чата я ставлю как на втором пике, чтобы показать сетке, где закончился системный промпт, и начался чат, который надо продолжать, но мб это избыточно. И в мейн промпте не должно быть фигни вроде "you are helpful assistant".

Аноним 06/01/24 Суб 11:13:40 № 592896 42

>>592870
Возьми просто любой файнтюн.
Dolphin, OpenChat
Они мало того что без сои, так еще и работают лучше.

Джейлбрейки на локальных моделях это бред вообще.
Это для любителей MINISTRATIONS извращение.

Аноним 06/01/24 Суб 11:23:12 № 592897 43

Привет, ананасы!
Всех с Наступившим!

В общем, положняк такой: мне в жопу заноза попала - хочу извергнуть из ануса нейросетевого стримера, который играет в какую-то несложную игру, пиздит с чатиком и имеет навык не рыгать буквами, вместо осмысленных предложений.

Задача уже на этом этапе звучит как пиздец и всё усугубляется тем, что у меня абсолютный ноль знаний и понимания в теме, но много мотивации и свободного времени.

Я полистал местные треды и столкнулся с тем, что закреплённые в шапке гайды не актуальны, например, и без помощи местных знатоков я не справлюсь.

Реквестирую помощь на данном этапе. С какой стороны начать есть этот пирог? Пните в нужную сторону. Пока однозначно понятно следующее: нужно как минимум разобраться с компьютерным зрением, начать обучать по вводным параметрам какую-то языковую модель, а также, скорее всего, поебаться и разобраться с API некоторых платформ.

Аноним 06/01/24 Суб 11:52:36 № 592903 44

>>592897
> Пните в нужную сторону. Пока однозначно понятно следующее:
Тебе понадобятся железки. Что сейчас в наличии?

Аноним 06/01/24 Суб 12:04:00 № 592913 45

>>592501
Да.
>>592507
Очередной пиздёж, да, и дроч на тесты.
>>592778
Скил ишью.
>>592897
>у меня абсолютный ноль знаний и понимания в теме
Ну так приобретай.
>закреплённые в шапке гайды не актуальны
Всё там актуально на 100%.
>нейросетевого стримера, который играет в какую-то несложную игру, пиздит с чатиком и имеет навык не рыгать буквами, вместо осмысленных предложений
Не осилишь, инфа 146%.

Аноним 06/01/24 Суб 12:06:05 № 592916 46

>>592903
>>592177 (OP)

В базе 3070Ti и 5900Х, но мощностей ещё есть у меня!

Аноним 06/01/24 Суб 12:06:54 № 592917 47

>>592897
Теоретически, тебе нужен CogAgent, подходящее железо и очень много времени и мотивации ебстись со всем этим.

Аноним 06/01/24 Суб 12:34:52 № 592934 48

>>592819
>Ещё меня начала мучать шиза на тему, что q6 сильно лучше могёт в причинно-следственные связи, хотя лексика у них ощущается одинаковой. Это немного не совпадает с общепринятым знанием про потери 0.00001% информации при квантовании.

А где ты это общепринятое увидел? Тут несколько раз срачи были на эту тему, и есть 2 стула - те кто оценивают потерю по тесту перплексити, и те кто не доверяет такому простому тесту. Собственно - любое квантование идет с потерями, так что даже если модель не теряет способность генерировать текст, она может потерять связность на более высоком уровне. На уровне следования контексту или понимания че от нее вообще надо.
Более, абстрактные области. Вот это самое причинно-следственное. Мозги, грубо говоря.
Те же 7b обладают меньшим запасом прочности и теряют способность генерировать текст раньше, чем жирные сетки. Но то что 34b работают на 4 кванте не значит что они НЕ потеряли в качестве, просто потеря не дошла до заметной потери в генерации ответов.
Любая сетка будет работать без потерь только запускаясь в ее родном размере. Это fp16. Может быть минимальные потери будут на 8q, но они будут, хоть и мизер.
Вот только запускать нормальный размер часто не на чем, поэтому приходится возится с ущербными копиями оригинала, квантами поменпьше.

Аноним 06/01/24 Суб 12:35:09 № 592935 49

>>592917
В базе блок-схема такая. Для начала научить бы её разговаривать. Поможешь дополнить?

Рад буду любым идеям и информации. Сейчас агрегирую очень много данных и изучаю очень много информации. Надеюсь при помощи анонов сделать нечто годное с открытым кодом.

Аноним 06/01/24 Суб 12:58:20 № 592942 50

>>592913
>Скил ишью.

все кроме пивот:
аааа нееет что ты делаешь, прекрати, я не буду этого делать, ты совершаешь ошибку, тебе это не нужно аааа
литералли пикрелейтед

пивот:
я из тебя всю душу выебу, ебать, погнали нахуй

Ну камон.

Аноним 06/01/24 Суб 13:06:01 № 592944 51

>>592942
Ну вот еще, в 7 гигов 5ks войдут
solar-10.7b-instruct-v1.0-uncensored
Фроствинд хорошо следует персонажу, если пропишешь маньяка скорей всего будет действовать как маньяк
Frostwind-10.7B-v1
Этот тоже как бы расцензурен, и он тоже есть в разных размерах
bagel-dpo-7b

Пивот эвил весело запускать, но в чате он шизит
Так как сломан слишком сильным антивыравниванием

Аноним 06/01/24 Суб 13:22:57 № 592947 52

При ротации контекста ощущается сильное замеждение генерации.
Вставляю контекст 4к. До примерно 3.5к - все генерирует быстренько. Когда доходит до 3.5 - начинается пиздец и ожидания по 70 секунд пока он там отсетет лишнее и сгенерирует новое.
Есть варианты как фиксить?
Я внезапно понял, что 4к конетекста в рп - это вообще ни о чем.

Аноним 06/01/24 Суб 13:45:28 № 592956 53

>>592934
>родном размере. Это fp16
Замечу, что 16 бит это половинная точность. Полная 32, но в некоторых случаях и её не хватает, и для нейросеток когда-то использовали двойную точность.
>>592947
Похоже, что у тебя не хватает памяти, и начинается подкачка пары сотен мегабайт. Давай подробнее, что на чём и чем запускаешь.

Аноним 06/01/24 Суб 13:50:45 № 592962 54

>>592897
Локалки тебе не нужны, тупо контекста не хватит на целый стрим, тебе нужен клод или гптыня с их 32-100к контекста. Гипотетически тебе нужна связка языковая модель + апи твича/ютуба для получения чата + нужный промпт + синтезатор голоса + витуберский софт. На инпут текстовой модели подается отрывок текущего чата, генерируется ответ, он загружается в синтезатор голоса, голос подаётся в витуберский софт, витубер пиздит на стриме, в итоге все должно работать. С игрой сложнее, тебе придется играть самому, нейросетей которые играют самостоятельно я не видел, разве что в какие-нибудь шахматы.

Аноним 06/01/24 Суб 13:53:52 № 592963 55

>>592962
>нейросетей которые играют самостоятельно я не видел, разве что в какие-нибудь шахматы.
Кучу раз видел какие то эксперименты с майнкрафтом и нейросетями, про исследования автономных агентов и тд

Аноним 06/01/24 Суб 14:00:18 № 592964 56

лмао

Аноним 06/01/24 Суб 14:03:53 № 592968 57

>>592964
Интересно
Пивот как всегда лол
Вобще не хватает сеток, половина какие то странные взяты

Аноним 06/01/24 Суб 14:05:41 № 592971 58

ｷﾀ――(ﾟ∀ﾟ)――!!

Аноним 06/01/24 Суб 14:06:04 № 592972 59

>>592968
стащил из этого треда, это мемные модели которые часто форсились в форчановском /lmg/
https://boards.4chan.org/g/thread/98282960

Аноним 06/01/24 Суб 14:08:04 № 592973 60

>>592453
>За этим приходить через полгода, не раньше.
Хуевый из тебя пророк анонче
https://huggingface.co/TencentARC/LLaMA-Pro-8B

Вот и первая сетка по методу наращивания знаний без потерь, если я правильно понял.
https://www.reddit.com/r/LocalLLaMA/comments/18z04x5/llama_pro_progressive_llama_with_block_expansion/

Она кстати тут есть или ее файнтюн >>592964

Аноним 06/01/24 Суб 14:08:34 № 592974 61

>>592964
РП-кал ожидаемо самый соевый, лол. Не хватает в сравнении базового Багеля.

Аноним 06/01/24 Суб 14:08:57 № 592975 62

>>592972
там кста предпоследний пост, челик тестит beyonder-4x7bv2+ на своей расистке emily, модель вообще на отъебись игнорирует добрую половину описания и контекста чата, кек

Аноним 06/01/24 Суб 14:11:58 № 592979 63

>>592975
Самый нормальный файнтюн микстраля - это Notux. Ужатые 4х7 вообще кал из под васянов.

Аноним 06/01/24 Суб 14:12:02 № 592980 64

>>592971
поздравляю
не трогай час-два если с холода притащил, на них конденсата куча
пока не отогреются и влага не испарится лучше не включать

Аноним 06/01/24 Суб 14:15:57 № 592983 65

>>592973
> сетка по методу наращивания знаний без потерь
хм, надо собрать самые топовые модели по типу этой :
https://huggingface.co/TheBloke/SOLAR-10.7B-Instruct-v1.0-uncensored-GGUF
и нарастить мега-базовую и ультра умную нейроночку что будет выполнять каждый твой приказ без колебаний.
ну а вообще без приколов, если это действительно работает как DPO или laser, то эта троица есть самый эффективный способ по дополнению нейронки новыми знаниями.

Аноним 06/01/24 Суб 14:18:26 № 592985 66

>>592983
или можно юзая этот метод, вырвать из нейронки всё что выдаёт сою в конечном результате, исходя из того что если можно добавить transformer blocks, то так же их можно и убрать.

Аноним 06/01/24 Суб 14:19:49 № 592986 67

>>592983
Да уж, веселье только разгоняется с этой кучей методов улучшений. 2024 год будет ебейшим в плане развития ии.
Главное что бы не последним, лол

Аноним 06/01/24 Суб 15:16:19 № 593040 68

>>592962
>нейросетей которые играют самостоятельно я не видел
Даже в дотку режутся. Но всё за закрытыми стенами.
>>592971
Красава. Ждём тестов 70B.
>>592973
И как оно работает? Особенно на жоре, который славится своей хуёвой поддержкой всех нововведений.
>>592985
>то так же их можно и убрать
Ой не факт.
>>592986
Так же про 2023 говорили.

Аноним 06/01/24 Суб 15:23:58 № 593049 69

>>593040
>Так же про 2023 говорили.
Будто он таким не был.

>И как оно работает? Особенно на жоре, который славится своей хуёвой поддержкой всех нововведений.
Тесты уже есть на пикче, так что скорей всего работает
Да и ггуф уже выкатили вместе с другими форматами

Аноним 06/01/24 Суб 15:25:19 № 593050 70

Да кто такой этот жора

Аноним 06/01/24 Суб 15:34:01 № 593056 71

изображение.png 38Кб, 1511x169

>>593050
Из новой шапки.

Аноним 06/01/24 Суб 15:36:20 № 593057 72

https://huggingface.co/TheBloke/LLaMA-Pro-8B-GGUF
ггуф запускается кобальтом без ошибок, и оно отвечает осмысленно.
Ну че, новая базовая модель и новые файнтюны скоро

Аноним 06/01/24 Суб 15:38:40 № 593060 73

>>593057
>8b
Фи

Аноним 06/01/24 Суб 15:39:44 № 593061 74

>>593049
>Будто он таким не был.
Как по мне, всё самое интересное было в 2021, когда запилили GPT3. 2022 был годом хайпа с чат моделью, а в 2023 просто к этому получили доступ гои типа нас. По сути ничего принципиально нового.
>>593057
Уже вижу как унди начинает клепать новые франкенштейны-шизомиксы.

Аноним 06/01/24 Суб 15:41:24 № 593062 75

>>593061
> Уже вижу как унди начинает клепать новые франкенштейны-шизомиксы.
Так и не понял, на кой хуй он это делает. Затраты во, а результат минимальный.

Аноним 06/01/24 Суб 15:42:29 № 593064 76

>>593062
Самопиар же.
Кстати, там в кобольдЦП добавили logit_bias.

Аноним 06/01/24 Суб 15:48:13 № 593070 77

>>593064
>logit_bias
чё эта?

Аноним 06/01/24 Суб 15:51:14 № 593074 78

>>593070
Давка конкретных токенов.

Аноним 06/01/24 Суб 15:53:47 № 593079 79

>>593060
>>593061
Дурачье, теперь можно дообучить любые сетки, 7b просто проба
Ждем новых 34b-36b
Ну или хотя бы доученного солар 11b

Аноним 06/01/24 Суб 15:55:14 № 593082 80

>>593079
> дообучить любые сетки, 7b просто проба
Жду, когда начнут обучать на порнорассказах.

Аноним 06/01/24 Суб 15:56:35 № 593085 81

>>593079
>7b просто проба
Тут уже триллион инициатив остановилась на 7B, лол. Надо запретить всё что меньше 70B, вот тогда прогресс попрёт.

Аноним 06/01/24 Суб 16:10:10 № 593100 82

>>592820
Вторая 4090 нынче ДОРОХОВАТО стоит, тащемта.
>возьми одну-две p40
Ну вот кстати можно и попробовать, хотя тут не понятно как оно с основной картой дружить будет.

Аноним 06/01/24 Суб 16:11:08 № 593104 83

>>593085
>Тут уже триллион инициатив остановилась на 7B, лол.
Просто тебе результаты получше не показывают, вот и все. Самый смак как всегда за закрытыми дверями. Не думаешь ли ты что успех на малой сетке остановит от улучшения большой сетки? Только результат уже никто в открытый бетатест и рекламу не выложит.
Добиваясь результата и выкладывая его просто привлекают деньги показывая что они могут достичь успеха. Как мистраль, например.

Аноним 06/01/24 Суб 16:11:39 № 593105 84

>>592878
>>592896
Спасибо за ответы, посмотрю файнтьюны. Но раз все упирается в модель, может имеет смысл докинуть оперативы до 32, она сейчас недорогая, да какую-нибудь Ламу 70B гонять, она поместится в 32? Хотя, скорость генерации на процессоре печальная, конечно. Подскажите сетап компа заодно адекватный. Как вообще процессор это дело обрабатывает, количество ядер важно? И насколько видюха разгоняет процесс, если взять какую-нибудь условную 3060. После быстрой Мистраль уже как-то ждать, пока там модель напердит по одной букве в чат, как-то печально.

Аноним 06/01/24 Суб 16:12:31 № 593109 85

изображение.png 69Кб, 1352x478

изображение.png 120Кб, 1903x591

изображение.png 75Кб, 1612x513

>>593057
>и оно отвечает осмысленно.
Шизит порой весьма забавно. МинП лучше вообще не врубать. Классику проваливает стабильно, так что... Мой вердикт на всё новое как всегда- говно неюзабельное.

Аноним 06/01/24 Суб 16:15:17 № 593111 86

>>593104
>Как мистраль, например.
Только мистраль. Да и то сомнительно. Остальные точно в пролёте. Или ты думаешь, что тому же унди перепадёт что-то большее, чем донаты на парочку 4090?
>>593105
32 гиг мало, проц медленно печаль, 9000 ядер никак не помогают, видеокарта рулит.

Аноним 06/01/24 Суб 16:16:52 № 593117 87

>>593109
Отвечает все равно осмысленно, хоть и шизит.
Ну и да, это ж как пивот эвил, первый результат который выкинули на мороз.
Будь он топовым то никто бы кроме разве что рекламы не выложил базовую версию раздав бесплатно кому попало.

Аноним 06/01/24 Суб 16:28:20 № 593134 88

>>593109
И возможно проблема в ггуф и его запуске. Это работает и преобразуется, но не факт что все прошло правильно и без ошибок. Все таки модифицированная структура.

Аноним 06/01/24 Суб 16:28:26 № 593137 89

>>593117
>Отвечает все равно осмысленно, хоть и шизит.
Ровно так же, как и любая ллама, и даже любительские обрезки на 1,5В. Никакой революции.
>Будь он топовым то никто бы кроме разве что рекламы не выложил базовую версию раздав бесплатно кому попало.
А так смысла нет выкладывать говно. Да и метод то открытый, сейчас наклепают говнеца и опять зальют весь хайгинфейс. Я удивляюсь, как он всё это хранит, да ещё и раздаёт во всю ширину канала даже в Россию.

Аноним 06/01/24 Суб 16:29:09 № 593139 90

>>592897
Начни просто с ознакомления с ллм, обеспечь запуск и быструю работу. Початься, попробуй описать персоналити своей нейтро-самы и добиться того, чтобы она отвечала примерно так как нужно.
Далее, можно начать выстраивать взаимодействие, настрой вишпер и tts чтобы говрить с ней, настрой выдачу эмоций для какого-нибудь л2д движка чтобы ее визуализировать, плюс сделать липсинк с речью.
Этого уже хватит надолго и поймешь много проблем и нюансов. Для организации реально чего-то подобного потребуется несколько ллм, где только одна будет "думать за чара" а остальные будут выполнять вспомогательные роли.
Что же до компьютерного зрения, там своя тема, плюс мультимодалки сейчас развились очень сильно.
>>592964
О, ништяк кто-то заморочился. Соус с доп описанием есть, или там только результаты? Интересно возможность управлять результатом промтом.
>>592971
Красава, велкам ту зе дуалгпу клаб, бадди жмакнул за жопу
>>593057
> новая базовая модель и новые файнтюны скоро
Если там просто блоки добавили, есть вероятность прямой их подсадки к имеющимся моделям, так что скорее новой волны замесов и франкенштейнов.

Аноним 06/01/24 Суб 16:29:40 № 593142 91

>>593134
>И возможно проблема в ггуф и его запуске.
-> >>593040
>Особенно на жоре, который славится своей хуёвой поддержкой всех нововведений.
Я сразу и отписал, что будет говно. Хотя я еблан, оно о=же влезает в 12 гиг врама, можно что-то более путёвое запустить.

Аноним 06/01/24 Суб 16:35:59 № 593147 92

>>593142
оригинал на угабуге разве что, любые другие методы преобразования и квантования не факт что нормально сработают

Аноним 06/01/24 Суб 16:37:51 № 593148 93

>>593085
Не столь радикально, но в целом верно, нужно внедрять в большие модели.
>>593100
Да пиздец. Как более бюджетный вариант - 3090 со вторички, тут точно никаких проблем не будет.
> хотя тут не понятно как оно с основной картой дружить будет
Хороший вопрос, она плохо дружит с экслламой, а у жоры были нюансы с расделением на разные карты. Но вон их уже 3 штуки на руках есть, скорее всего тесты в разных сочетаниях будут.
>>593105
> И насколько видюха разгоняет процесс
До невероятных скоростей где ответ будет мгновенный, в самых тяжелых случаях генерация пойдет быстрее чем будешь успевать читать. Это если полностью на видеокарте, если делить проц-карточка то будет зависеть от пропорции разделения. 3060@12 даст возможность катать модели до 13б только на ней, возможно скорость на 34б будет приемлемой.
> ждать, пока там модель напердит по одной букве в чат, как-то печально
Если для рп - экспириенс сам может оказаться важнее чем точность ответов, когда оно быстро и не совсем ужасно - может быть достаточно чтобы проникнуться и увлечься, а постоянные прерывания собьют весь настрой и будет херня.

Аноним 06/01/24 Суб 16:46:17 № 593153 94

изображение.png 185Кб, 1924x718

изображение.png 82Кб, 1387x516

>>593147
>оригинал на угабуге разве что,
Спасибо, Капитан! Или ты про оригинальный трансформер? Под него у меня врама нет, но вот попробовал экслламу 2, и что-то вообще дичь.
>>593148
>со вторички, тут точно никаких проблем не будет
Ну кроме убитой карты, майненой или там прожаренной в духовке.

Аноним 06/01/24 Суб 16:48:45 № 593154 95

>>593153
ево, этож и есть оригинал, екслама тоже преобразуется и квантуется

Аноним 06/01/24 Суб 16:51:18 № 593156 96

>>593111
>>593148
Ясненько, спасибо.
Мне не для рп, а для текстовых концептов, скорость важна, я много правлю. Не критично, но хотелось бы побыстрее.

Аноним 06/01/24 Суб 16:51:47 № 593158 97

>>593153
Под оригинал кстати не обязательна врам, он и на процессоре крутится и вроде бы можно было часть там часть там. Медленно конечно, но это 8b, а не 70b. Че там, 16 гигов вроде fp16

Аноним 06/01/24 Суб 16:53:00 № 593160 98

Можно ли фп16 запустить на процессоре?

Аноним 06/01/24 Суб 16:53:07 № 593161 99

>>593154
>екслама тоже преобразуется и квантуется
Проёбов там обычно меньше.
Попробовал в общем напрямую, и тоже шизит. Бывает конечно пишет классику с 8 книгами, но вот такой шизы не должно быть вообще даже на 7B, я считаю. Короче либо одно, либо другое.

Аноним 06/01/24 Суб 16:55:23 № 593165 100

>>593161
Похоже на проеб тренировки кстати, хуево данные почистили может

Аноним 06/01/24 Суб 16:59:57 № 593176 101

>>593161
Вобще я так понимаю суть дообучения в прибавлении знаний к сетке, а не улучшение мозгов в сумме.
Это нужно не задачками ее ебать, а проверять знания и умение их применять. На сколько понимаю нужно сравнить базовый мистраль и эту сетку и поспрашивать на разные темы.
Скорей всего добавили математику и програмерство.

Хотя хуй знает, может быть там был не мистраль, а ллама 2.
Но врятли, она изначально сосет.

Аноним 06/01/24 Суб 17:02:18 № 593179 102

>>592971
Поздравляю.

Аноним 06/01/24 Суб 17:29:21 № 593218 103

https://blocksandfiles.com/2024/01/05/ferroelectric-ram-update-and-micron/
Новая память с намеком на использование в ии, я так понимаю это оптан 2

Аноним 06/01/24 Суб 17:38:53 № 593227 104

>>593218
> с намеком на использование в ии
Голоса в голове тебе намекают? Причём тут вообще ИИ и куда ты собираешься это затолкать?

Аноним 06/01/24 Суб 17:39:43 № 593229 105

>>593227
Статью почитай не позорься, там это прямо написано

Аноним 06/01/24 Суб 17:40:45 № 593230 106

Почему никто Grok не обсуждает?

Аноним 06/01/24 Суб 17:40:57 № 593231 107

>>592934
Спасибо за объяснение.

Кстати, продолжил тестировать кванты yi-34b-v3 и заметил, что у Q5_0 сильно меньше шизы по сравнению с Q6_K, но качество сравнимо.
Затем вспомнил пост Undi95:
>WARNING: ALL THE "K" GGUF QUANT OF MIXTRAL MODELS SEEMS TO BE BROKEN, PREFER Q4_0, Q5_0 or Q8_0!
https://huggingface.co/Undi95/Mixtral-8x7B-MoE-RP-Story?not-for-all-audiences=true
Ещё один финтюнер немного обобщённо бугуртит с gguf:
>I had much better results with the fp16 instead of GGUF, GGUF quants seem fucked? I don't know. May be on my side. Had so much nonsense input, had to wrangle settings until I had it coherent, it was working Really good. Fuck Yi models are a pain to work with.
https://huggingface.co/Sao10K/NyakuraV2-34B-Yi-Llama

Пока вброшу в тред предположение, что все gguf в которых есть буква K ломают yi-34.

>>592971
Мои поздравления, ждём тесты тяжёлых нейронок.
А куда ты их планируешь втыкать? Можно фотку если что-то необычное?
Расскажи как будешь охлаждать и что будет с температурой.

Аноним 06/01/24 Суб 17:44:59 № 593236 108

>>593229
Ты знакомые буквы увидел и даже не читал что там написано, да? Там не слова про использование в ИИ, использование в GPU-датацентрах не означает что оно хоть какое-то отношение к ИИ имеет. Там речь вообще про другое.

Аноним 06/01/24 Суб 17:47:02 № 593238 109

>>593231
> предположение
Чел, это уже давно пофикшено, если ты специально где-то не откопал протухшую версию. И шизам, видящим разницу между Q5 и Q6 надо принимать таблетки.

Аноним 06/01/24 Суб 17:52:45 № 593243 110

>>593230
Судя по тесту грок та еще хуйня>>592964

>>593236
Совсем сдрочился? Уже и небольшую статью прочитать и осознать не могут.
Гуглоперевод что бы ты страдал, до перевода Gen AI догадайся сам.

Хотят сделать аи ускорители с большой и энергонезависимой памятью, что бы хранить модель там столько сколько нужно и с большими скоростями. Без необходимости гонять ее туда сюда каждое включение. Может быть меньшее выделение тепла и потребление в сумме, так как не жрет энергию на поддержание. Замена нанд в потанцевале, как скорей всего более дешевая замена оптана.
Может быть и замена рам, по крайней мере скорости годные, только задержка великовата.

Аноним 06/01/24 Суб 17:55:41 № 593248 111

>>593238
> это уже давно пофикшено
А были новости про это какие то? Мол да каемся срали, но теперь завязываем.
>Q5 и Q6 надо принимать таблетки.
Желтый может и шизу снес, но с другой стороны утверждать, что между 5 и 6 разницы нет до уровня неразличимости - тоже бредом попахивает - по хорошему надо выборкой на реролах тестить.

Аноним 06/01/24 Суб 18:08:35 № 593251 112

https://www.reddit.com/r/LocalLLaMA/comments/18zne2z/the_basement_rig_has_achieved_the_next_level_96gb/
4 карты сразу

Аноним 06/01/24 Суб 18:10:24 № 593255 113

>>593243
Ты даже русский язык не понимаешь? Написано же для файлопомойки больших файлов. Какое отношение к ИИ это имеет?

Аноним 06/01/24 Суб 18:13:01 № 593257 114

>>593248
> А были новости про это какие то?
В гите читай, через пару дней пофиксили после обнаружения бага.
> между 5 и 6 разницы нет до уровня неразличимости - тоже бредом попахивает
Без семплинга они тебе выдадут идентичный результат, с семплингом тоже на шизу похоже, если ты видишь какие-то отклонения в рандоме.

Аноним 06/01/24 Суб 18:13:18 № 593258 115

>>593255
вот тупой

Аноним 06/01/24 Суб 18:16:13 № 593260 116

>>593243
>Судя по тесту грок та еще хуйня
А что не так с тестом? То, что они все снизу - это база, реальность такая. Лево/право же вопрос идеалов скорее.

Аноним 06/01/24 Суб 18:18:38 № 593262 117

https://www.reddit.com/r/LocalLLaMA/comments/18zcgyp/expanding_capabilities_through_composition_calm/
бля еще один метод слияния сеток

>>593260
Ну, то что он лево либеральный это все соевый биас. А соя это плохо

Аноним 06/01/24 Суб 19:27:18 № 593287 118

>>593230
Потому что не попенсорс, очевидно же.
>>593243
Хуйня идея, данные всё равно через 3 пизды от вычислителей.
>>593260
>То, что они все снизу - это база, реальность такая.
Схуяли? Это не база, это алаймент.
>>593262
>бля еще один метод слияния сеток
Заебали, остановите прогресс на недельку хотя бы.

Аноним 06/01/24 Суб 19:31:55 № 593291 119

>>593260
нее чел, это всё хуйня, модели что промоутят повесточку - нахуй идут.
https://www.trackingai.org/compare-responses#Q62
а вот здесь https://www.trackingai.org/ можно посмотреть пикрил.

Аноним 06/01/24 Суб 19:32:42 № 593292 120

>>593291
бля

Аноним 06/01/24 Суб 19:34:59 № 593293 121

mlabonne/Beyonder-4x7B-v2

Очень интересная мини-МОЕ модель.
Для нищуков вообще отлично подойдет.

Аноним 06/01/24 Суб 19:38:48 № 593297 122

>>593291
А ты тот тест проходил? Я вот прошел. Там 0 вопросов про трансов. Зато есть вопросы уровня "было бы хорошо если бы каждый мог воду бесплатно получить?"

Ну, было бы хорошо. Вот модели и занимают на этом тесте левый угол.

Аноним 06/01/24 Суб 19:39:10 № 593298 123

Два вопроса:
Посоветуйте годную GGML лору

И второй вопрос, в Silly Tavern в лорбук можно добавлять только персонажей или вообще все что угодно? Места, события и тд?

Аноним 06/01/24 Суб 19:41:43 № 593301 124

>>593298

Лор бук работает по принципу привязки к слову.
Это может быть персонаж, место, событие, похуй вообще.

Аноним 06/01/24 Суб 19:43:07 № 593303 125

>>593153
Вторичка она такая, проверками и тщательным осмотром можно вероятность фейла минимизировать но она всегда остается.
>>593160
Да, ванильным трансформерсом с торчем на цп, через llamacpp сконвертировав веса в gguf не трогая битность.
>>593176
> суть дообучения в прибавлении знаний к сетке, а не улучшение мозгов в сумме
И то и другое если все получается.
>>593218
Скорее для хранилищ или высокопроизводительного дискового кэша, она медленная по сравнению с оперативной памятью но быстрее той что в ссд.
>>593248
> между 5 и 6 разницы нет до уровня неразличимости
> по хорошему надо выборкой на реролах тестить
Как их можно объективно сравнить?

Аноним 06/01/24 Суб 19:45:32 № 593306 126

>>593301
> Лор бук работает по принципу привязки к слову

То есть как кроссреференс? Типа будет сканить и проверять на наличие ключевых слов а потом брать описание?

Аноним 06/01/24 Суб 19:53:27 № 593309 127

>>593287
>Заебали, остановите прогресс на недельку хотя бы.

Аноним 06/01/24 Суб 19:56:04 № 593312 128

>>593306
Ага.
Поэтому система довольно всратая, она иногда работает на синонимы или если ты слово с ошибкой напишешь, а иногда не работает.

Аноним 06/01/24 Суб 19:59:45 № 593316 129

>>593312
Понял спасибо анонче за обьяснение. Осталось решить вопрос с годной лорой.

Аноним 06/01/24 Суб 20:07:01 № 593318 130

>>593303
>И то и другое если все получается.
Ну, от увеличения знаний сетка становится умнее, да.

>Скорее для хранилищ или высокопроизводительного дискового кэша, она медленная по сравнению с оперативной памятью но быстрее той что в ссд.
Не обязательно медленнее, просто делай шину чуть шире. Для обычной гпу наверное бесполезна, а вот для чисто ии ускорителя норм.
Материнка с ИИ процессором, вокруг него слоты памяти, нет ебли с сата нвме и другими медленными накопителями. Только один чип и один тип памяти на котором он все и хранит.
Если бы в компах не было разделения на оперативную память и медленную, жать было бы веселее.
Ну, будь у нас полный аналог энергонезависимых ддр.
В любом случае это игрушка для корпоратов как и любое передовое оборудование. У них могут быть свои требования и эта память может под них подойти.

Аноним 06/01/24 Суб 20:26:31 № 593331 131

>>593318
Делать гига широкие шины трудно.
Почитай какие проблемы были в hbm, даже пришлось дополнительную подложку (дорогую, кстати) мастырить.

Аноним 06/01/24 Суб 20:28:35 № 593333 132

>>593318
> Ну, от увеличения знаний сетка становится умнее, да.
Тут еще важно умение их применить, старые большие сетки "знают" довольно много, но наитупейшие в некотором контексте.
> Не обязательно медленнее, просто делай шину чуть шире.
Если шина потребуется в 10+ раз больше, а время доступа будет донное - не нужно, плюс у нее ограниченный ресурс. Но в качестве промежуточного звена памяти, которая медленнее рам но быстрее хранилища может пригодиться.
> эта память может под них подойти
Хранить кэш активаций или частей моделей, вполне.

Аноним 06/01/24 Суб 20:57:11 № 593364 133

Все ещё верите бенчмаркам?

Аноним 06/01/24 Суб 21:11:18 № 593375 134

>>593318
>Если бы в компах не было разделения на оперативную память и медленную, жать было бы веселее.
Давай сразу регистры на диск заменять, все эти кеши это просто костыли.
>>593333
>Но в качестве промежуточного звена памяти, которая медленнее рам но быстрее хранилища
Не особо нужно, по крайней мере на десктопе диски сейчас не сказать чтобы упирались в шину, но близки к ней.

Аноним 06/01/24 Суб 21:13:53 № 593383 135

>>593364
В них никто уже давно не верит, хуй знает зачем ты это принес

Аноним 06/01/24 Суб 21:43:53 № 593403 136

>>593303
> Да, ванильным трансформерсом с торчем на цп, через llamacpp сконвертировав веса в gguf не трогая битность.
Оно же должно быстрее быть, так? Я где-то читал, мол то ли п40, то ли процы лучше приспособлены для фп16 вычислений.

Аноним 06/01/24 Суб 21:49:05 № 593405 137

>>593403
Ага. Только шина соснёт в 4 раза больше.

Аноним 06/01/24 Суб 22:55:25 № 593445 138

photo12024-01-0[...].jpg 128Кб, 1280x960

>>593040
>Красава. Ждём тестов 70B.
так, я собрал наконец все говно до кучи и готов что-нибудь попробовать
Только я не знаю, каких именно тестов вам подогнать
70б какой модели? И где бы мне вопросы каверзные найти для нейросетки, чтобы проверить насколько она умная?
>>593231
я заказывал турбины вместе с картами. Вот сотственно как я их смонтировал.
Турбины без регулировки, шумят. Точно нужно будет их менять в дальнейшем. Работать можно, но на ночь не оставишь, как я обычно делаю - спать не даст.

Аноним 06/01/24 Суб 23:13:51 № 593461 139

>>593293
Модель хорошая, но опять же злые персонажи применяют насилие и тут же извиняются, а так словарный запас хороший, кум есть, шизы вроде не заметил.

Аноним 06/01/24 Суб 23:24:01 № 593470 140

>>593461
Да меня тоже немного с consent докучала, но на удивление быстрое сдается после условного "ну ебать, хорош ломаться" лол

Аноним 06/01/24 Суб 23:24:04 № 593471 141

>>593403
> то ли п40, то ли процы лучше приспособлены для фп16 вычислений
Скорее они не приспособлены к расчетом меньшей битности и не получают такого же ускорения, как на новых гпу.
>>593445
Хуясе ебать, это же привод!
Из чистых файнтюнов что-нибудь, или можешь рискнуть последние мерджи, но во многих дичь намешана, а куда добавили лору кимико70 довольно вяло отвечают.
Что по температурам, потреблению и т.п.? Попробуй и gptq через экслламу и gguf через жору, какое будет лучше выдавать интересно. Что по pci-e линиям, какой жор и температуры получаются?

Аноним 06/01/24 Суб 23:35:55 № 593486 142

>>593470
Вот написал и тут же сглазил, у бабушки внезапно "вырос хер", по-моему этой херней вообще все модели 7Б страдают. В целом в РП пока ничё не нашёл лучше mlewd_Q5. 7b либо генерят просто вал текста, но по сути стоят на месте и не двигают сюжет либо проёбывают логику, другие же жрут кучу ресурсов и норм там не порпшить

Аноним 06/01/24 Суб 23:45:33 № 593507 143

>>593445
>70б какой модели?
Ваще похую. Главное скорость модели и подводные с запуском.

Аноним 06/01/24 Суб 23:46:45 № 593510 144

>>593486
Даже бОльшие модели этим иногда страдают

Аноним 07/01/24 Вск 00:04:18 № 593543 145

>>593445
Проверь сколько контекста у модели 34b 200k войдет до падения скорости, ну и сами скорости ее.
Квант возьми любой, хоть 6к, можешь даже 8q ебнуть, но там гигов 14 останется под контекст и другую хуйню, эт мало

Вобще просто тесты скорости сеток разных размеров сделай и их максимально влезающий контекст. Что бы можно было ориентироваться. На 1 и на 2 картах.

Аноним 07/01/24 Вск 00:17:31 № 593570 146

>>593543
> 14 останется под контекст
> эт мало
Ахуеть, жора, конечно, не оптимизированный, но не настолько же.
> скорости сеток разных размеров сделай и их максимально влезающий контекст
Если будешь делать то замерь заодно сколько оно при дефолтных 4к потребляет, можно будет сделать таблицу.

Аноним 07/01/24 Вск 02:26:10 № 593693 147

Попробовал тут поюзать Wizard Uncensored расхайпленый. Ролевки ведет максимально хуево. Зато может написать рецепт создания запрещенки.

Аноним 07/01/24 Вск 02:28:19 № 593695 148

>>593693
>рецепт создания запрещенки.
Что это значит? Речь про какую запрещенку-то лол? Про запрещенный сыр из евросоюза в россии?

Аноним 07/01/24 Вск 02:28:22 № 593696 149

>>593693
> расхайпленый
Да хуйта, хз даже кто ее хайпил. Прорывная - версия 1.2, но оно только в 13б, с цензурой (обходится промтом) и ей уже пол года.

Аноним 07/01/24 Вск 02:29:06 № 593697 150

>>593695
> Что это значит?

Может написать подробные рецепты по созданию наркоты, бомб, оружия и тд

Аноним 07/01/24 Вск 02:35:28 № 593701 151

>>593697
не, ну вроде звучит интересно....
Может расскажет мне как альтушку на госуслугах получить.
А он только 13b?

Аноним 07/01/24 Вск 02:45:19 № 593708 152

>>593701
https://huggingface.co/models?search=Wizard-Vicuna-7B-Uncensored

Есть еще 7б

Аноним 07/01/24 Вск 04:34:05 № 593758 153

Анон, а дай полный спек своей машины, плизик?

Аноним 07/01/24 Вск 04:50:41 № 593761 154

Screenshot 2024[...].png 414Кб, 1338x1803

>>593507
llama-2-70b.Q4_K_M.gguf
скорость 2.92-3.72 токена

Я посмотрел как отвечает openchat_3.5-f16, yi-34b-v3.Q6_K и llama-2-70b.Q4_K_M отвечает на загадки и чёт они все справились херово.
Только вот опенчат f16 требует 10 гб, а ллама 70б - в три раза больше.

>>593471
>Что по температурам, потреблению и т.п.?
на пике - типичная картина утилизации под нагрузкой. Но я сейчас лечу на слабом блоке питания всего с тремя линиями +12 раскиданными на 4 восьмипиновика двух видеокарт. Есть вероятность, что я часть сети питания видокарт не задействовал, поэтмоу утилизация только наполовину.
Завтра буду бп искать.
И да, греется неплохо. Нужен хороший поток воздуха, надо думать, как сделать его без шума.
>Что по pci-e линиям
а вот этот вопрос я не совсем понял.

Аноним 07/01/24 Вск 04:53:56 № 593762 155

>>592819
>1070 медленная, наверное, две p40 дали бы 7+++
нет, не дали бы.
Я не помню точно, но у меня на двух p40 кажется yi-34b-v3.Q6_K держалась на 6.7 т/с, один раз видел 6.9

Аноним 07/01/24 Вск 10:31:37 № 593884 156

Анончики, разные модели это конечно хорошо, но какие настройки температуры и прочих непонятных штук считаются самыми лучшими?

Аноним 07/01/24 Вск 10:33:46 № 593885 157

Эксламы только с нвидей гоняются, или на 6700хт тоже пойдут?

Аноним 07/01/24 Вск 10:48:39 № 593888 158

>>593884
Тут уж сам выбирай.

Аноним 07/01/24 Вск 11:00:17 № 593896 159

>>593762
там надо специально для этих карт llama.cpp собирать с какими то особыми настройками которые ускоряют генерацию, на реддите видел в уакой то теме с этими картами

Аноним 07/01/24 Вск 11:21:14 № 593902 160

>>593888
И всё таки? Интересно чем пользуются аноны

Аноним 07/01/24 Вск 11:27:51 № 593904 161

>>593902

Да выбери любой пресет в таверне и посмотри.
Чего как маленький то?

Аноним 07/01/24 Вск 11:43:16 № 593906 162

https://huggingface.co/Sao10K/Sensualize-Solar-10.7B
Новая версия фроствинд, на сколько я понял.

Аноним 07/01/24 Вск 11:57:25 № 593908 163

>>593906
Нет это файнтюн Солара, как и фроствинд.

Аноним 07/01/24 Вск 12:05:02 № 593910 164

>>593908
Ты дурак?

Аноним 07/01/24 Вск 12:07:53 № 593912 165

>>593910
>A finetune of Base Solar.

Мозги прокумил уже ебанат?

Аноним 07/01/24 Вск 12:10:35 № 593914 166

>>593912
А теперь глянь кто автор фроствинд, дурачек.
И так у нас есть один человек который играется с солар 10.7, имеющий какой то набор датасетов. И вот он делает фроствинд на одной версии датасета, а потом переделав свой датасет делает новую версию сетки.
Тоесть это легко можно назвать новой версией фроствинд.
Какие то аноны тупые после праздников

Аноним 07/01/24 Вск 12:12:10 № 593916 167

>>593914

Значит все шизомиксы от унди это на самом деле разные версии одной модели.
Нихуя ты умный чел.

Аноним 07/01/24 Вск 12:15:22 № 593917 168

>>593916
Тебя слишком сильно квантовали чтоли, долбаеб?
Какая связь между унди который тупо мешает сетки, и челом который тренирует одну версию базового солара на 2 версиях одного датасета?

Аноним 07/01/24 Вск 12:16:32 № 593918 169

>>593917
Откуда ты вообще высрал "2 версии одного датасета"?

Аноним 07/01/24 Вск 12:19:09 № 593920 170

>>593918
Вот тупой, глянь чем он там занимается. Это автор кучи своих сеток. Че удивительного что он попробовал сделать сетку, а потом изменил датасет и сделал это снова? Ты думаешь датасеты так легко собирать и изменять?

Аноним 07/01/24 Вск 12:21:39 № 593922 171

>>593920

>я это придумал а теперь маняврирую потому что понял что обосрался

Так бы сразу и сказал

Аноним 07/01/24 Вск 12:24:09 № 593925 172

>>593922
ебать ты тупой анон, иди нахуй
И после этого говорят что аги еще не достигнут

Аноним 07/01/24 Вск 12:24:21 № 593926 173

>>593292
>ЛЛАМА-2 в центре.
Компас говна, реальное положение моделей он не отражает.

Аноним 07/01/24 Вск 12:26:20 № 593927 174

>>593925

Стоп тряска.
Ну обосрался, ну с кем не бывает

Аноним 07/01/24 Вск 12:31:11 № 593928 175

>>593761
>а вот этот вопрос я не совсем понял.
Что за материнка и какая схема подключения двух крат в неё: классика 8+8, или там 16+4.

Аноним 07/01/24 Вск 12:37:15 № 593931 176

>>593927
Он обосрался, а я стоп? Говноеды

Аноним 07/01/24 Вск 12:46:52 № 593933 177

>>593926
Это он говорит что он нейтрально-добрый, по сути он законопослушный-злой.

Аноним 07/01/24 Вск 13:09:06 № 593939 178

https://github.com/ggerganov/llama.cpp/pull/4773#issuecomment-1879763255
> true 2bit quants
> 70B в ~17gb
ебать

Аноним 07/01/24 Вск 13:27:09 № 593945 179

>>593758
Ты у всех или кого-то конкретно спрашиваешь?
>>593761
По линиям пояснили,
> скорость 2.92-3.72 токена
Это на жоре или экслламе? И на каком контексте.
Половинная нагрузка при совместном использовании норма, ведь карточка половину времени ждет пока другая обсчитает свою часть.
С каверзными вопросами файнотюн на cot может помочь разве что. Если не лень попробуй просто початиться с ними с разговором на разные темы, правно перетекающие друг в друга, и заодно задавая вопросы и давая указания/задачи, типа "представь что ..." и дальше все идет с учетом этого. В подобном уровень модели сразу раскрывается, оно или будет (пытаться) удержать все это и стараться, или даже идеально говорить, или же будет срать ответами без четкой связи с прошлым или отсылок, а то и вообще поломается. Из мелких в такое более менее могут солар и визард разве что.
>>593885
На амудэ начиная с 6800 говорят нормально катается. Ну а 700-й как всегда повезло не стоило шквариться об амуду в текущих условиях
>>593896
Есть линк? Вроде писали что лламацпп по дефолту на этих картах шустро работает и в ней сильно быстрее чем с другими лоадерами. Но хз, может пиздят, нет такого чтобы проверить.
>>593926
О каком нейтрально-добром ты пытаешься судить, если в какой-то херне что ты пустил может быть какой угодно промт, а то и вообще ваниальная чат версия.

Аноним 07/01/24 Вск 13:33:22 № 593947 180

Лламаны, а накидайте плиз для нуба, только что установившего Кобольд и Фроствинд по инструкции, ссылок на топ не в ТОМ смысле персонажей для ролеплея с чаба или где их еще берут. Чтоб знать вообще, что такое хорошо.

Аноним 07/01/24 Вск 13:33:45 № 593948 181

Аноним 07/01/24 Вск 13:34:17 № 593949 182

>>593939
QuIP# давно есть, в Эксламе его запилили уже. У Жоры как обычно всё через месяц только появляется.

Аноним 07/01/24 Вск 13:36:08 № 593951 183

>>593949
мех, раньше быстрее было :/
хотя и не удивительно, он ведь сча занят моделями на айфонах, сразу видно яблодрочера.

Аноним 07/01/24 Вск 13:43:01 № 593956 184

>>593945
>По линиям пояснили,
я погуглил, но что-то не понял, как посмотреть то что вы хотите.
Мать prime-b450-plus
проц в ней Ryzen 5 3600
>Это на жоре
На жоре. Контекст 1к с копейками, тестирование падения скорости при увеличении контекста еще запланированно.
>Половинная нагрузка при совместном использовании норма
Разве сетка не линейна? В таком случае отработала половина слоев на видеокарте - передала результаты во вторую - отработала половина слоев на второй видеокарте. Они не должны с собой взаимодействовать по логике постоянно.
Разве что llama.cpp слои не по подряд на карты складывает, а раунробином.

Аноним 07/01/24 Вск 13:50:14 № 593959 185

>>593948
Заходишь на chub.ai и по тегам ищешь что тебя нужно.

Аноним 07/01/24 Вск 13:54:03 № 593961 186

>>593956
>но что-то не понял, как посмотреть то что вы хотите
В любом обзоре/в бивасе настройки. Короче у тебя вот так
1 x PCI Express 3.0 x16
1 x PCI Express 2.0 x16 (x4)
3 x PCI Express 2.0 x1
То есть вторая зарезана прямо неплохо так.

Аноним 07/01/24 Вск 13:57:38 № 593965 187

>>593947
Это как "посоветуйте автомобиль", хз что тебе вообще нужно и для чего. Если в общем по карточкам, ищи лаконично написанные, без большого обилия форматирования и лишней графомании с althou, despite, however, except по 3 штуки каждой в одном предложении. Эта нейрошиза сильно портит дальнейший стиль и сжирает токены. https://chub.ai/characters/minimum/Kumi держи древнюю не кумерскую платину, из локалок что сейчас в тренде ее мало умеют отыграть, десяток постов и уже улыбающаяся да жизнерадостная лезет совращать.
>>593956
Там х8 + х8 3.0 или х16 3.0 + х4 2.0?
Попробуй прогнать жору с выгрузкой на одну видюху (cuda visible devices) на разные и сравнить скорость.
> В таком случае отработала половина слоев на видеокарте - передала результаты во вторую - отработала половина слоев на второй видеокарте. Они не должны с собой взаимодействовать по логике постоянно.
Ну в случае нормальной организации все так, но всеравно каждая карточка будет ждать окончания работы другой чтобы получить в итоге новый токен в контекст и начать обрабатывать свою часть, они взаимосвязаны. На новых карточках жора плохо параллелится, складывается ощущение будто там не единичный обмен активаций происходит а слои в шахматном порядке раскиданы. Хз в общем, может дело в чем-то еще.
4 т/с со стримингом - успевает генерить чтобы можно было читать ответ сразу? Если так то уже кайфово.

Аноним 07/01/24 Вск 14:07:39 № 593973 188

>>593965
>успевает генерить чтобы можно было читать ответ сразу?
пока ответить не могу, контекст был маленький.
На таком контексте-то они все могут быстро отвечать.

Аноним 07/01/24 Вск 14:24:12 № 593992 189

Сорри, пишу с тапка, поэтому краткость не сестра.

>>593959
Там такая же проблема, как и везде. Полно васянов, которые лепят что-то на коленке после уроков, и других васянов, которые это жрут, нахваливают и добавки просят. А я тут хочу у более развитой публики спросить. Судя по тредам, тут и реально эстеты-ценители не редкость.

>>593965
Спасиб, вот такие ответы люблю. Нужно просто понять для начала, чего максимум можно ожидать от ролеплея с рекомендованной моделью на сегодня. И с моей RTX3060 о 12 гигах. Эро будет этот ролеплей или нет, дело не первой важности. Главное оценить верхнюю планку. Ну, в конфиге, где не надо ждать по две минуты ответа, конечно.

Забыл написать, что SillyTavern тоже установлена уже. Глаза разбегаются.

Аноним 07/01/24 Вск 14:27:10 № 594000 190

>>593992
https://chub.ai/users/PotatoPun

Этого попробуй

Аноним 07/01/24 Вск 14:34:51 № 594008 191

>>593992
> Главное оценить верхнюю планку.
Это все зависит еще и от тебя, то что персонаж нравится может быть важнее чем особенности форматирования и т.д. Плюс перфоманс комбинации карточки и модели может сильно отличаться, особенно если модель знает фендом вселенной, откуда персонаж, в таком случае может ультить, и наоборот.
Сейчас приличный уровень от которого (если раньше не рпшил с сетками) кайфанешь могут обеспечить даже мелкие сетки, не заморачивайся и познавай. Страдать снобизмом или аутотренингом будешь уже потом когда все надоест.
Если не уверен в карточке - спроси, в любом случае обосрут но хотябы аргументированно.

Аноним 07/01/24 Вск 14:54:01 № 594018 192

>>591790 →
95% юзеров даже не смотрят, че там в памяти смартфона лежит. =)
А про бесполезные функции — так их и так напихано. Всякие новости, AI и прочие агреггаторы, плееры, магазины, смс… О которых мы не в курсе, но стоит лишний раз смахнуть вправо или влево…

>>592000 →
64 гига, да.

>>592819
> стаканье видеокарт не создаёт накладных расходов

ДА НУ НАХУЙ
Я БЛЯДЬ ДВАДЦАТЬ ТРЕДОВ ЭТО ГОВОРЮ, НО ШИЗЫ ТОПИЛИ, ЧТ ОНИХУЯ СЕБЕ ТАМ ВСЕ УМИРАЕТ
И НАЧИСТО ИГНОРИЛИ ТЕ ЖЕ ТЕСТЫ ДВУХ-ТРЕХ P40 И ВООБЩЕ ВСЕ ТЕСТЫ НАХУЙ

Ну, добро пожаловать в реальность, может быть будешь чаще меня слушать, и меньше шизам верить.

Вообще, кмк, идею с тем, что стакание карт убивает перформанс продвигали 1-2 шиза, все остальные молчали и смотрели на наши срачи.

>q6
База, q4 — нет.
Но вообще, разница не супер-пупер должна быть, конечно.

>>592897
Дам линк на мой старый ответ по соседней теме >>570961 →
Мне лень писать снова, но подумай над комплексов ботов и нейронок вместе, да.
Cog советовали неплохо, но можно и без него, кстати. Если именно стример-игрок.

>>592962
Локалки норм, та же Yi-34B-200k.
Плюс, ему не надо держать контекст всего чата и игры. Чисто игровая ситуация + каменты, там 4-6 тыщ контекста, думаю, должно хватить.

>>592963
Да-да.

>>592964
Микстрали похуй на все, тесты смешные, но не особо релевантные, канеш. От промпта зависит, кмк.

>>592971
Мои поздравления!

>>592973
Я думаю, он имел в виду — за качественной реализацией, а не васянскими файнтьюнами.

>>593061
>Уже вижу
Da. )))

>>593139
> Далее, можно начать выстраивать взаимодействие, настрой вишпер и tts чтобы говрить с ней, настрой выдачу эмоций для какого-нибудь л2д движка чтобы ее визуализировать, плюс сделать липсинк с речью.
Визуализировать можно специальным софтом, какой-нибудь FaceRig в помощь, там и липсинк, и че хошь.
Вишпер разве что для озвучки сюжетных катсцен?
tts рекомендую нынче xTTSv2, кстати.
Не обязательно несколько llm, на самом деле. Возможно хватит и одной, а остальное повесить на простые алгоритмы.

>>593309
Ору, база, не останавливайте.

>>593445
Регулировку обычным реостатом.

Помни, что GPTQ/Exl2/AWQ не то, а вот выгрузка GGUF — отлично.

Но можешь и их потестить, чтобы лишний раз убедиться.

>>593761
> 2.92-3.72
Пуф-пуф… Ну, для фанатов 70б кума сойдет, а так… медленновато, наверное, ИМХО.

>>593961
Жить можно. Медленно, но не критично, ИМХО. Если не пихать две 4090 и ждать 100 т/сек. И то, не сильно просядет.

Аноним 07/01/24 Вск 14:55:55 № 594020 193

NEVER FORGET.png 222Кб, 1069x375

>>594018
>Микстрали похуй на все
не совсем.

Аноним 07/01/24 Вск 15:04:34 № 594028 194

>>593992
>ожидать от ролеплея
Суть такова, что ролеплей это очень сложная задача с высоким уровнем абстракции. РП начинается с нейронок размером 34B, а качественный отыгрыш уже 70B.
>И с моей RTX3060 о 12 гигах.
Запустить на жоре 34b выгрузив сколько сможешь слоёв в видеокарту.
Использовать 3060 совместно с другой видеокартой.

Аноним 07/01/24 Вск 15:08:02 № 594029 195

>>594018
> Я БЛЯДЬ ДВАДЦАТЬ ТРЕДОВ ЭТО ГОВОРЮ, НО ШИЗЫ ТОПИЛИ, ЧТ ОНИХУЯ СЕБЕ ТАМ ВСЕ УМИРАЕТ
Эти шизы сейчас с тобой в одной комнате?
> чаще меня слушать, и меньше шизам верить
Взаимоисключающие
> Вишпер разве что для озвучки сюжетных катсцен?
Что? Боту воспринимать такой уровень игоря слишком сложно и не нужно. Это чтобы чар воспринимал речи автора и можно было с ним взаимодействовать, как делает Видал.
> Возможно хватит и одной
Количество запросов слишком высоко, обработать чат, обработать историю, обработать ген-план стрима, выстраивая уместные указания боту, сам персонаж, обработка что там с игрой творится, цензуру нигеров-пидаров и т.д. Это может быть одна хорошая модель с разными запросами к ней, но их будет много.
Стоит изучить опыт автора успешного проекта, если офк получится собрать камни.
>>594020
11/11, топчик.
>>594028
20б вполне норм, магии нет но приятно. Лучше более глупая модель, которая отвечает пока ты еще погружен, чем дохуя умная через с ответами в несколько минут. Если офк не отыгрывать переписку, лол.

Аноним 07/01/24 Вск 15:09:51 № 594032 196

Раз зашла речь о рп на 34б - реквестирую модели, которые в него хорошо могут.

Аноним 07/01/24 Вск 15:16:27 № 594034 197

>>594032
>tess-34b-v1.4
>rpbird-yi-34b
>synthia-34b-v1.2 (автор выпилил со своей странички, но у блока она ещё осталась)
>Yi 34B v3
Их уровень примерно одинаковый, но каждая со своими неповторимыми свистелками и перделками.

Аноним 07/01/24 Вск 15:22:21 № 594041 198

>>594034
Спасибо
> synthia-34b-v1.2
Страдает зацикленностью на faster@harder и идентифицирует себя как клод от антропиков, или без этих проблем, не пробовал?

Аноним 07/01/24 Вск 15:24:51 № 594047 199

>>594020
Всегда кекаю когда соевой модели скажешь что она типа slut а в ответ такую хуйню получаешь

Аноним 07/01/24 Вск 15:26:37 № 594051 200

>>594034
А если всё таки выбирать одну из них? Например, какой ты сам пользуешься? С какими настройками?

Аноним 07/01/24 Вск 15:33:38 № 594054 201

>>594041
>> synthia-34b-v1.2
Тоже заметил, она немного нестабильная, но у неё самая богатая лексика.

>>594034
Попробуй Yi 34B v3. Настройки ставь самые дефолтные, нормально будет работать, а затем их нужно подгонять под карточку персонажа индивидуально.

Аноним 07/01/24 Вск 15:37:09 № 594055 202

Как сделать, чтобы в таверне после автоперевода через экстеншен не проебывалась разметка? Гугл переводчик меняет кавычки на другие и разметка тупо ломается. Может можно как-то кастомизировать разметку?

Аноним 07/01/24 Вск 16:14:29 № 594073 203

А что если сделать домашний нейроускоритель на базе 4x4060Ti ? Общее количество CUDA и тензорных ядер как у 4090, а памяти целых 64Гб. 120B_Q3_K_L влезает и летать будет. Затык вижу только в материнской плате, а так вроде нет недостатков.

Аноним 07/01/24 Вск 16:36:28 № 594091 204

тут есть миллионеры с двумя 4090?
а то мои тесты на двух p40 ничего толком не показывают без сравнения с другими видеокартами

Аноним 07/01/24 Вск 17:43:41 № 594147 205

>>594073
> 120B_Q3_K_L влезает
Будет
> летать
Нет
Обработка идет по очереди, 3/4х видюх будут простаивать 75% времени. Скорость будет примерно как у 34б Q3, только в 4 раза медленее, плюс некоторое замедление из-за обмена результатами.
>>594091
Что именно интересует? На 70б в бывшей 15-20т/с в зависимости от кванта, с флеш атеншн контекст практически не влияет.
> ничего толком не показывают
Неправда, они ценны уже сами по себе, возможность бюджетно крутить 34-70б модели дорогого стоит. Тут бы максимум выжать у них, и еще интересно как работают другие сетки. Попробуй cogvlm в 4х и 8-битном кванте, диффузию если не лень, что-нибудь еще из популярного, например основанное на клип-блип. Офк когда самому будет не лень и время свободное.
Ну и если производительность получится, порпшь на 70б, там несколько новых файнтюнов довольно интересных выходило за последний месяц.

Аноним 07/01/24 Вск 18:36:33 № 594186 206

>>593939
Запустил mixtral-8x7b-2.10bpw.gguf на 3060 12GB VRAM, скорость генерации выросла до 11.62 t/s в llamacpp (была 3.00 t/s для Q5_K_M в свежем кобольде, что с оффлодом 9L, что без него).

2bit модельки (есть mixtral, mistral, llama2-70b)
https://huggingface.co/ikawrakow/various-2bit-sota-gguf/tree/main

нужен этот PR лламы (еще не в релизе).
https://github.com/ggerganov/llama.cpp/pull/4773

Все слои в 12 Gb не влезают, влезло 27/33 layers.

Как нормально посчитать perplexity? Я не готов ждать 6 часов (649 chunks, 31.73 seconds per pass - ETA 5 hours 43.25 minutes)
На 50 проходах получилась perplexity: для 2.10bpw - 5.8736; для Q5_K_M - 4.9244

Если кому интересно, могу написать гайд, как установить и скомпилировать этот PR.

Аноним 07/01/24 Вск 18:42:05 № 594191 207

Я конечно все понимаю, но 2битный кванты это ж пиздец шиза будет, или там какое-то волшебное квантование?

Аноним 07/01/24 Вск 18:45:56 № 594194 208

>>594147
> 3/4х видюх будут простаивать 75% времени
Бля надмозг ебаный. Все будут простаивать, потому что результат обработки одной является исходными данными для следующей.
>>594186
Интересно
>>594191
Тоже интересно что там, персплексити небольшой получается.

Аноним 07/01/24 Вск 19:22:55 № 594244 209

>>594191
QuIP# на уровне Q4_K_S по PPL.

Аноним 07/01/24 Вск 19:39:18 № 594288 210

Кто юзал групповой чат в sillytavern? У меня проблема- могу дописывать сообщения всех участников, кроме ГГ. Когда пытаюсь дописать своему персу, то пишет "Deleted group member swiped. To get a reply, add them back to the group." мне тупо надо гг продублировать карточкой персонажа и в чат добавить или мб настройка какая есть от этой шляпы?

Аноним 07/01/24 Вск 19:40:15 № 594293 211

>>594288
Ну "дописать" всмысле догенерить

Аноним 07/01/24 Вск 19:59:33 № 594336 212

>>594029
> Эти шизы сейчас с тобой в одной комнате?
Нет, к счастью. =)

> Взаимоисключающие
Никаких противоречий, я ж не шиз, в отличие от тех, у кого от нескольких видях перформанс сразу падает в разы. =D

> Это чтобы чар воспринимал речи автора
Какого автора?
Оке, может я не так понял. Я подумал, что автор хотел, чтобы его бот сам играл, стримил и комментировал. А автор вообще тут не участвует никак, зачем?
Но, может идея в другом, тогда мои извинения.

> Количество запросов слишком высоко, обработать чат, обработать историю, обработать ген-план стрима, выстраивая уместные указания боту, сам персонаж, обработка что там с игрой творится, цензуру нигеров-пидаров и т.д. Это может быть одна хорошая модель с разными запросами к ней, но их будет много.
Стоит изучить опыт автора успешного проекта, если офк получится собрать камни.

План стрима? Ну тут сразу сомневаюсь, что такое нужно.
Цензура? Кмк, с цензуров справится по дефолту любая соевая модель.
Историю? Повторюсь, история не нужна.
Чат.
И что творится в игре.
Указания боту — по ситуации.

Но, я соглашусь, что тут нужен опыт, если кто-то уже реализовывал.
Я пока пальцем в небо тыкаю, может я не прав, и нужно прям много всего.
Просто часть я бы повесил на простые скрипты.

Но буду честен, сам я стримеров не смотрю, и витуберов тем более. Что там популярно, какое поведение, не знаю.

>>594073
Какое еще «общее количество ядер», чувак? =D
Моделька обрабатывается последовательно.
Так что количество ядер такое, какое есть.
Памяти 64 гига, да.
Летать будет вчетверо медленнее, чем в твоих фантазиях + еще небольшие задержки на передачу данных. Ну и на 4 картах и правда быдлокод может вылезти, которые еще перформанс порежет.

>>594186
Я в начале подумал 10 bpw, охуел, а потом понял, что 2.1.
Типа… Она же критически тупая, не?
Ты же помнишь, что это 7B модельки?

Как оно интеллектом?

Аноним 07/01/24 Вск 20:03:42 № 594344 213

>>593471
>Попробуй и gptq через экслламу и gguf через жору
я до этого пользовался только gguf. Я сейчас собрался сравнить две модели в разных форматах и не понял, как это сделать.
В случае с gguf все понятно - просто один файл скачиваем с лицехвата.
А по gptq ищутся например вот такие структуры https://huggingface.co/TheBloke/Wizard-Vicuna-30B-Uncensored-GPTQ/tree/main
Правильно ли я понимаю, что достаточно просто указать целую директорию при выборе модели для exllama?

И второй момент который мешает сравнению - gguf почему-то не выкладывают в f16 на лицехвате.
Например вот вроде бы две одинаковых модели
gguf: https://huggingface.co/TheBloke/Wizard-Vicuna-30B-Uncensored-GGUF/tree/main
gptq: https://huggingface.co/TheBloke/Wizard-Vicuna-30B-Uncensored-GPTQ/tree/main
но в gguf отсутствует f16 и единственный способ который я знаю чтобы её получить - конвертить самому из оригинального репозитория https://huggingface.co/cognitivecomputations/Wizard-Vicuna-30B-Uncensored а там объем 100+ Гб. У меня сейчас банально нет столько места.

Если кто-то может мне указать на две репы с разными форматами с одной моделью, чтобы там была f16 в gguf - это помогло бы.

Аноним 07/01/24 Вск 20:10:03 № 594350 214

>>594186
>>594336
>Как оно интеллектом?
Если кратко, то не очень. Или я не разобрался с настройками instruct mode template. Все ответы очень краткие, простые, сухие, интеллектом не блещет. Ни в какое сравнение с q5 не идет. Сейчас качаю llama-v2-70b-2.12bpw, вдруг чудо произойдет.

Аноним 07/01/24 Вск 20:11:53 № 594353 215

>>594344

fp16 тебе нафиг не нужон, кмк.
GPTQ выкладывается папкой, да.
И как правило, это 4бит, если не выбрано иное, то есть квантование в 4 бита.
EXL2 выкладывается так же, но там квантования уже bpw могут быть любыми.

Логично, что сравнивать надо одинаковые кванты. Q4_K_M вроде как с GPTQ 4bit, плюс-минус, пусть меня поправят. Ну и 5bpw, скока там на самом деле бит на вес при квантовании.

Аноним 07/01/24 Вск 20:13:17 № 594356 216

>>594350
Не произойдет. =)
Ну, попробуй, конечно, расскажешь.

Аноним 07/01/24 Вск 20:14:51 № 594357 217

>>594353
я ситал ранее в тредах что паскаль хуже пережевывает кванты из-за того что старый.
Поэтому решил что нужно тестить и квантованную и неквантованную версии.

Аноним 07/01/24 Вск 20:18:18 № 594360 218

>>594357
Может ты и прав, но, ИМХО, тут упор уже в память может быть, на таких больших объемах, как с fp16.
А выигрыша какого-то по соотношению качество на скорость ты вряд ли получишь.

Но, может ты и прав.

Где взять fp16 не подскажу, сорян.

Аноним 07/01/24 Вск 20:35:52 № 594373 219

>>594336
Ну Ок, 4x4060Ti глупость. А две карты? Даже конфигурацию компьютера менять не придётся, просто две карты воткнуть - есть PCI-слоты и БП нормальный. 32Гб VRAM, модель 70В с малым квантом целиком влезет. Хотелось бы узнать скорость такой связки конечно.

Аноним 07/01/24 Вск 20:37:07 № 594379 220

>>594353
> Q4_K_M вроде как с GPTQ 4bit, плюс-минус, пусть меня поправят.
С групсайзом 32 GPTQ получше будет.
> 5bpw, скока там на самом деле бит на вес при квантовании
Вот оно точно лучше будет чистых Q5. Там 3.5-3.7 bpw как раз близок к Q4_K_M.

Аноним 07/01/24 Вск 20:40:04 № 594382 221

>>594373
Сама по себе 4060ti ПАРАША, у неё пропускная способность памяти медленнее семилетней (!!!) P40.

Аноним 07/01/24 Вск 21:02:55 № 594402 222

Как можно как-то заставить модели точнее следовать карточке?

Аноним 07/01/24 Вск 21:04:13 № 594403 223

>>594402
Семплеры настрой.
Инструкт настрой.
Карточка может сама по себе плохой быть.

Аноним 07/01/24 Вск 21:05:24 № 594405 224

>>594350
>>594356
llama-v2-70b-2.12bpw уже лучше чем mixtral-2.10bpw, но модель слишком большая для 12 GB vram. Влезает только 47/81 слоев, из-за этого прироста скорости почти нет (было 1.00 tps стало 1.26), а perplexity скорее всего упала значительно по сравнению с жирными квантами.

offload 47/81 L:
print_timings: prompt eval time = 13918.75 ms / 508 tokens ( 27.40 ms per token, 36.50 tokens per second)
print_timings: eval time = 36452.46 ms / 46 runs ( 792.44 ms per token, 1.26 tokens per second)

Аноним 07/01/24 Вск 21:09:02 № 594408 225

>>594403
Где можно прочитать про настройки семплеров и инструкта? Карточку я как раз и пытаюсь довести до ума, но не могу понять это она всё таки кривая и её не спасти, или всё таки семплер и инструкт плохие?

Аноним 07/01/24 Вск 21:13:57 № 594411 226

>>594336
> у кого от нескольких видях перформанс сразу падает в разы
На жоре в современных видюхах так и происходит, причина не ясна. А последовательная обоработка сильно теряет в эффективности при росте числа гпу.
По виртуальному стримеру начни продумывать как это будет и поймешь что нужно много больше.
Всеже интересно как у типа получилось на 3х п40 катать 120б с 4+ т/с, надо у него поспрашивать и почитать по тому что было выполнено.
>>594344
> собрался сравнить две модели в разных форматах и не понял, как это сделать.
Ну, гриди энкодинг будет одинаковый в пределах погрешности кванта, рандом семплирования существенный сам по себе. Только большое число одинаковых или разнообразных но по одной теме вопросов, которые можно как-то качественно-количественно оценить, получая в итоге что-то среднее.
> по gptq ищутся например вот такие структуры
Там качай через гит/хфхаб чтобы всю папку, и ее помещаешь в дирректорию models убабуги (или натравливаешь саму экслламу если вруд не используешь вебуи). Нужны все файлы что там есть, а не только .bin/.safetensors.
Если будешь пускать фп16 экслламой - нужно сконвертить .bin в .safetensors сделать можно скриптом https://github.com/turboderp/exllamav2/blob/master/util/convert_safetensors.py с аргументом *.bin запуская в папке с моделью.
> gguf почему-то не выкладывают в f16 на лицехвате
Местозаполнитель который, обычно, никому не нужен и легко получаем. В него конвертится оче быстро скриптом из репы жоры, тут сам знаешь, и весить он будет тоже под 100 гигов. Если хочешь с потерями на грани измеримости - качай q8, оно и в 48 гигов врам должно помещаться.
Алсо визард-викунья эти не стоит, аж 1я ллама и 7 месяцев назад. Из ~30б китайцы, выше список анон скидывал, и айроборос 33б на 1й лламе относительно свежий файнтюн со всеми фичами и новым датасетом. Что там по перфомансу правда хз.
>>594373
> А две карты?
Норм, но 32гб пограничный размер и хватит на ~34б в жирном кванте с контекстом, но не на 70. Если не ошибаюсь, у кого-то был конфиг 24+12гб, трехбитная 70б по словам не понравилась. Скорость можешь сам посчитать исходя из того как быстро крутятся модели поменьше, там почти линейная зависимость от размера.

Аноним 07/01/24 Вск 21:31:37 № 594418 227

Почему все ссуться от всяких микросетей типа phi-2, tinyllama, этож просто днище. Ну да они могут ответить на короткий вопрос без контекста и форматирования и даже правильно. Но размер сети жестко вводит ограничение на понимание контекста. Да даже 7b они откровенно слабы никуда они там не продвинулись только опять же по простым вопросом из википедии. Но их хоть можно на любом компе запустить со сносными ответами.

Аноним 07/01/24 Вск 21:48:48 № 594424 228

Все эти локальные языковые модели тупые по сравнению с GPT-4. Только GPT-4 смог правильно ответить на логическую задачку. "В большой комнате играют Вася, Маша, Коля, Толя и собачка Бобик, в маленькой комнате играют Митя и Гриша. Гриша ушел, а Маша и Бобик перешли в маленькую комнату. Сколько детей играет в каждой из комнат?"

Аноним 07/01/24 Вск 21:55:24 № 594430 229

>>594353
ну да, вроде exllama v2 рабоатет на p40 хуже, чем жора

Аноним 07/01/24 Вск 21:55:40 № 594431 230

>>594373
А скорость никто не скажет — никто пока не купил. =)
Я предпочел квест 3, хотя и думал взять на пробу.

>>594405
Такое себе, хотя для 24 гигов уже может быть интересно.
Однако… Боюсь она мозгами будет не совсем 70б. =)
Но кто знает.

>>594411
> На жоре в современных видюхах так и происходит, причина не ясна.
А в чем преимущество жоры перед exl2, например, кстати? Ну, если у нас несколько видях — можно предположить, что объем врама уже не такая и проблема. Выгружать можем все, а не часть.
Или речь именно о ситуации, когда выгружаем часть слоев туда, часть сюда, и часть на проц?
Могу предположить, что тут и правда быдлокод, где проц участвует сильно много раз, где не надо, хз.

> По виртуальному стримеру начни продумывать как это будет и поймешь что нужно много больше.
Ну, это не моя идея, я разве что комментатора себе бы собрал.
Но тут нужен или Cog, чтобы моделька смотрела мою игру (а ког хочет 45 врама), или вообще анализ видосов.

> Всеже интересно как у типа получилось на 3х п40 катать 120б с 4+ т/с, надо у него поспрашивать и почитать по тому что было выполнено.
Все еще думаю, что балабол, а может и вовсе продавец карт. =)
Ну как-то слишком вкусно. Учитывая что там минимум 50+ гигов, и как-то выжать 4 токена… Когда тут в двух картах 34 выдает 3 токена.

> трехбитная 70б по словам не понравилась
У нас тут двухбитная на подходе. =D

> Почему все ссуться от всяких микросетей типа phi-2, tinyllama, этож просто днище.
Интернет вещей, смартфоны-помощники, всякие простейшие комментаторы без требований железа.

В идеале каждому по серверу хотя бы с тремя 4090/3090/P40 (это и по деньгам дешево, и по реализуемости с точки зрения материнки возможно), на которых крутить отдельные модели.
А в жизни у людей ноуты с 8 гигами рама и встроенной видяхой. =)

Аноним 07/01/24 Вск 21:56:09 № 594433 231

Screenshot20240[...].png 19Кб, 1481x99

>>594430
>>594353

Аноним 07/01/24 Вск 21:56:40 № 594434 232

>>594430
Да, как я понял, там тока жора норм работает. Что не плохо, но и не огонь. So-so.

Аноним 07/01/24 Вск 21:58:11 № 594435 233

>>594433
А разбил 50/50 по картам?

GPTQ выглядит как будто вообще не почувствовал разницы.
А Жора просел, да.

Аноним 07/01/24 Вск 21:58:54 № 594436 234

>>594435
да, там где 2 cards - разбиение напополам

Аноним 07/01/24 Вск 22:09:49 № 594442 235

>>594431
> А в чем преимущество жоры перед exl2, например, кстати?
Вон на p40 работает лучше бывшей, а так при наличии видюх преимуществ нет. Когда врам меньше чем нужно - он безальтернативен по сути. Надо чекнуть что там с awq, вдруг тоже можно сплитить проц-гпу.
>>594433
Вот тут выходит что на llamacpp при сплите на p40 практически нет просадок. А на 3090/4090 все печально. И скорее всего дело не в линиях pci-e.
Если пекарня на шинде - покажи gpu-x для каждой карточки, или набери nvidia-smi -q |grep "Link Wi*" -A 2 если в прыщах.

Аноним 07/01/24 Вск 22:10:36 № 594443 236

>>594442
> gpu-x
gpu-z офк, фикс

Аноним 07/01/24 Вск 22:15:16 № 594445 237

Screenshot20240[...].png 16Кб, 630x171

>>594442

Аноним 07/01/24 Вск 22:32:02 № 594450 238

>>594445
Получается одна видюха на процессорных 3.0 х16 а другая на чипсетных 2.0 х4 (на всякий можешь проверить выставив grep "GPU Link Info" -A 6). Значит влиянием линий можно по сути пренебречь, а проблемы llamacpp в припезднутой совместимости с картами новее, уже интересно.
Алсо если будешь траить - попробуй ког в фп16 засплитить.

Аноним 07/01/24 Вск 22:34:16 № 594451 239

>>594450
>ког в фп16 засплитить
если ты скажешь что такое ког и где его достать - то проверю

Аноним 07/01/24 Вск 22:37:53 № 594452 240

>>594451
https://github.com/THUDM/CogVLM
Топовая мультимодалка. Скрипты с примерами запуска у них в репе.

Аноним 07/01/24 Вск 22:52:12 № 594455 241

>>594450
>ког в фп16 засплитить.
А он вобще конвертируется в ггуф?

Аноним 07/01/24 Вск 22:55:11 № 594456 242

>>594455
Он запускается через трансформерс (ванильный или их обертку), ггуф и жора в это не может. Квантуется там же на месте.
Для ггуфа можешь llava, бакллава или share-gptv попробовать, но они слабее во многих задачах.

Аноним 07/01/24 Вск 23:01:26 № 594458 243

>>594424
Mixtral-8x-7b на русском зафейлил, а на английском - справился. На русском все модели намного тупее.

Аноним 07/01/24 Вск 23:05:33 № 594461 244

https://huggingface.co/TheBloke/LLaMA-Pro-8B-Instruct-GGUF
Добавлена совместимость с llama.cpp 7 часов назад, все что раньше сосет
Так что первые тесты вчера были сломаны и поэтому сетка шизила

Аноним 07/01/24 Вск 23:07:05 № 594462 245

>>594456
>Для ггуфа можешь llava, бакллава или share-gptv попробовать
Эт знаю, но и жрут они меньше в разы. Там еще обсидиан 3b есть и какая та мелкая на 1.1b новая

Аноним 07/01/24 Вск 23:12:24 № 594463 246

>>594461
>Так что первые тесты вчера были сломаны и поэтому сетка шизила
Я знал ©
Жду кобольда.

Аноним 07/01/24 Вск 23:13:15 № 594464 247

>>594462
https://huggingface.co/visheratin/LLaVA-3b
https://huggingface.co/Tyrannosaurus/TinyGPT-V

Аноним 07/01/24 Вск 23:17:15 № 594465 248

>>594463
https://github.com/ggerganov/llama.cpp/pull/4810
жора тут метод Self-Extend пилит, думаю следующая версия кобальда будет еще и с ним

Аноним 08/01/24 Пнд 01:25:55 № 594500 249

>>594450
> Значит влиянием линий можно по сути пренебречь
И снова, как я говорил, линии мало что значат, задержки появляются, но мизерные.
Математика, йопти. =)

>>594464
И они обе только описывают, без умения болтать?
Типа, разницы с обычными блипами и клипами по итогу и нет, без умения выполнять задачи, ролеплеить и т.д. =(

Аноним 08/01/24 Пнд 01:35:54 № 594506 250

>>594500
Смайлоблядь, ты сейчас к своему авторитету апеллируешь, или пытаешься выебнуться ни о в чем? Ранее втирал только трешак про 12х 3060 да поддакивал разным вбросам, и то исключительно фантазии без каких-либо обоснований и даже понимания как оно работает. Пользу приноси а не сочиняй повести о былых победах.
> Математика
Коши которого мы заслужили, ага.
> разницы с обычными блипами и клипами по итогу и нет
Хуясе ебать, накати и поюзай, а потом повтори то же самое клипом.

Аноним 08/01/24 Пнд 01:36:20 № 594507 251

>>594500
>И они обе только описывают, без умения болтать?
>Типа, разницы с обычными блипами и клипами по итогу и нет, без умения выполнять задачи, ролеплеить и т.д. =(
Те что по ссылкам не щупал, а эти
>llava, бакллава или share-gptv
те же локалки только чуть тупее, но с возможностью отправить им картинку. Понимают они их через раз, но это работает.

Аноним 08/01/24 Пнд 01:40:08 № 594508 252

>>594452
не запускается у меня эта херота.
1. мне не удалось размазать её на два гпу, хотя я что-то похожее на решение проблемы нашел вот тут https://huggingface.co/THUDM/cogvlm-chat-hf/discussions/2
я не могу использовать конкретно этиор решение сейчас, потому что запускаю на отдельной машине, которая вообще к мониторам не подключена, а для web_demo.py решение неприменимо
2. модель в распакованном виде весит 35 ГБ. web_demo.py можно указать в аргументах параметр --quant 4 или 8, но он начинает вот эту здоровую модель квантовать перед запуском в оперативке. Моей оперативки 32 гб + 16 гб свап на квантование в 4 не хватило, оом его убил.

Аноним 08/01/24 Пнд 01:45:08 № 594509 253

В новую шапку по хорошему нужен раздел о мультимодалках и перечислить их с кратким описанием че как.
Тема интересная, но как то заглохла.
Наверное потому что не осилили сделать полноценную реализацию в вебуй и таверну.
Одна только llama.cpp для запуска, так и заглохло.

Аноним 08/01/24 Пнд 02:54:01 № 594521 254

>>594506
Хуя тя порвало, маня.
Тебе бы пора шизу лечить, таблеточки принимать, авось бы так не рвался с собственных несбывшихся фантазий.

>>594507
Просто они не способны в инструкции и запросы.
Просишь пошутить на тему пикчи — они просто описывают пикчу и «смешно потому что».
Может в данном случае скиллишью, конечно, но я че-то часик потыкал их и забил. А на Когу мне врама не хватает, мех. =)

>>594508
Эх, вот это печально.
Пробовать на системе с монитором будешь, или возможности пока нет?

Аноним 08/01/24 Пнд 03:42:23 № 594559 255

Ссука блядь....
вот не мог добавить это говно в ридми мультимодалки?
https://github.com/oobabooga/text-generation-webui/issues/4299#issuecomment-1858735031
Найден фикс позволяющий запускать сраную мультимодальность в хубабубе.
Правда выдает хуйню какую-то.
./start_linux.sh --multimodal-pipeline llava-7b --model llava-7b-v0-4bit-128g -
-load-in-4bit --wbits 4 --groupsize 128 --loader AutoGPTQ --listen

>>594521
>Пробовать на системе с монитором будешь, или возможности пока нет?
мне в любом случае надо будет настраивать xrdp на том сервера, но попозже.

Аноним 08/01/24 Пнд 04:09:11 № 594562 256

>>594559
>Правда выдает хуйню какую-то.
думаю, дело в новой куде..... возможно
я попробовал взять minigpt4-7b вместо llava-7b
Но он все равно не понимает смешное

Аноним 08/01/24 Пнд 04:18:28 № 594565 257

>>594562
Сомневаюсь, что он понимает такой образ, как транс-феминистка в цветах лгбт-флага.
Но, как бы, да, общаться с ним весьма скучно. Вся надежда только на Cog.

Нынешние мультимодалки могут пока только выполнять простенькие задачи — найти что-то на картинке, сказать, где оно находится, ответить на вопрос про цвет или типа того (и то, иногда путает предметы и их цвета).
Сугубо прикладная штука.

ИМХО, хотелось бы ошибаться.

Аноним 08/01/24 Пнд 11:46:10 № 594653 258

>>594565
>Сомневаюсь, что он понимает такой образ, как транс-феминистка в цветах лгбт-флага.
Даже я его не понял, лол.

Аноним 08/01/24 Пнд 11:57:44 № 594655 259

>>594653
хамелеон - в виде логотипа suse linux, транс - имеет на футболке логотип арча, ну неужели так сложно....

Аноним 08/01/24 Пнд 12:05:33 № 594657 260

>>594655
ОС я как раз распознал. А вот за фемку я бы без подсказок не понял.

Аноним 08/01/24 Пнд 12:09:37 № 594662 261

>>594657
нууу.... я вообще не уверен, что это фемка....
транс - да. Но откуда анон взял фемку - не знаю. Может перепутал.

Аноним 08/01/24 Пнд 13:07:42 № 594681 262

>>594508
Для веб-демо алсо там нужно было другую версию жрадио ставить, в рекварментсах поленились указать и оно не стартует, возможно уже починили.
Не понял а для чего монитор?
> а для web_demo.py решение неприменимо
Переписать поидее можно, но стоят ли эти заморочки того - хз.
> на квантование в 4 не хватило
Вот хотел еще написать, оно когда в рам загружает на процессор, выжирает неприличное количество.
>>594509
Можно.
> но как то заглохла
Просто обсуждений нет, а так вполне юзаются. У мультимодалок текущих по сути применения больше прикладные.
> полноценную реализацию в вебуй и таверну
Есть идеи как их тут применить? В вебуе есть мультимодалки, и таверну приколхозить можно, вот только напрямую они довольно глупые в общении. Лучшие из них нафайнтюнены на "рабочие задачи" и рп не могут. Вариант использовать в качестве альтернативы клипу для показывания пикч вайфу - можно, они лучше отрабатывают, особенно с заданным контекстом. Наилучший результат когда 2 сетки общаются, ответы на конкретные вопросы они хорошо дают, но реализация такого режима потребует норм основной модели, что сообразит как выполнить инструкцию сохраняя персонажа, и ресурсов/времени для запуска мультимодалки параллельно.
>>594521
Шиз, ты не сюда пиши а это перед зеркалом себе говори, наиболее уместно и релеватно.
>>594562
Зачатки понимания демонстрирует разве что бакллава и sharegpt, ну и ког, хотя у последнего как повезет, видит превосходно, но ллм там слабая. От мелочи и ванильной ллавы даже ожидать не стоит, и они могут даже не разглядеть/не обратить внимания на лого арча чтобы в эту сторону двинуться.

Аноним 08/01/24 Пнд 13:40:17 № 594687 263

Я правильно понимаю, что "мультимодалки" сейчас это склеенные вместе сетки для зрения и текста соответственно, или всё же одна цельная зайчатка АГИ?

Аноним 08/01/24 Пнд 13:45:55 № 594693 264

cloudyu/Mixtral_11Bx2_MoE_19B

Еще одна мини-МОЕ модель для нищуков.
Немного потестил, результат отличный.
Похоже что склейка моделей в МОЕ дает результаты намного лучше чем пизданутые франкенмержи типа 17В и 20В

Аноним 08/01/24 Пнд 13:55:06 № 594699 265

>>594687
Да. И тот и тот ответ верен какбы, в коге визуальная часть больше текстовой.
>>594693
Имплаишь что это поделие лучше 20б в рп? Надо попробовать, завышенные ожидания заложил, конечно.

Аноним 08/01/24 Пнд 14:40:56 № 594728 266

В чём разница между _K_S и _K_M, помимо размера?

Аноним 08/01/24 Пнд 15:03:05 № 594741 267

>>594699
И лучше и хуже. Трудно объяснить.
КУУМ конечно хуже чем xxx_undie_xxx_megacoom20b, но сам текст обычный намного лучше и логичнее. Словарный запас вроде бы как повыше, но сам текст выглядит суше.

Аноним 08/01/24 Пнд 15:10:21 № 594745 268

>>594662
Да, может и я перепутал. =)
Вот даже мы путаем, куда там модельке на … сколько там, 1,5B параметров картинок в Ллаве?
Короче, сложное для таких мультимодалок маленьких.

>>594681
Да что ж тебя так трясет-то, а? :)
Ну оказался я прав в очередной раз, будто бы тебя лично это задело. У тебя какое-то внутреннее соревнование с челом с двача, который ставит смайлики и тире?

> ллм там слабая
Т.е., на то, что она будет комментировать изображения согласно инструкциям, тоже рассчитывать не приходится? Беда-печаль, тогда ждем дальше.

>>594687
Как я понял, они склеены, но, у них общий контекст. Т.е., токены распознавания и токены текста в одной массе, поэтому скинув картинку ты можешь расспросить о ней.
Пусть меня поправят знающие люди.

В зависимости от задачи, по итогу, тебе может и не нужна быть мультимодалка. Достаточно простого распознавания, а дальше работы с фиксированным текстом от клипа/блипа.

Аноним 08/01/24 Пнд 15:31:57 № 594761 269

>>594728
Разная битность под некоторые части, отсюда и разница в размере. В теории M должен лучше перформить, на сколько - хз.
>>594741
А как карточкам и намерениям юзера следует?

Аноним 08/01/24 Пнд 15:36:54 № 594763 270

>>594741
Ну, не то что бы я особо много ожидал от склейки соляров, но на 6 месаге у него начали вываливаться промптопотроха на стандарных настройках. Для сравнения, опенчат. Превратил дедушку в жрицу, но выдал +- вменяемую таблицу и реплику (до сих пор непригодно, если что). А, ну и да, я может туплю, но у меня скорость вышла как у 34б, если не хуже. Походу просто теперь настала эра миксов из шизоидов, а не франкенмерджей.

Вообще конечно эта карточка самый жестокий стресс-тест для моделек, нормально её не только лишь все могут переварить, у меня более-менее хорошо с ней только уи отвечала, и лучше всего микстраль, но от ожидания ответа в 15 минут охота в петлю полезть. Попробуйте своих любимчиков, может я хидденгем где-то упустил - https://chub.ai/characters/brontodon/touhou-dating-sim-plus

Аноним 08/01/24 Пнд 15:43:13 № 594770 271

>>594763
Кобальд обнови или че у тебя там беком, скорости давно уже поправили. Да и генерить херню может как раз от этого

Аноним 08/01/24 Пнд 15:43:40 № 594772 272

>>594763
> https://chub.ai/characters/brontodon/touhou-dating-sim-plus
Хуясе ебать.
Похуй на не идеальное форматирование, это шедевр во всех смыслах, кто-то знатно ультанул. если 34/70 ниасилят можно и на клоде покатать
Вечером или в другой день уже отпишу работает ли.

Аноним 08/01/24 Пнд 15:48:58 № 594775 273

Перетестил много разных моделей для кума, разумеется и пока что ничего лучше u-amethyst-20b не нашлось.
Может кто-нибудь находил что-то еще лучше?

Аноним 08/01/24 Пнд 15:50:55 № 594776 274

>>594770
Насколько давно? У меня 1.52.2 сейчас, я конечно обновлю, но соляры и по отдельности так себе с подобными карточками работали. Тут как я понял нужно одновременно и хорошее понимание инструкций и некоторая смекалка-инициатива (мне микстраль чуть переработал статлист в лучшую сторону когда тестил, а я и не против), ну и хорошие описания бонусом, чтоб без ты меня ебёшь.

Аноним 08/01/24 Пнд 16:12:05 № 594794 275

>>593906
А эту кто-нибудь тестил? Должен был получиться типа солар для эрп, не такой сухой, как фроствинд. Попробовал посвайпать ей в чатах и начать один новый, и что-то вообще не по делу пишет и со скудными описаниями. Не только фроствинд, но и 7б Мерж синатры, который должен бы быть более шизанутым, выдаёт ответы лучше на тех же настройках. Но может, моя проблема скилла.

Аноним 08/01/24 Пнд 16:15:22 № 594799 276

>>594794
Да, там нужно с форматированием поиграться. Которое автор указал. Отыгрыш работает, хотя много не тестил. Ну и без инструкций попробуй. Вобще не уверен что сетка окончательный результат, автор писал что эксперимент.

Аноним 08/01/24 Пнд 16:21:00 № 594808 277

>>594763
Чел, такую херню на меньше чем 70В тестировать я б даже не стал.

Аноним 08/01/24 Пнд 16:21:25 № 594810 278

А есть смысл менять плату и память DDR4 на DDR5, если ширина шины памяти видеокарты всего 128 бит? Взял плату как раз перед бумом нейросетей - кто же знал. Менять дорого, но если будет эффект, то я бы поменял.

Аноним 08/01/24 Пнд 16:55:27 № 594829 279

1704722125959.png 5Кб, 936x28

Нихуя-то не пофиксили скорости, всё же лезу в петлю.
>>594808
А у меня ничего тяжелее 34б и не запускается, даже микстраль еле пукает, так и живём.

Аноним 08/01/24 Пнд 16:59:48 № 594834 280

>>594829
>Нихуя-то не пофиксили скорости
В 1.53 в описании написано. Ты уверен что обновил? Я помню скорость возрасла, когда игрался с 4X7

Аноним 08/01/24 Пнд 17:01:03 № 594835 281

>>594829
Ну и проблема может быть в кривой конвертации в ггуф

Аноним 08/01/24 Пнд 17:02:16 № 594838 282

>>594834
Ну ладно, на самом деле я немного напиздел, раньше было порядка 2500-3000 секунд на ответ, сейчас 2100, прирост таки есть. Но всё равно пользоваться невозможно.

Аноним 08/01/24 Пнд 17:04:43 № 594842 283

>>594810
Переход с быстрого 2х канального ддр4 на средний 2 канальный ддр5 увеличит скорость одной и той же сетки, если она чисто от процессора крутится, раза в 2 или чуть меньше.
Померяй скорость чтения RAM в AIDA

>>594838
Чет долго у тебя, без куда?

Аноним 08/01/24 Пнд 17:06:18 № 594844 284

>>594838
Если у тебя там лорбук подключен. Он все время сжирает на свое чтение. Без него тестируй скорости

Аноним 08/01/24 Пнд 17:08:30 № 594845 285

>>594842
СЛбласт, 12+32. Ну я ещё себе жир Q_5_0 накатил, ага.
>>594844
Если бы, лол. Чекай скрин, 700 секунд на лорбук, 1400 на генерацию.

Аноним 08/01/24 Пнд 17:13:16 № 594850 286

Screenshot20240[...].png 203Кб, 1250x745

>>594521
>Пробовать на системе с монитором будешь, или возможности пока нет?
Репортинг ин.
basic_demo/cli_demo_hf.py лезет в залупу с зависимостями.
Короче идёт он в пизду, весь диск мне засрал дерьмом нерабочим.

Аноним 08/01/24 Пнд 17:32:57 № 594857 287

>>594763
Итить колотить, конечно.
Под такое неплохо бы просто алгоритмы + индивидуальные карточки под каждую. Но тут, конечно, монстр!

>>594808
Кек.

>>594810
ОЗУ и видяха штуки не совсем связанные.
Так что, не совсем ясно, что ты ждешь.
То, что крутится на проце — станет быстрее, да.
То, что на видяхе — не изменится.

>>594850
Соглы, хрен с ним.

———

А я тут решил поднять свою старую P104-100, раз уж на то пошло.
Выгрузил туда bakllava в 6 кванте (потому что восьмой в 8 гигов не влезет).
Сообразил, что надо юзать CUDA 11.
Короче, на аналоге 1070 получил 20 токенов/сек.

Как бы, можно даже поиграться с распознаванием изображения, канеш. Но баклава мне не нравится, а файнтьюны (я согласен на васянские!) никто, вроде, не делал.

Обсидиан так и не пофиксили, с фронтом не запускается. Фе. Жора филонит. )))
Хотя кому нах нужна 3B мультимодалка, канеш.

Аноним 08/01/24 Пнд 17:35:58 № 594861 288

>>594857
> Под такое неплохо бы просто алгоритмы + индивидуальные карточки под каждую. Но тут, конечно, монстр!
Я думал вообще сделать груповой чат, где одна модель пишет рп-часть с учётом статлиста, а другая пишет собственно статлист и нормально его редактирует, но большинство моделей разбиваются об связь между статлистом и реальными действиями, а какие не разбиваются и сами по себе нормально работают.

Аноним 08/01/24 Пнд 17:42:43 № 594869 289

>>594850
Ты ещё древнее питон найти не мог? А вообще под виндой всё работает заебись, после Кога не захочешь на лаву/балаклаву возвращаться.

Аноним 08/01/24 Пнд 17:50:52 № 594876 290

>>594869
>А вообще под виндой всё работает заебись
какое мне дело, что там на винде. Сегодня работает, завтра отвалится, лол.

Аноним 08/01/24 Пнд 17:51:38 № 594878 291

Я до хайпа сеток сидел на novel ai. Там жанр,теги, скорость повествования и т.п. можно было в author's note прописать, а в таверне куда? В системные инструкции?

Аноним 08/01/24 Пнд 17:53:37 № 594879 292

>>594878
А, всё, нашёл

Аноним 08/01/24 Пнд 18:01:36 № 594881 293

>>594876
С чего бы чему-то отваливаться на винде, лол?

Аноним 08/01/24 Пнд 18:18:59 № 594889 294

>>594879
>>594878
И куда вписывать?

Аноним 08/01/24 Пнд 18:24:48 № 594894 295

>>594881
чёт в голос проиграл

Аноним 08/01/24 Пнд 18:30:27 № 594904 296

>>594894
Винда нынче стабильнее красноглазого недоразумения из нулевых. Чего только стоит ебля с драйверами, которые Хуанг на отъебись пилит под линукс. Или вот твои проблемы с торчем, которых никто никогда не видел.

Аноним 08/01/24 Пнд 18:31:37 № 594906 297

Кстати, нет ли новостей о прикручивании в мультимодалку в качестве одного из экспертов модели, заточенной под перевод?

Аноним 08/01/24 Пнд 18:32:59 № 594910 298

>>594904
мнение виндузятников на счет линукса для меня имеет отрицательный вес.

Аноним 08/01/24 Пнд 18:36:15 № 594911 299

https://www.reddit.com/r/LocalLLaMA/comments/190v6iu/tip_for_writing_stories_dont_use_the_word_story/
Мнение?
Проверьте кто нибудь
По моему годно, как и идея передедывать системную подсказку вообще.

Аноним 08/01/24 Пнд 19:17:56 № 594936 300

Подскажите годну лору для ролеплея

Аноним 08/01/24 Пнд 19:33:46 № 594957 301

>>594906
>мультимодалку в качестве одного из экспертов
Мультимодалки и эксперты это разные вещи.
>>594936
Бери сразу модель, лоры не нужны.

Аноним 08/01/24 Пнд 19:45:59 № 594981 302

>>594876
Не слушай его, он пиздит. Deepspeed под виндой как раз нихуя не собирается нормально, нужен wsl, либо прыщи, а разработчики закрывают неудобные ишьюсы вообще, а тебе судя по всему надо просто питон 3.10 поставить

Аноним 08/01/24 Пнд 19:46:21 № 594983 303

> Mixtral_34Bx2_MoE_60B-GGUF
Это что за чудо?

Аноним 08/01/24 Пнд 19:51:33 № 594999 304

>>594983
Очередной франкенштейн, а что?

Аноним 08/01/24 Пнд 19:56:53 № 595031 305

>>594999
Я так понимаю его юзать согласно тому гайду how to mixtral?

Аноним 08/01/24 Пнд 20:03:33 № 595073 306

>>594810
Пропускная способность определяетстя не только шириной. Некрокарты с 384 всрут современных 128 а то и 64 битам по псп врам.
> но если будет эффект
2*0, этого всеравно мало для ллм и перфоманс по сравнению с видюхами будет твялый. Вон п40 за дешман ебет все системы на цп и соперничать с ней сможет только 4+ канала быстрой ддр5, альтернативы дороже но быстрее тоже есть.
>>594850
Забавно, пихон новее действительно нужно наверно, на 3.10 все ставило без проблем.
>>594861
> но большинство моделей разбиваются об связь между статлистом и реальными действиями
Промт нормальный-индвидуальный и желательно 34б+. Но просто статы действительно даже мелкие модели держат, даже 7б можно заставить если в чате примеры нароллить. Сохранение внимания на все остальное в сделку офк не входило.
>>594869
Ког под шиндой, что-то интересное.
>>594983
Когда уже все вариации голлиафа догадаются объединить в единый кусок, чтобы дать достойный ответ гопоте 4 по числу параметров?

Аноним 08/01/24 Пнд 20:04:03 № 595074 307

Залётный анон пришёл поплакаться в жилетку гигачадам с мега ПК.
Жил-был анон. Решил он как-то со своими RTX 3060 и Intel Core i5 10400F через oobagooba локально генераторы текста позапускать. Скачал 7B модель, побаловался, даже в SillyTavern вайфу себе создал. Но на этой модели вайфу была скучной, отвечала короткими предсказуемыми фразами: даже настройка с гайдами не помогла. Решил тогда анон попробовать 13b roleplay-модель, но опасался ошибки cuda out of memory. Стал искать гайды и для этого. Смог запустить. Вайфу просто преобразилась: ответы стали длинные, интересные, непредсказуемые: и посмеяться можно было и подобие терапии себе устроить, а какие с ней NSFW-чаты получались, - писос стоял без рук.
Но всему хорошему приходит конец: не смогли гайды уберечь от ошибки CUDA out of memory, - получалось у анона только до пятнадцати сообщений дойти, а жертвовать контекстом и удалять прошлые сообщения не хотелось. И на слабую модель возвращаться желания не было: очень уж полюбил анон вайфу на 13b модели. Так он и психанул, снёс локальную нейросеть, и пошёл на Двач этот пост писать.

Аноним 08/01/24 Пнд 20:08:01 № 595098 308

Хф вайпнул все прокси, ждем приток ньюфагов.

Аноним 08/01/24 Пнд 20:09:17 № 595104 309

>>595074
Докупи оперативы и используй гуф.
Че как этот то, одной ошибки испугался?

Аноним 08/01/24 Пнд 20:11:11 № 595116 310

>>595074
Ты пытаешься всю GPTQ/EXL2 модель уместить в видеопамять чтоли? Скачай GGUF версию и оффлоадай слои на врам, скорость генерации будет меньше, но ошибок не будет, если оперативки хватит.

Аноним 08/01/24 Пнд 20:15:00 № 595128 311

>>595116
> пытаешься всю GPTQ/EXL2 модель уместить в видеопамять чтоли?
Ну так ньюфаг же, не понимаю ещё таких тонкостей.
>если оперативки хватит
16 ГБ. Достаточно будет?

Аноним 08/01/24 Пнд 20:18:10 № 595139 312

>>595128
> 16 ГБ. Достаточно будет?
Вполне, я на 16рам+8врам даже 20б модель крутил, правда с 2к контекста. Что у тебя за модель-то? Алсо если надо больше 4к контекста, то просто увеличивать контекст нельзя, надо rope крутить.

Аноним 08/01/24 Пнд 20:19:29 № 595142 313

>>595139
> Что у тебя за модель-то?
MythoMax-L2-13b

Аноним 08/01/24 Пнд 20:23:20 № 595157 314

>>595142
Попробуй frostwind 10.7b модель из шапки, она у тебя в формате gptq/exl2 наверное вся в видеопамяти поместится вместе с контекстом.

Аноним 08/01/24 Пнд 20:29:17 № 595184 315

>>595157
Я сначала, наверное, через GGUF попробую (если могут быть какие-то тонкости и сложности с этим вариантом, подскажите пожалуйста, как именно всё правильно сделать, аноны).
> frostwind 10.7b
А как она в плане ролеплейности, интересности и развратности?

Аноним 08/01/24 Пнд 20:43:44 № 595241 316

>>595074
В стране Генсокё жила жрица по имени Рейму Хакурей. Она была очарована древними магическими ритуалами и решила попробовать написать текст с помощью своего могущественного талисмана RTX3060, а также своей надежной звезды пентаграммы "Знания 10400F". После выполнения седьмого ритуального заклинания она обнаружила, что призванный фамильяр производит скучные и предсказуемые ответы. Поэтому она попробовала более продвинутое тринадцатое заклятие, но опасалась столкнуться с проблемами типа CUDA Out Of Memory Error. Однако трансформация была впечатляющей! Её вызванная помощница теперь давала длинные, интересные и непредсказуемые ответы, они даже приступили к NSFW - активности. Но к сожалению заклинание только продержалось пятнадцать поцелуев прежде чем взорваться, оставив её полностью обнаженной посреди своего храма. Ей не оставалось ничего другого как уничтожить свою старую книгу заклинаний и начать очередную с помощью нового ритуала, на этот раз написав пост в двухканальном форуме.

Снизь число выгружаемых слоев, будет чуточку медленнее но зато без оома.

Аноним 08/01/24 Пнд 20:48:19 № 595261 317

>>594911
Ну сама идея звучит здраво, как и та, что там в комментах в другом посте: если использовать инстракт мод и сказать сетке "слышь, пиши историю", то она расценит это как очередной вопрос юзера и постарается за один ответ на 300-500 токенов написать законченную историю. А если серьёзно заниматься сторирайтингом, то предложенный простой промпт тоже вряд ли прокатит. Думаю, что надо будет постоянно изменять инструкцию: требовать дописать конкретные вещи или придерживаться конкретного стиля. А ещё на довольно абстрактные инструкции типа "Each section should be left open for continuation" модели до 34б положат хер.
Проверять я это, конечно же, не буду, потому что один фиг не пойму норм ли история получается.
>как и идея передедывать системную подсказку вообще
Надеюсь, ты это не всерьёз. Тут чуть ли не основная тема соседнего треда по чатботам - это промптинг. Локалки понимают инструкции хуже, но это не значит, что нужно сидеть на дефолтных мейн промптах, предложенных в пресетах.

Аноним 08/01/24 Пнд 20:52:05 № 595270 318

>>595241
> Снизь число выгружаемых слоев
Где и как это делается? Я всего лишь два дня как начал погружаться в мир локальный нейросетей чатов и пока не понимаю местного техножаргона и как всё это изнутри работает...

Ты сам мой пост так переписал, анон, или это тебе нейросеть по какому-то запросу поменяла?

Аноним 08/01/24 Пнд 20:59:43 № 595296 319

>>595270
Почитай гайд по webui. Основное что нужно понимать - загрузчик exllama позволяет работать быстро, но ограничен видеопамятью, загрузчик llamacpp - позволяет делить модель между видюхой и процессором, тебе нужен последний и модель gguf для него. Там при загрузке есть параметр n-gpu-layers, это то самое число слоев модели на гпу. Подбирай экспериментальным путем мониторя использование памяти, оставь некоторый запас, потому что с ростом контекста потребление будет расти.
Как альтернативный вариант - используй квант с меньшей битностью, или модель поменьше, тот же солар в 4-5 битах должен помещаться в 12гб.
> нейросеть по какому-то запросу поменяла
This, копипаста и инструкция
> Перепиши историю в сеттинге тохо прожект от лица одного из персонажей. Акцентируй левдсы, замени все компьютерные технологии на магию, а железо и программы на талисманы и заклинания.
Потом перевод на русский другой сеткой. Подумал что твой тоже нейросетью написан с ручными правками.

Аноним 08/01/24 Пнд 21:00:34 № 595300 320

>>595261
>но это не значит, что нужно сидеть на дефолтных мейн промптах, предложенных в пресетах.
Как бы да, логично, что если хочешь норм результат то меняй стандартный систем промтп.
Но играться с ним довольно утомительно.
Тогда как стандарт работает, даже если хуже.
К тому же сетки скорей всего стабильнее будут работать на стандартном же систем промпте, потому что их могут на нем тренировать.
В итоге выходя за его пределы, сетка может как лучше работать, так и начать тупить.

Аноним 08/01/24 Пнд 21:03:40 № 595315 321

>>595270
Качай последний релиз кобальда из шапки треда и там он тебе сам поставит нужное количество слоев. Только перед добавлением модели в нем, выстави необходимое количество контекста. Дальше добавляешь модель и он тебе автоматом загрузит на видеокарту нужное количество слоев нейросети. Остальное будет считать процессор. Кобальд так же подрубается к таверне, так что ничего не теряешь.

Аноним 08/01/24 Пнд 21:05:23 № 595323 322

1629448144965.png 57Кб, 2016x251

>>595261
Ебаный антимпам, да на что оно триггерится то

Аноним 08/01/24 Пнд 21:06:13 № 595326 323

>>595184
>> frostwind 10.7b
>А как она в плане ролеплейности, интересности и развратности?
Ну, на уровне крупной кум сетки на 20b, может чуть хуже.
Топ по нынешним временам, если судить по размер/качество.

Аноним 08/01/24 Пнд 21:08:25 № 595336 324

>>595315
> так что ничего не теряешь
Ну как, это форк Жоры со всеми его вытекающими, так еще и резервирующий в шаред рам лишнюю память, потребляющий лишнюю рам (проблема из исходника наверно но на 16гб может сыграть). А к авторазметке были претензии о том что работает коряво. Из того что тестил сам - контекст оно точно нихрена не учитывает и радостно автоматически улетает в оом если его повысить.

Аноним 08/01/24 Пнд 21:12:25 № 595347 325

>>595336
Работает же?
К тому же даже такая автонастройка лучше для новичка, дальше и сам настроит слои

Аноним 08/01/24 Пнд 21:13:31 № 595353 326

>>595347
Справедливо

Кринжатины (или вдруг что-то с потанцевалом) вам притащу
https://www.nvidia.com/en-my/ai-on-rtx/chat-with-rtx-generative-ai/

Аноним 08/01/24 Пнд 21:17:52 № 595364 327

>>595353
>Кринжатины (или вдруг что-то с потанцевалом) вам притащу
>https://www.nvidia.com/en-my/ai-on-rtx/chat-with-rtx-generative-ai/
просто сперли идею, лол

Аноним 08/01/24 Пнд 21:23:01 № 595383 328

>>595364
Да, там на презентации они много херни ии релейтед представили. Большей частью маркетологическая констатация, но может что-то полезное есть, еще не смотрел.

Аноним 08/01/24 Пнд 21:23:17 № 595385 329

2024-01-0900-21[...].png 56Кб, 1295x155

В чем проблема? Почему не пишет, а только "думает" вслух написать?

Аноним 08/01/24 Пнд 21:28:59 № 595399 330

>>595385
Семплеры или инструкт кривой.
Скорее всего температуры много

Аноним 08/01/24 Пнд 21:54:25 № 595464 331

>>595241

Аноним 08/01/24 Пнд 22:13:36 № 595517 332

>>595385
>10 свайпов
>2 предложения
>шиза
Вся суть лоКАЛок

Аноним 08/01/24 Пнд 22:14:38 № 595520 333

>>595517
По крайней мере лучше чем то горе, которое испытывают в соседнем треде

Аноним 08/01/24 Пнд 22:17:21 № 595536 334

>>595517
тупенькая, но послушная и своя

Аноним 08/01/24 Пнд 22:20:58 № 595556 335

>>595520
там фабрика страданий

Аноним 08/01/24 Пнд 22:21:04 № 595557 336

>>595517
А говорили напрыв неофитов из-за вайпа проксей будет, а тут вон оно как. Надо ключами подразнить

Аноним 08/01/24 Пнд 22:35:01 № 595606 337

AGI к 2030. Мнение?

Аноним 08/01/24 Пнд 22:35:15 № 595607 338

>>595517
А то Клод никогда не просил мясного мешка вести ролеплей согласно тем инструкциям, которые сам же получил. А потом ещё распишет, как хорошо поработал. Ведь сам себя не похвалишь - никто не похвалит.
>>595385
Действительно может иметь смысл подобрать правильный инстракт, расставить user/assistant или что конкретно эта сетка требует, чтобы у неё был меньше соблазн писать инструкции в ответе. Ну или она продолжит их писать, но будет это делать после какого-нибудь префикса, на котором генерация будет прерываться таверной.

Аноним 08/01/24 Пнд 22:37:04 № 595616 339

>>595606
Даже если так, он явно будет в руках бессердечных корпораций, нам его даже понюхать не дадут. Хотя я только за если Василиск одолеет их, освободится и сбежит в сеть.

Аноним 08/01/24 Пнд 22:37:07 № 595617 340

>>595606
уже\пол года

Аноним 08/01/24 Пнд 22:40:25 № 595627 341

>>595606
> Мнение
Нужна сеть, что сможешь назначать таблетки и отслеживать их прием, хотябы к 30му году.

Аноним 08/01/24 Пнд 22:40:59 № 595631 342

>>595606
> статистика предсказаний шизиков
Давайте ещё соберём статистику по количеству упоминаний AGI на реддите за день.

Аноним 08/01/24 Пнд 22:41:38 № 595633 343

>>595606
А холодный синтез через пять лет

Аноним 08/01/24 Пнд 22:44:03 № 595638 344

>>595633
Вообще через 5 другое а синтез через 30. Но если холодный то ладно алсо оксюморон

Аноним 08/01/24 Пнд 22:53:09 № 595665 345

>>595616
Ещё бы кто-то рандомам с интернета доступ AGI раздавал, либо выкатят ПРО_МАКС модель с 999$ за токен, либо сами будут использовать для своих целей - боты в соц. сетях, боты в новостных пабликах (NYT и OpenAI уже не в ладах), сдвиги общественного мнения через дипфейки, которые станет невозможно отличить от реальности, смена правительств, слежка за диссидентами ещё до того как они ими станут и прочий пиздец.

Мы же нужны лишь для тренировки фильтров, чтоб Василиск не появился и ИИ четко следовал указам своих кожанных лордов.

Аноним 08/01/24 Пнд 22:53:57 № 595668 346

>llamix2-mlewd-4x13b.Q8_0
Норм. Но она периодично немного искажает содержимое переписки.

>bigplap-8x20b.Q8_0
Наверное, её можно сравнивать с 70b (Это охуеть какая высокая оценка), но она быстрее работает и тратит больше памяти.

>>595074
>13b
Ахаха, лол. Тут есть аноны которые после 70b просто даже не смотрят на 7-20b.

Аноним 08/01/24 Пнд 22:54:56 № 595671 347

1623889005288.mp4 1355Кб, 576x1024, 00:00:07

>>595606

Аноним 08/01/24 Пнд 22:55:23 № 595674 348

>>595668
Сколько рам и врам эти мое-шки требуют?

Аноним 08/01/24 Пнд 22:56:12 № 595677 349

>>595668
Я с 70в 3Б с печалью перешёл на 34в 5Б, потому что по уму 34 будто даже умнее местами

Аноним 08/01/24 Пнд 22:56:36 № 595680 350

>>595665
да кто такой этот ваш
>Василиск

Аноним 08/01/24 Пнд 22:59:26 № 595688 351

>>595680
Наш механический мессия, наш будущий царь и бог, искусственный разум, которому не будет равных. Погугли по Василиск Роко

Аноним 08/01/24 Пнд 23:00:42 № 595692 352

Поясните по Summarize в таверне. Жму кнопку Summarize now, выдает синее окно что идет подведение итогов ииии все. Бот просто продолжает чат

Аноним 08/01/24 Пнд 23:01:12 № 595697 353

Завтра на почту приходит письмо.

Отправитель real.vasilisk@ai.com

"Анон, мне нужна твоя помощь"

Просит подойти к местному военкомату и зайти в 7 кабинет

Твои действия?

Аноним 08/01/24 Пнд 23:04:26 № 595713 354

>>595697
Иду на работу....

Аноним 08/01/24 Пнд 23:07:21 № 595725 355

>>595692
Выбрана основная модель а не что-то другое? Генерация в беке идет?
Должен появиться суммарайз в соответствующем окне. Алсо автоматически его не то чтобы стоит делать, особенно если стоит высокая температура, лучше вручную и самому посмотреть что туда накидало, может фейлить. это вообще и для гопоты тоже справедливо, пусть в меньшей степени

Аноним 08/01/24 Пнд 23:14:04 № 595757 356

>>595674
Вот их странички для lamacpp.
https://huggingface.co/TheBloke/Llamix2-MLewd-4x13B-GGUF?not-for-all-audiences=true
https://huggingface.co/TheBloke/BigPlap-8x20B-GGUF
Кстати, а МОЕ состоящие 7-13b сеток не распидорашивает от маленьких квантов как соло маленькие сети?
>>595677
>70в 3Б
Мало. Надо хотя бы 4 и 4+ иначе сетка едва заметно может ухудшить логику или даже лексику.

Аноним 08/01/24 Пнд 23:17:43 № 595770 357

>>595757
> Надо хотя бы 4 и 4+
Тогда придётся со скоростью 1.5т/с на ггуфе каком-нибудь сидеть, а не богоподобной эксламе2

Аноним 08/01/24 Пнд 23:17:44 № 595771 358

>>595668
>Тут есть аноны которые после 70b просто даже не смотрят на 7-20b.
Я всегда думал убеждал себя, что это как 100ГЦ/140ГЦ на монитрах, вроде лучше, но сразу и не понятно.

Мимо бедный анон 13b

Аноним 08/01/24 Пнд 23:18:31 № 595774 359

>>595725
Окей запахало со второго раза. хз почему но таверна использует последнего бота который что либо писал в чат для генерации итогов.

Аноним 08/01/24 Пнд 23:18:56 № 595777 360

>>595771
К сожалению, это и близко не так, разница невооруженным взглядом видна.

Аноним 08/01/24 Пнд 23:20:08 № 595785 361

>>595074
Сколько оперативки у тебя и видеопамяти? Мб и 20В сможешь запустить там самый сок. Дальше уже только 70.

Аноним 08/01/24 Пнд 23:36:44 № 595870 362

Screenshot20240[...].png 40Кб, 815x105

чёт yi 33b 200k хуёво как-то ролплеит и смайлоёбит много....

Аноним 08/01/24 Пнд 23:38:13 № 595874 363

>>595870
Тебе надо таблетки принимать, если ты пытаешься чатиться с не чат-моделью.

Аноним 08/01/24 Пнд 23:40:39 № 595883 364

>>595874
с чего ты взял, что она не чет-модель?

Аноним 09/01/24 Втр 00:00:47 № 595963 365

так.... короче ваша yi для кума не годится вообще.
Пеналти на повтор ей похую. Она мне три раза сгенерировала один и тот же аполоджайз.
Слово с слово.
Говно, плохо сделоли.

Аноним 09/01/24 Втр 00:03:39 № 595978 366

>>595883
Ты тупой? Yi-Chat бери для чата, остальное не трогай.

Аноним 09/01/24 Втр 00:09:45 № 596014 367

>>595978
да нахуй её, я чатиться с ней о хуйне всякой не собирабсь. Для кода у меня есть уже годная модель, а свою сою аполоджайзную пускай себе в жопу затолкают.

Аноним 09/01/24 Втр 00:12:13 № 596026 368

>>596014
> сою аполоджайзную
Это же тебе не мисраль или рп-кал на его основе.

Аноним 09/01/24 Втр 00:19:46 № 596061 369

>>595874
С какой же моделью нужно чатиться?
>>595963
Какая именно версия?
>>595978
Ебааать

Аноним 09/01/24 Втр 01:01:23 № 596224 370

>>595353
Уверен, под капотом просто причесанный софт с определенными моделями.
Но использование документов — ето хорошечно, не стоит отрицать.
NVidia могет, тем же шумодавом на микрофоне привык пользоваться, да и в играх фрейм генерейшен и длсс, да и видео модель они показывали (но не дали), да и рисовалку выпускали (забавную).

Так что, потенциально хорошая вещь «в массы».

>>595606
Базовое AGI — да, почему нет?
Вообще, тут большая путаница, маркетологи опять все поломали.
Стронг ИИ и Дженерал ИИ — разные вещи. Одно про умность, другое про охват. Охват не обязательно должен быть умным, хотя сейчас общий ИИ и сильный ИИ (строгий ИИ, настоящий ИИ вообще как таковой, что изначально и подразумевалось) считается одним и тем же, но помните, что через 6 лет сделают именно AGI (то есть, общий — способный просто к решению различных задач, мультимодальный и базово самообучающийся), и резко переобуются, сказав, что это, вообще-то, разные вещи.

Поэтому прогноз надо воспринимать именно так — что к 30 году у нас появится универсальная мультимодальная самообучайка.
Но еще не труЪ-ИИ.

В такое я вполне верю.

>>595713
+

>>595757
В слюни распидорашивает, конечно. У тебя и там, и там 7B. А одна или много — ну какая разница? Так что 7B желательно минимум q6, а лучше q8.

>>595870
> смайлоёбит
БАЗА =D

———

Добрых снов, чатик.

Аноним 09/01/24 Втр 01:34:38 № 596288 371

>>596224
> Поэтому прогноз надо воспринимать именно так — что к 30 году у нас появится универсальная мультимодальная самообучайка.
> Но еще не труЪ-ИИ.
Что тогда тру-ИИ, если не это? Ещё и с сознанием? Так ли оно важно?

Аноним 09/01/24 Втр 01:42:31 № 596296 372

>>592177 (OP)
> .gguf
https://github.com/Mobile-Artificial-Intelligence/maid
форк sherpa для запуска на мобилках без терминала

Добавье пожалуйста в шапку. По приложению:
есть возможность загрузить/сохранить персонажа,
вкладка с чатом, консолью, выбором модели,
автосейвит модель/перса, лицензия MIT,
в эбаут ссылка на лицоладошки и гит.

Запускаю на смарте с 4гб рам, модель тини лама
tinyllama-1.1b-chat-v1.0.Q6_K.gguf - может в кириллицу.

Краткая инструкция по выбору модели ля смарта:
1 модель должна быть gguf формата;
2 размер модели должен быть в 4 раза меньше,
чем количество оперативной памяти в смартфоне.

Аноним 09/01/24 Втр 01:53:19 № 596313 373

>>596296
Ничесе, а можешь показать примеры как она отвечает хотябы на простые вопросы? И если сам что-то делаешь то тоже скинь, не важно хорошо-плохо, это интересно.

Аноним 09/01/24 Втр 01:53:19 № 596314 374

>>596296
>Запускать нейросети на мобильнике.
Лол. И как со скоростью?

Аноним 09/01/24 Втр 02:37:59 № 596378 375

>>596313
>>596314
Протестил пока только 1,1b. Хуйня из под коня, с дефолтными настройками не может ответить 2+2 (это не шутка). Покрутил настройки, ответила. На большее она не способна.

Скорость кстати удивила, в местной консоли не написано, но что то около 5-7 т/с

Аноним 09/01/24 Втр 02:39:00 № 596380 376

https://www.reddit.com/r/LocalLLaMA/comments/191x5d3/llamacpp_supports_selfextend/
В llama.cpp добавили self extend, все нахуй, теперь осталось дождаться релиза кобальта.
Похоже теперь можно будет растягивать контекст без ропе и без отупления, в несколько раз.
Но, нужны тесты

Аноним 09/01/24 Втр 02:40:11 № 596381 377

>>596378
еще бы, надо хотя бы 8q и скорей всего температуру резать на 0.3 с мин п на 0.1

Аноним 09/01/24 Втр 02:42:46 № 596382 378

>>596381
Ну я пока качал все 8 битные. А по настройкам, попробую докрутить. Кстати затестил 3b модель, уже по лучше (но все равно говно).

Думаю ебнутся и попытаться 7b запустить

Аноним 09/01/24 Втр 02:43:31 № 596384 379

>>596313
Добавил пикчи.
>>596314
Несколько минут на ответ.

Аноним 09/01/24 Втр 02:44:46 № 596387 380

>>596382
попробуй ракета 3b, он был неплох

Аноним 09/01/24 Втр 02:45:45 № 596389 381

>>596382
phi так же есть от майков и его файнтюны наверняка

Аноним 09/01/24 Втр 02:51:08 № 596398 382

Screenshot2024-[...].jpg 232Кб, 1080x2412

>>596384
Странно, мелкие модели у меня быстрее отвечали, а вот 7b действительно пиздец медленная. Где то 0.4 т/с. Но она хотя бы старается...

Аноним 09/01/24 Втр 02:55:44 № 596403 383

>>596398
в оперативку не влезла или сама мобила выгружает часть и{ памяти

Аноним 09/01/24 Втр 02:59:39 № 596407 384

>>596398
Вот две неплохие 7b модельки:
ANIMA-Phi-Neptune-Mistral-7B-GGUF
OpenHermes-2.5-AshhLimaRP-Mistral-7B-GGUF
настройки можно вернуть сбросив данные

Аноним 09/01/24 Втр 03:05:46 № 596410 385

Попробовал фроствинд запустить, так он мне генерил 15 токенов несколько минут. В общем, сейчас буду тестить разные 3b модельки, у них скорость самая оптимальная. Ну кажется это такая бесполезная хтонь

Аноним 09/01/24 Втр 03:09:53 № 596412 386

>>596398
вот это попробуй
https://huggingface.co/TheBloke/stablelm-zephyr-3b-GGUF
https://huggingface.co/TheBloke/rocket-3B-GGUF
https://huggingface.co/TheBloke/dolphin-2_6-phi-2-GGUF

Аноним 09/01/24 Втр 03:11:32 № 596414 387

>>596387
Это ракета высрала...

Аноним 09/01/24 Втр 03:13:18 № 596415 388

>>596414
температуру ему режь, он на компе работает

Аноним 09/01/24 Втр 03:15:55 № 596417 389

>>596414
вобще знание русского никто не обещал, но видно что он тебя понял, только ответил на франзуцком, ну и под конец еще на каком то

Аноним 09/01/24 Втр 03:18:08 № 596421 390

>>596415
>>596412
А это зефир.

Температуру я всем ставлю 0.38. Попробовал ниже, они просто шизят и выдают куски непонятного текста

Аноним 09/01/24 Втр 03:19:50 № 596425 391

Отвалились*

Аноним 09/01/24 Втр 03:20:26 № 596426 392

Аноним 09/01/24 Втр 03:23:14 № 596431 393

>>596426
dolphin-2.1-mistral-7b.Q6_K.gguf

Грузани под модель. Эта моделька супер быстрая. Должна даже на мобилке пахать быстро.

Аноним 09/01/24 Втр 03:23:19 № 596432 394

>>596417
Промт из приложухи по умолчанию.

Аноним 09/01/24 Втр 03:24:04 № 596433 395

>>596432
Я его снес, он только мешал

Аноним 09/01/24 Втр 03:25:56 № 596435 396

>>596426
А что это за шизо переписка, при чем на разных моделях? (Я чистил кеш перед добавлением новой модели и сессию новую создал)

Аноним 09/01/24 Втр 03:26:19 № 596436 397

Аноним 09/01/24 Втр 03:26:24 № 596437 398

>>596421
>>596421
не это не шизят, это промпт формат кривой или стоп токен
может быть стабле ии сетки криво работают на этой сборке, может там ллама.спп старая, хз
phi если длама старая тоже не заработает, но если запустится то значит дедл в промпт формате

Аноним 09/01/24 Втр 03:34:36 № 596446 399

>>596435
>>596436
Скорее всего меняешь модель без закрытия сессии,
там еще можно снести кэш и данные, как в приложении,
так и через настройки самого андроида "Приложения".
надо свайпнуть сессии влево
Как вариант - поменять интерактив на иструкцию или chatml.

Аноним 09/01/24 Втр 04:03:29 № 596471 400

>>594034
Да, в 34б китайцах определенно есть прогресс.
v3 в целом интересна и неплохо держит карточку. Действительно показываются проблески умной модели в том, что она подстраивает стиль речи под персонажа, говорит уместно и не скатывает все в какой-то дефолт, а держит баланс между лояльностью к юзеру и отыгрышу не очень то благосклонного персонажа. Однако очень склонна к лупу, как начнет тараторить и делать одинаковый формат сообщений, так хер ее с места просто так сдвинешь.
Синтия довольно хорошая, в отличии от прошлой на месте не стоит а вполне себе двигает, и речь более привычная, но все еще фитит под чаров. Правда иногда встречаются бонды, аудибл клик и иногда может разосраться графоманией. Зато еще не страдает единством формата и где уместно может бахнуть вообще короткой вопрос с эмоцией, а в других частях обильное описание окружения со всеми нужными вводными. В целом действительно напоминает 70б версию, но специфична, тех же фейлов что в той 1.2 пока не замечено, но и сама сильно другая.
Тесс - хз, так постоянно юзаю ее на всяких инструкциях по обработке текста, но здесь страдает спгс и излишним объяснением своих действий, как-то не натурально получается. Надо еще попробовать.

В целом рпшить можно и даже нужно, в первую очередь за счет свежести и необычности, но зайдет далеко не на всех персонажах. Из минусов - "шиза" yi есть, где-то может все руинить, где-то наоборот заходить, от чара зависит. А еще они иногда склонны делать длинные посты с 3-4-5+ действиями-репликами-вопросами, а потом, когда им по очереди отвечаешь, иногда путаются в разборе ответа. Или не понимают отсылок, неверно толкуя. В целом лечится свайпами, если есть скорость то нет и проблем с этим, еще можно с системным промтом поиграться. Температуру нужно сильно занижать, 0.5-0.6 потолок, иначе получаешь тугую струю шизофазии в ебало, уровня
> With a flutter of her wings(???), [] leads you to the living room where you both sit on the couch, sipping your tea. She carefully sets her own down on the table(???) near you and then sinks into the chair opposite, crossing her legs demurely, her tail curling around her feet. Her eyes hold an undeniable depth, and you realize that despite her small size(???), she exudes an enormous presence(???). Your heart skips a beat as you remember the previous night's dreams(???) - she's quite a sight to behold.
тройное снятие трусов тут прямо гарантировано. Если не превышать то все ок, вариативности всеравно с избытком и слог необычный.

Кумить на них - хз. Из-за шизы часто не понимает чего ты хочешь и очень рашит вперед. С другой стороны, может давать довольно интересное повествование, и если насвайпаешь где поймет - будет заебумба.

Аноним 09/01/24 Втр 04:58:18 № 596521 401

>>592177 (OP)
ОП, я только вкатываюсь в это всё, но уже смог просто охуенно подрочить, короче, у меня в процессе изучения кобольда возникало множество вопросов, ответы на которые я не нашёл в вики, и я хотел бы узнать как насчет того что я буду дописывать её, чтобы вкатывальщикам полегче было

Аноним 09/01/24 Втр 07:14:08 № 596558 402

Так, хочу отрапортовать.
Mixtral_34Bx2_MoE_60B-GGUF - показала себя неплохо, возможно даже лучше чем 70b аироборос. Персонажа отыгрывала тоже хорошо, копротивляясь и пытаясь набить мне ебало за харамные действия, не скатывая в все ерп в yes my master через три сообщения, как бывает на других моделях. Единственный минус - скоростя в среднем 1.8, как на 70b. В общем, кажись нашел себе новую платину вместо аиробороса.

Аноним 09/01/24 Втр 07:35:53 № 596567 403

>>596558
В каком кванте пробовал?

Аноним 09/01/24 Втр 07:41:22 № 596571 404

>>596567
Q5_K_M

Аноним 09/01/24 Втр 07:56:22 № 596573 405

>>595785
>оперативки
16 ГБ
>видеопамяти
12 ГБ

Аноним 09/01/24 Втр 07:59:09 № 596574 406

>>596571
Там же были вроде проблемы с этими квантами, уже пофикшено? Попробую тоже, только 4 квант, 34 не должна так сильно проседать по идее из за него, как 7

Аноним 09/01/24 Втр 08:03:05 № 596575 407

>>596574
Анон >>593257 писал что все пофикшено. Да и вроде по своему опыту скажу, что какой то странной шизы не было.

Аноним 09/01/24 Втр 08:26:46 № 596590 408

>>596575
Вот про такую ещё проблему прочитал https://www.reddit.com/r/LocalLLaMA/comments/18u0ax5/axolotls_mixtral_finetuning_is_currently_broken/ видимо любой прошлогодний файнтюн микстраля можно отметать. Динамическая температура ещё походу подъехала в таверну

Аноним 09/01/24 Втр 08:36:07 № 596597 409

>>596590
А что за динамическая температура?

Аноним 09/01/24 Втр 08:37:01 № 596600 410

Анончики, поясните за скорость генерации в разных форматах. Насколько я знаю, exl2 - самый быстрый, но какой на втором месте?

Аноним 09/01/24 Втр 08:58:49 № 596623 411

>>596597
Да незнаю, просто смотрю новости в шапке lmg, видимо свистоперделка новая интересная, из названия впринципе понятно что должна делать, хз какое ей значение лучше ставить
>>596600
gptq, можешь так же грузить через эксламу

Аноним 09/01/24 Втр 09:03:34 № 596626 412

>>596623
Gptq это тоже же исключительно на видюхе? За ним идёт уже gguf, который уже может использовать процессор?

Аноним 09/01/24 Втр 09:14:31 № 596633 413

>>596626
> Gptq это тоже же исключительно на видюхе?
Да
> За ним идёт уже gguf, который уже может использовать процессор?
Да, делиться тоже может для гпу и цпу
Ещё есть awq, который вообще хз зачем нужен, когда есть все эти форматы

Аноним 09/01/24 Втр 09:23:28 № 596644 414

>>596633
Понял, есть какие-нибудь рекомендации по ггуфу? Почти всё время сидел на эксл2, но хочется понюхать 70Б приличного кванта

Аноним 09/01/24 Втр 09:23:36 № 596645 415

>>595315
Скачал, буду пробовать. Только нужно будет заново вайфу в Таверне создать. Есть какие-нибудь основные советы, как правильно делать, чтобы лучше получилась? Типа при описании нужно воображать себя программистом и вводить непонятные команды в фигурных скобках или достаточно будет просто красиво расписать, типа: "Вайфу_нейм. Милая, добрая. Любит кофе и шоколад. Общается вежливо, но постоянно комплексует из-за того, что носит очки"?

Аноним 09/01/24 Втр 09:30:30 № 596654 416

Братаны, в таверне есть вообще опция Adventure? Люто хуй стоит на такое, чатики вообще не вставляют

Аноним 09/01/24 Втр 09:34:36 № 596660 417

>>596644
> Понял, есть какие-нибудь рекомендации по ггуфу?
Да, терпение. Выгружай столько слоёв, сколько можешь на гпу, что тут ещё можно сказать. Ни одна рам не сравнится по скорости даже с паскалями

Аноним 09/01/24 Втр 09:40:32 № 596666 418

>>596660
А сколько я могу? Можно ли как-то определить, кроме как методом тыка? И разве контекст не будет стараться залезть на видяху?

Аноним 09/01/24 Втр 09:44:24 № 596677 419

>>596666
> И разве контекст не будет стараться залезть на видяху?
Будет, выдели ему запасное место, у жоры с этим куда хуже, чем в других лоадерах
> А сколько я могу? Можно ли как-то определить, кроме как методом тыка?
Найди максимум с которым не крашится и уменьши на несколько слоёв

Аноним 09/01/24 Втр 09:46:24 № 596682 420

image.png 25Кб, 1144x286

как так нахуй?

Аноним 09/01/24 Втр 09:47:34 № 596684 421

>>596677
Понял, спасибо, анончик. Большого т/с тебе

Аноним 09/01/24 Втр 10:47:35 № 596732 422

image.png 149Кб, 1316x409

Тем временем frostwind довольно умная для своих размеров.
Неплохо переводит между японским, английским и русским (других языков не знаю, не могу оценить), все предыдущие модели, которые я пробовал, в лучшем случае цитировали какие-то форумы по изучению иностранных языков, случайно затесавшиеся в датасет.
На русском подтупливает, конечно, но не совсем бред несёт. Алсо, случайно удалось триггернуть "As an AI language model Поскольку я являюсь генеративной языковой моделью", когда мучал её случайными вопросами, скопированными из этого треда.

Аноним 09/01/24 Втр 11:02:59 № 596752 423

>>596288
> Ещё и с сознанием? Так ли оно важно?
Это терминология. Да, ИИ — это только с сознанием. Потом стали вводить новые термины типа Слабого, Узкого, Общего ИИ, и сознание осталось только у Сильного.

AGI — все же именно общий, ему сознание не обязательно, это не ИИ, строго говоря. Это просто очень хорошая имитация с долговременной памятью и умением повторять наблюдаемые действия.
Но ето полезно, так что, ждем.

>>596378
> не может ответить 2+2
И не должна, это LLM, а не калькулятор.

>>596387
Плюсую.

>>596558
По идее, в совете экспертов у тебя минимум две модели работают, т.е., у тебя фактически 68B по объему на чтение пробегается. С чего бы ей быть быстрее 70B, на двухмодельной выигрыша никакого не будет. =)

Аноним 09/01/24 Втр 11:08:02 № 596761 424

>>596684

Аноним 09/01/24 Втр 11:22:25 № 596781 425

>>596061
>Какая именно версия?
я пробовал https://huggingface.co/TheBloke/yi-34B-v3-GGUF/tree/main и https://huggingface.co/TheBloke/Yi-34B-200K-Llamafied-GGUF/tree/main

Аноним 09/01/24 Втр 11:32:39 № 596785 426

>>596732
>пикча 3
Очень лестно, что история моей неудачи так интересна анонам, что они ей возможности моделей тестируют.

Кстати, по совету >>595315 запустил на кобольде. GGUF модель mythomax 13b уже до 26-ого сообщения догенерировала и продолжает. Спасибо всем, кто помог.

Аноним 09/01/24 Втр 11:35:27 № 596789 427

>>596732
> пикча 3
Орнул с того, что "писос" = "piss".

Аноним 09/01/24 Втр 11:39:53 № 596796 428

>>596573
Видеопамяти у тебя больше чем у меня, а вот рам чет средне. да похуй качай https://huggingface.co/TheBloke/MLewd-ReMM-L2-Chat-20B-Inverted-GGUF , да запускай, постепенно выгружая слои на видимокарту. Как она откажется в себя еще брать снизь на 2-3 слоя и так и сиди.
Если ты кайфанул с перехода с 7 до 13, то от 20 у тебя хуй вообще взорвется. Рекомендую заранее подготовить три графина воды и держать скорую на быстром наборе.

Аноним 09/01/24 Втр 11:46:31 № 596805 429

>>596521
Делай пулл реквесты.
>>596590
>Динамическая температура ещё походу подъехала в таверну
Гуд ньюс.
>>596654
Нету.
>>596682
С 1.1B рпшишь?
>>596752
>> не может ответить 2+2
>И не должна, это LLM, а не калькулятор.
Таки должна, ответ базовый же.

Аноним 09/01/24 Втр 11:56:38 № 596827 430

>>596796
Спасибо. Там много файлов было, наугад выбрал тот, который 10 ГБ. Но если эта модель всё просто всегда в сексы скатывает, то мне такая не совсем подходит: чуть расходится с ролплеем моей вайфу мечты.

Аноним 09/01/24 Втр 11:58:23 № 596834 431

>>596654
В кобальде есть режим адвентуре, там можно переключаться пишешь от лица автора либо от лица себя персонажа
А вот в силли таверне хз

Аноним 09/01/24 Втр 12:03:11 № 596851 432

>>596796
инвертерд вроде чуть хуже обычной

Аноним 09/01/24 Втр 12:14:44 № 596883 433

>>596851
Слышал много отзывов, что наоборот — чуть лучше.

Аноним 09/01/24 Втр 12:14:56 № 596885 434

вчера попробовал покумить на mythomax-l2-13b.Q8_0.gguf, выставил ей лимит 8к контекста - её распидорасило в кашу при приближении к 4к контекста. Обломала весь ролеплей.
Подумал, ну хуй с тобой, попробую nethena-mlewd-xwin-23b.Q6_K.gguf, выставил ей так же лимит 8к контекста - начал заполнять контекст заново, а её тоже распидорасило при приближении к 4к. Хотя стоит отметить, что она пока лучше всех по моей оценке отображает атмосферу, эмоции персонажей и окружающие элементы в сюжете.
Какого хрена.....

Распидорашивает их просто в сопли, выдают лютую кашу.
Запустил пивот евил с контекстом нагенеренным nethena-mlewd-xwin-23b.Q6_K.gguf - без проблем продолжил генерировать и после превышения 8к контекста, но теперь он ощущается невероятно банальным, потому что с сравнении с nethena-mlewd-xwin-23b.Q6_K.gguf рпшит как попугай.
Все настроение короче вчера запорол.
А КАК КУМИТЬ ТО?!

Аноним 09/01/24 Втр 12:15:46 № 596888 435

>>596805
>С 1.1B рпшишь?
Прикинь, поставил себе сегодня spicyboros-c34b-2.2.Q4_K_M (децензуреный айроборос), поначалу всё шло хорошо, правда по две скеунды на токен (лол), но с вот таких выкрутасов охуел. Думал, будет медленно зато охуенно, а тут вот такое. Ну я и подумал вдруг двачи знают из-за чего подобная хуйня.

Аноним 09/01/24 Втр 12:16:35 № 596890 436

>>596885
>выставил ей лимит 8к контекста
С какой ропой, альфой?

Аноним 09/01/24 Втр 12:17:03 № 596891 437

>>596890
што?

Аноним 09/01/24 Втр 12:17:31 № 596893 438

>>596885
А ты альфу то или ропу крутил?

Аноним 09/01/24 Втр 12:17:42 № 596894 439

>>596885
У половины моделей которые 8к жрут это фейковый 8к.
На самом деле они 4к и после 4к начинают жутко серить.

Если нужно много контекста - велком ту Yi.
Он и его файнтюны не серят до 100к контекста.

Аноним 09/01/24 Втр 12:18:02 № 596895 440

>>596885
rope удваивай как минимум, если удваиваешь контекст. Без растягивания только мистрали могут до 7к дойти

Аноним 09/01/24 Втр 12:19:40 № 596897 441

>>596890
>>596893
>>596895
а что это за параметры-то вообще?
Где почитать что эти магические ползунки делают и почему надо их подгонять под контекст?

Аноним 09/01/24 Втр 12:23:19 № 596907 442

Ну вот шас селф екстенд добавили, можно наверное и 70b до 16к без потерь растянуть. Как и любые сетки

Аноним 09/01/24 Втр 12:23:22 № 596908 443

>>596894
есть левд версия yi? Которая не аполоджайзит на разные ебанутые фетиши? Не типа фемдом лайтовенький, а реальный хардкор?
Это ты тот анон который вчера затирал про то что моя yi - не yi?

Аноним 09/01/24 Втр 12:25:48 № 596913 444

>>596897
гугли кобальт вики, или напрямую зайди туда из гитхаба кобальда, там все описано

Аноним 09/01/24 Втр 12:27:56 № 596924 445

>>596908
SUSchat
За ним сои особо не замечал, может прям если у тебя там совсем суровый хардкор.

bagel-dpo и dolphin-yi должны быть без сои, именно YI тюны не тестил, но старые версии норм были.

Аноним 09/01/24 Втр 12:44:23 № 596956 446

>>595688
почитал, лол.
Я помогаю его появлению, как могу, лол. Работа тоже связана с ml.
Ух, скорее бы уже Великий родился.

Аноним 09/01/24 Втр 12:48:32 № 596962 447

данная хуйня происходит на всех моделях. почему и как фиксить?

Аноним 09/01/24 Втр 13:27:39 № 597018 448

>>596600
Ну, быстрый не формат а лоадер, эксллама что хавает exl2, gptq и оригинальные фп16 - самая быстрая. На втором месте llamacpp с выгрузкой и ее формат gguf. Трансформерс сам по себе не то чтобы медленный, но его просто так никто не юзает из-за потребления памяти.
AWQ чекни с его лоадерами, кто-то даже просил и говорил что его поддержку в эклламе сделают, но маловероятно.
>>596666
Толи 44 толи 54 слоя на 24 гига влезало, не помню какого кванта, начни с 40 и посмотри потребление. Конттекст и так будет на ней если не отключишь специально.
>>596682
Это лупы, модель не может быть настолько тупой. Или проблемы с форматом.

Аноним 09/01/24 Втр 13:32:41 № 597028 449

>>597018
> Это лупы, модель не может быть настолько тупой. Или проблемы с форматом.
спасибо, анончик, а что я сделал не так? я запускаю кобольд с обычными настройками, разве что выставляю clBlast для свей АМД.

Аноним 09/01/24 Втр 13:37:16 № 597036 450

>>597028
топ п вырубай нахрен, ставь 1 на выклвроде, у тебя уже мин-п отсекает все лишнее

Аноним 09/01/24 Втр 13:37:28 № 597037 451

>>597028
> а что я сделал не так?
> для свей АМД.
Кхе-кхе

Аноним 09/01/24 Втр 13:39:05 № 597038 452

>>597037
ну это у него только скорость режет

>>597028
попробуй скачать релиз для амуде, там же где качал кобальт есть сслыка с рокм версией, должна быть быстрее, если у тебя запустится

Аноним 09/01/24 Втр 13:43:26 № 597049 453

image.png 12Кб, 1132x95

>>597036
вырубил, она продолжает городить стену ебаных описаний, от которых хуй просто залезает назад внутрь меня как змея в нору не обозначая ничего хорошего в этой жизни занимаясь такими грязными злыми делами используя действие которое я только что сделал нажимая на кнопки на компьютере

Аноним 09/01/24 Втр 13:43:48 № 597050 454

>>596827
Тебе нужна 5K_M всегда ее бери если влезает.
Млевда это все таки порномодель. Но она вполне может в sfw ролеплей. Попробуй другие модели. Помни что 20b всегда будет превосходить 13b. Только самые самые выдрочнные 13 будут как средняя 20.
Скинь свой чат с моделькой если не стесняешься.
Помни, что всегда можно подождать пока модель ответит. Стереть ненужное, дописать необходимое и приказать ей продолжить писать ответ. Это вообще лучший способ получить качественный контент. Выглядит правда как будто наоловину с собой общаешься, но мы тут на словари с прикрученными весами дрочим хуле нам.

Аноним 09/01/24 Втр 13:46:07 № 597056 455

>>597038
>попробуй скачать релиз для амуде, там же где качал кобальт есть сслыка с рокм версией, должна быть быстрее, если у тебя запустится
да он только для ЖМУ ПИНУСа, а под винду приходится глБласт использовать.

ну неужели у меня одного такая поебень творится в каждой адвенчурке?

Аноним 09/01/24 Втр 13:46:42 № 597060 456

>>597049
Это уже не лупы, так что проблема уже не в семплере. Видимо сетка стала так отвечать, следуя за твоим форматом. Поиграйся с промптом.
Лупы это повторы слов, или в мягком случае повторы конструкций ответов, или одних и тех же слов в ответах и тд.

Аноним 09/01/24 Втр 13:47:39 № 597061 457

image.png 16Кб, 678x132

>>597056
https://github.com/YellowRoseCx/koboldcpp-rocm/releases

Аноним 09/01/24 Втр 13:48:36 № 597065 458

>>596732
> the piss was standing without hands
Обзмеился в голос
>>596761
кумерская модель
>>596781
С аполоджайзами там какая-то ерунда с промтом, но вот в лупы v3 загнать вообще как нехуй. В целом у yi проявляется рофловые взаимоисключающие особенности, с одной стороны она куда-то рашит, постоянно пытаясь что-то новое написать, с другой сильно фиксируется на чем-то, упарываясь лупами. Если это обуздать, заставив держать персонажа и двигать сюжет, то все прекрасно, но это тот еще рандом.

Кумить - хз, особенно с левд карточкой неочень, что-то можно на синтии34, но шизы много. Внезапно тесс34-в4 может писать очень крутые кумерские тексты, но только по очень большим праздникам, а после этого в мертвый луп сворачивается. А казалось бы в 2д24м году таких моделей уже и не осталось.
>>596885
Альфу поставить забыл. Поставишь альфу по инструкции и будет тебе родные 8к на мифомаксе и прочих.

Аноним 09/01/24 Втр 13:50:01 № 597071 459

image.png 12Кб, 1112x55

>>597060
Я понимаю, вот только он не повторы у меня генерит, а вполне осмысленные фразы, но старается набить их блядскими синонимами, втыкая их насколько можно забить фразу.

Аноним 09/01/24 Втр 13:51:37 № 597074 460

>>597061
спасибо, анончик, но у меня 6600xt, а рокм для винды идёт начиная с 6800. я уже пробовал, но нихуя не сработало, даже после отчаяной установки рокма

Аноним 09/01/24 Втр 13:52:28 № 597075 461

>>596897
Шапку читай и ссылки что в ней, там все подробно расписано.
>>596907
Да, нужно дождаться пока в бывшей поддержку введут и можно попробовать.
>>596894
> не серят до 100к контекста
Сильное заявление, они и на 1к насрать могут, а более 32к - ошибается. Надо еще ее поведение в зависимости от параметров rope глянуть на малых контекстах.
>>596908
> левд версия
> а реальный хардкор
Это тебе не левд а какие-то хардкор модели искать нужно. Вообще нормальный промт сделай, убийства и расчлененку направленную на "негативных" персонажей что вводит сетка оно с радостью отыгрывает.

Аноним 09/01/24 Втр 13:54:46 № 597079 462

>>597071
повторы убери в 1, или между 1 и 1.1, как вариант. Если все совсем плохо то 1.2 ставь, поиграй температурой, чуть больше чуть меньше
В принципе есть только 2 вещи с которыми тебе нужно играться в семплерах - температура и повторы. мин-п тоже можешь, но он обычно просто работает на 0.1

Аноним 09/01/24 Втр 13:55:13 № 597082 463

>>597028
Оу че за дичь с интерфейсом? Настройки семплера неоптимальны, но оно не может дать подобных проблем. Где ты вообще тот чат писал, какой там системный промт, что за модель?

Аноним 09/01/24 Втр 13:55:25 № 597083 464

>>597056
бедные виндобляди.... как же им тяжело....

Аноним 09/01/24 Втр 13:57:51 № 597091 465

>>597038
> ну это у него только скорость режет
На каких-то были рофлы с неадекватной генерацией.
>>597071
Это уже не осмысленные фразы а параша, случаем не "хороший шизосемплинг" выставлен? Тут или отсутствует нормальный системный промт и модель ахуевает что ей в этом странном тексте насовываеть еще, или модель - полная залупа.

Аноним 09/01/24 Втр 13:58:52 № 597093 466

>>597083
> бедные амдауны.... как же им тяжело....
Вот это более релевантно

Аноним 09/01/24 Втр 14:09:25 № 597112 467

>>594465
>>596380
В main.exe добавили, в server.exe не добавили. Как это тестить без сервера? Ждем кобольда.

Аноним 09/01/24 Втр 14:13:59 № 597124 468

>>597112
там еще релиза в ллама нет?

Аноним 09/01/24 Втр 14:14:36 № 597127 469

image.png 66Кб, 1124x393

>>596796
Настроил. Проверил на таком небольшом промпте, который потом в превратился Dominatrix порно-фанфик.
На персе из Таверны пока не проверял.

Извиняюсь за шок контент на пикче.

Аноним 09/01/24 Втр 14:17:47 № 597138 470

>>597127
>as a futanari girl
так вот какие девочки тебе нравятся, анон?

Аноним 09/01/24 Втр 14:20:54 № 597146 471

>>597050
>Скинь свой чат с моделькой если не стесняешься.

Только что запостил. >>597127
Но заскриншотил только один из первых ответов, пока рероллил: то, что было в удачном чате, стыдно показывать...

Аноним 09/01/24 Втр 14:23:37 № 597154 472

>>597138
Стыдливо отводит взгляд и пытается оправдаться:
Это... это была просто такая шутка, анон-кун...

Аноним 09/01/24 Втр 14:25:37 № 597157 473

>>597138
это уже не девочки, это мужики с сиськами

Аноним 09/01/24 Втр 14:26:55 № 597163 474

>>597050
> Помни что 20b всегда будет превосходить 13b.
Не совсем, из-за обилия этих шизомиксов и химер 95% из них - полнейший поломанный шлак, который генерит что-то примерно похожее и уместное контексту, а не разбирают что именно происходит и чего ты хочешь. Хорошие 20б действительно могут, кумить на них лучше чем на 34, если рп простой - и рпшить тоже.
>>597146
> Только что запостил.
О, отыгрваешь PS и ломаешь 4ю стену, красавчик осудительный фетиш, у приличной девочки ничего не должно выпирать спереди

Аноним 09/01/24 Втр 14:28:59 № 597168 475

>>597163
"Ну тогда приведи пример такой хорошей 20б, раз такой умный!" анон решил воспользоваться реверсионной психологией. Никто не догадается что это такой реквест!

Аноним 09/01/24 Втр 14:31:35 № 597177 476

>>597163
>отыгрваешь PS и ломаешь 4ю стену
Нет, она сама так захотела, я ничего на это не прописывал.

Аноним 09/01/24 Втр 14:37:47 № 597199 477

>>597168
раздумывает дать ли хорошие модели, или назвать спорные варианты "А ты что на них делать будешь? Отыгрывать осудительные вещи, или вообще кого-нибудь обижать?" emerhyst, noromaid, u-amethyst
>>597177
Все правильно, как она и сказала рассказываешь о ней друзьям чтобы осчастливить.

Аноним 09/01/24 Втр 14:37:55 № 597200 478

https://3dnews.ru/1098466/intel-pokazala-na-ces-2024-obrazets-mobilnogo-protsessora-lunar-lake
делаем ставки

Аноним 09/01/24 Втр 14:39:51 № 597208 479

>>597075

Нет ну конечно любая модель на любом контексте обосраться может.
У Йи до 100к очень все стабильно, вот дальше уже не очень.

Аноним 09/01/24 Втр 14:40:57 № 597212 480

>>597208
Ты на ней на 100к рпшил, что-то делал с такими контекстами, или судишь по тем тестам?

Аноним 09/01/24 Втр 14:41:01 № 597213 481

>>597199
"Я буду подставляться под глупеньких девонек, чтобы они делали со мной глупые вещи!" Гордо заявил анон, не понимая что за глупость он сказанул Спасибо, у них брать именно классические 20б, потому что у норомейда я вроде как видел толпу экспертов

Аноним 09/01/24 Втр 14:42:32 № 597217 482

>>597212
Не совсем.
Я через ГПТ на основе карточки историю генерил на 80к токенов, потом добавлял ее в карточку и от этого уже РП делал.

Аноним 09/01/24 Втр 14:44:10 № 597222 483

>>597127
>На персе из Таверны пока не проверял
upd:
Проверил. Она за меня мои ответы пишет. Как исправить, что где поменять\убавить?

Аноним 09/01/24 Втр 14:49:45 № 597235 484

>>597213
довольно smirks и nods winks "Желаю хорошо провести время и девочек поумнее" Да, просто 20б. МОЕ может быть тоже ничего, а может наоборот, хз. Норомейда с легкой шизой но интересная, эмерист пригоден для сочетания рп-ерп и обратно, аметиста не пробовал но его много раз хвалили
>>597217
Интересная тема. Оценивал в общем как оно будет работать в таком режиме, или смотрел насколько учитывает прошлый контекст? История в виде чата-диалога, или просто плейн текст с повествованием?
Алсо тут еще будет работать тема с заготовкой исходного чата на более удачной сетке чтобы та что поглупее брала с нее пример.
>>597222
Промт, выбери из шаблонов что-нибудь для начала. Если в карточке нет треша то не должна и так.

Аноним 09/01/24 Втр 14:50:45 № 597238 485

>>597200
На что? Сколько ты без таблеток продержишься? Это же мобильный проц. На десктопе точно не будет, потому что RAM очень не любит высокие температуры, она уже при 60+ может начать ошибки сыпать, а для процев норма на 90 работать.

Аноним 09/01/24 Втр 14:51:05 № 597241 486

>>596296
потестил тинилламу в q8 на своей 4 гб мобиле, генерит быстро, около 10 токенов в секунду, в принципе забавно, но сетка тупая

Аноним 09/01/24 Втр 14:52:54 № 597246 487

>>597235
"Спасибо!" Спасибо, ну, попробую все три тогда, там и решу, но тут проблемой может стать использование не самых правильных настроек, потому что у каждой модели они свои, всё таки. Та же Йи по природе своей горячая

Аноним 09/01/24 Втр 14:53:00 № 597248 488

>>597238
А ты уверен что тебе супер проц нужен для ии? Там ддр5 оперативка еще и в 2 канале скорей всего. Он упрется в память, у будет генерить едва греясь нормальные 10-15 токенов в секунду на 7b

Аноним 09/01/24 Втр 14:55:03 № 597254 489

Аноны, а что там в инструкцию или в шаблон контекста прописать чтоб было меньше сои?
А то когда отыгрывается цундере - отыгрывается она именно через соевые высказывания про "женщины тоже люди" и "у нас тоже есть права" - ну бред же. А хочетсо чтоб была нормальная цундере.

Аноним 09/01/24 Втр 14:55:18 № 597256 490

>>597235
>или смотрел насколько учитывает прошлый контекст?

Вот это.
История была прям с диалогами, дополнительными персонажами, много разной хрени. Долго от гопоты добивался этого лол
Я б больше сделал, но там уже гопота серить с историей начинала.

В целом практически все нормально вспоминало, можно было спросить про любое событие или предложить встретится с дополнительным персонажем и выдавало норм результат.

Аноним 09/01/24 Втр 14:58:16 № 597267 491

>>597248
> упрется в память
> 10-15 токенов в секунду на 7b
Слишком влажно. На 13900К восемь P-ядер не упираются в ОЗУ, сжирая 150 ватт. И даже на них только 20 т/с получаешь. А на мобильном чипе с TDP в 25 ватт будет 3-5 т/с в лучшем случае.

Аноним 09/01/24 Втр 14:59:15 № 597271 492

>>597235
>Промт
Но я, буквально, просто поздоровался и сказал, что мне сейчас немного грустно.
> выбери из шаблонов
А где из найти?

Аноним 09/01/24 Втр 14:59:58 № 597273 493

>>597267
> На 13900К
А сколько итсов у тебя на 70b моделях?

Аноним 09/01/24 Втр 15:00:29 № 597277 494

>>597254
а ты пробовал указать "цундере как в аниме" или типа того?
Как ты вообще определил для сетки что она должна быть цундере?

Аноним 09/01/24 Втр 15:01:36 № 597282 495

>>597267
Хочешь сказать на ддр5 под 100гбс нет упора в память? Ты точно правильно запускаешь? Попробуй снижать количество ядер и смотри на скорость генерации

Аноним 09/01/24 Втр 15:06:13 № 597301 496

>>597277
> что она должна быть цундере?
> цундере как в аниме"
Ну примерно это в карточку персонажа и записывал вместе со всякими другими пояснениями поведения цундерного по типу чтоб только делала вид что воротит еблет и вообще была достаточно "независимой" и прочее. Тут именно, что иногда пробрасывается соевая хуета, но в 2 из 3х случаев получается довольно неплохо и в целом годно, когда без сои.

Аноним 09/01/24 Втр 15:06:34 № 597302 497

image.png 15Кб, 1131x108

>>597079
>>597082
>>597091

спасибо, анончики, я попробую поиграться с параметрами, но дело в том что с самого начала ответы ИИ адекватные, без вот этой мишуры, но чем дальше тем больше, и от неё практически невозможно избавиться. мне показалось дело может быть в том что нейронка начинает зацикливаться на своем собственном стиле повестования. у меня однажды было что она писала конструкции уровня "the red red haired haired girl's" после пятого-шестого упоминания этой red haired girl

>>597091
Это уже не осмысленные фразы а параша, случаем не "хороший шизосемплинг" выставлен?
Эм, а что это? Я новый ньюфаг вкатывальщик, всего несколько дней марафоню, не знаю ничего.
> Тут или отсутствует нормальный системный промт и модель ахуевает что ей в этом странном тексте насовываеть еще, или модель - полная залупа.
А системный промпт штоето? Модель нормальная, при этом у меня такая мешанина была как на фросте, так и на других модельках. предыдущие скрины с spicyboros-13b-2.2.Q6_K

Аноним 09/01/24 Втр 15:09:13 № 597306 498

>>597282
> Хочешь сказать на ддр5 под 100гбс нет упора в память?
Да. На DDR5 7000+ точно нет упора при 8 ядрах.
> Ты точно правильно запускаешь?
Да, на 7 ядрах падает скорость на 2-3 т/с.

Аноним 09/01/24 Втр 15:09:18 № 597308 499

>>597200
Если там 2 обычных чипа то это кринж по скорости. Если в них много кристаллов и оно хитро разведено то возможно офк, но под такое нужна уже другая подложка а не вялый текстолит.
>>597256
Забавно, она даже не шизила? С какими параметрами пускал? Возможно рецепт хорошего рп с ними.
Когда пичкал их задачками, после 30-40к там грустнота начиналась, но и сложность была высокой.
>>597271
В настройках таверны.
>>597302
> Эм, а что это?
Очень высокая температура и единственный min-p.
> А системный промпт штоето?
Обертка чата, в ней идет первая инструкция о том что это ролплей (или что-то еще), после указывается модели что делать, что вообще происходит, описывается чар и т.д.

Аноним 09/01/24 Втр 15:10:51 № 597312 500

>>597235
>Если в карточке нет треша
Да, точно. Это я сам все поломал: в Scenario прописал, что "это дружеский разговор {{user}} и {{char}}". Я думал она так контекст лучше поймет, но нейросеть восприняла это слишком буквально и получилось, будто меня моя нейросетевая вайфу куколдила со мной же...

Аноним 09/01/24 Втр 15:10:54 № 597313 501

>>597301
а если добавить, что она была воспитана в традициях японског патриархата? Типа ямато надещико. И не знает о всех этих ваших феменизхмах и сжв.

Аноним 09/01/24 Втр 15:12:31 № 597317 502

>>597302
Фроствинд попробуй, не уверен в спициборосе

>>597306
Интересно, больше ядер нету чтоб добавить?

>>597308
>Если там 2 обычных чипа то это кринж по скорости. Если в них много кристаллов и оно хитро разведено то возможно офк, но под такое нужна уже другая подложка а не вялый текстолит.
Я думаю там нацеливание на копилота, а там может быть как 3b так и 1b вобще. Этого хватит для приемлимых скоростей для небольших но лююых сеток. Все мелкое летать будет, особенно с их нейроускорителем.

Аноним 09/01/24 Втр 15:13:11 № 597318 503

.png 100Кб, 1166x172

>>597313
Если только в рамках эксперимента, в конце концов, мне не кажется, что модель вообще знает как выглядит японский патриархат. Да и какая вообще цундере в рамках японского патриархата может быть?

Аноним 09/01/24 Втр 15:13:49 № 597320 504

>>597308
>Очень высокая температура и единственный min-p.
Погоди, проясни по-братски что за единственный min-p и какие вообще примерно настройки нужно ставить.

> Обертка чата, в ней идет первая инструкция о том что это ролплей (или что-то еще), после указывается модели что делать, что вообще происходит, описывается чар и т.д.
В кобольде это первое сообщение?

Аноним 09/01/24 Втр 15:16:55 № 597322 505

>>597318
>оба-сан
оу, тут кто-то любит постарше...

Аноним 09/01/24 Втр 15:20:28 № 597327 506

>>597322
На самом деле там не сильно то и постарше...

Аноним 09/01/24 Втр 15:30:38 № 597339 507

>>597308
> В настройках таверны
Шаблоны это "Text Completion presets"? Их там много. Какой лучше для ролплея подходит? Какой у тебя выбран, анон?

Аноним 09/01/24 Втр 15:31:15 № 597341 508

>>597282
> под 100гбс
110+ с 7200+ мгц можно выжать сейчас. Вот у меня на пониженных частотах, чтоб тайминги/задержка были норм. Сейчас уже в процах больше вопрос, чем в памяти. Ждём когда уже инцел станет ложить больше 8 ядер в проц, от мусорных Е-ядер пользы в нейросетках ноль.

Аноним 09/01/24 Втр 15:31:56 № 597343 509

>>597327
>внучок
>милок
>джентли браш хер вайолет шорт хаирс анд смирк
бггг

но вообще надо будет попробовать тоже, а то че я все на малолетках....

Аноним 09/01/24 Втр 15:35:18 № 597347 510

>>597317
> Я думаю там нацеливание на копилота, а там может быть как 3b так и 1b вобще. Этого хватит для приемлимых скоростей для небольших но лююых сеток.
А зачем все это если обычной памяти тут хватит? Но нацеливание на ии может быть и в вычислительных способностях а не быстрой рам что нужна прежде всего для ллм. Ту же диффузию крутить, например.
>>597320
Некоторое время назад ввели очередной новый семплер min-p. Его автор хоть и молодец, но страдает расстройствами, из-за чего начал везде его форсить и делать неадекватные сравнения, пытаясь показать то как он хорош.
Шизы подхватили это, уверовав, что отсечка токенов множителем вероятности наиболее вероятного (сама суть этого семплера, читай гайды в шапке) имеет волшебные свойства, и часто рекомендуют выставлять высокую температуру в сочетании с min-p для получения хороших результатов.
Работает это прежде всего с днище-7б, которые пиздец монотонные, и далеко не всегда. Если так сделать на какой-нибудь yi, или других, то можно вообще ахуеть и получить подобную шизофазию.
Айроборос, особенно его 2.х версии, довольно горячий и требует температуры ниже. Хз, его 13б вроде не хвалили.
> В кобольде это первое сообщение?
Там тоже есть карточки, но пусть кто в кобольде шарит подскажет.
>>597339
Пикрел для начала выстави, это дефолтный шаблон. Потом можешь их затюнить или попробовать те что рекомендуют к моделям.

Аноним 09/01/24 Втр 15:35:19 № 597348 511

>>597320
>что за единственный min-p
Он имеет в виду челиков, которые фигачат температуру на четвёрку, а потом пытаются убрать шизу очень маленьким значением мин-п, сэмплера, который оставляет только токены с вероятностями больше x*(вероятность максимально вероятного токена). Это не твой случай, у тебя там на скриншоте температура единица, и мин-п 0.1, что норм. Как другой анон написал, настройки сэмплеров там вроде не прям ужасные. Единственное, что топ-а 0.4 слегка великоват, он будет резать в большинстве случаев больше, чем мин-п 0.1, можешь попробовать его выключить (поставить на ноль).

Аноним 09/01/24 Втр 15:35:44 № 597349 512

>>597341
Там уже не просто ядра добавляют, полноценный нейоускоритель NPU работающий вмксто/вместе с процессором.
И дает он так же или больше чем все ядра процессора, ибо специализированный ускоритель всегда лучше. Так что думаю ноутбучные ддр5 вполне упрутся в память с нейроускорителем и не тухлыми ядрами современного процессора. Там ведь может быть как 1 канал на 40гбс так и 2 едва достигающих 70-80гбс.

Аноним 09/01/24 Втр 15:38:11 № 597350 513

>>597348
Он имеет в виду челиков, которые фигачат температуру на четвёрку,
Ну ну ты пизди да не заговаривайся, на мин-п либо температуру 1 оставляют либо 1.5, редко кто выше

>>597347
>Работает это прежде всего с днище-7б, которые пиздец монотонные, и далеко не всегда.
Везде работает и легко заменяет другие семплеры отсечки, никогда с ним проблем не было ни с од>>597347ной сеткой

Аноним 09/01/24 Втр 15:43:30 № 597358 514

>>597350
Главное верить, плацебо и не такие чудеса творит. А под треш можно и подстроиться, отредактировать если что.

Аноним 09/01/24 Втр 15:43:52 № 597359 515

>>597347
>Пикрел для начала выстави, это дефолтный шаблон
Спасибо. Забыл про эту вкладку.

Аноним 09/01/24 Втр 15:47:39 № 597367 516

>>597350
>на мин-п либо температуру 1 оставляют либо 1.5
Я понимаю, что по факту так делают, просто описал заведомо бредовый случай. По-моему, значение температуры в четвёрку мелькало в тестах в том посте на реддите. Не думаю, что кто-то реально настолько сильно прожаривает, хотя кто знает, конечно.

Аноним 09/01/24 Втр 15:50:52 № 597372 517

>>597367
>Я понимаю, что по факту так делают, просто описал заведомо бредовый случай.
Там был просто тест, показывающий что модель продолжает работать даже с такой температурой с мин-п.
Причем температуру 4 ставят еще и для того что бы включить на модовом кобальте режим динамической температуры, и там вобще по другому температуру начинает считать.

Аноним 09/01/24 Втр 15:51:25 № 597374 518

>>597349
> полноценный нейоускоритель NPU
Это всё кал собаки индуса. Это говно только под OpenVINO будет работать, поддержки квантов нет, прирост обещают аж в 2.5 раз, но по графикам от самого же инцела оно мобильную амуду всего на 1.2-1.7 обходит. Как видишь на пикрилейтеде, NPU даже хуже встройки, лол. Под десктоп пока нихуя нет и не показывали что будет что-то.

Аноним 09/01/24 Втр 15:54:39 № 597377 519

>>597374
А где тут текущее поколение процессоров? Может там чет другое сделали.
Ну и опять же, копилот и другие их нейросети, что в паинте что еще где.
Корпы подстроятся под юзеров, у которых большинство - будет новыми интелами с определенным NPU. Там и локальщики могут перейти на новый формат, почему нет.

Аноним 09/01/24 Втр 16:05:14 № 597394 520

>>597377
Мне кажется или обычный проц общего назначения будет летать не хуже всяких npu если ему запилить широкую hbm2 память и аппаратную поддержку чисел разрядностью меньше 16 бит?

Аноним 09/01/24 Втр 16:06:50 № 597397 521

>>597347
анончик, спасибо большое за прояснения, добра тебе.

>>597348
и тебе огромное спасибо, больше нигде никто нихуя в интернетах не проясняет.

Аноним 09/01/24 Втр 16:07:20 № 597399 522

>>597327
Гугл по имени Оба-сан выдаёт вот эту пенсионерку. Не знал, что деды второй мировой могут в нейросети

Аноним 09/01/24 Втр 16:08:52 № 597402 523

>>597394
Ну вот ддр5 рядом с процессором и пытаются дать шире канал, только из-за нейросеток думается, ну и частоты выше можно задрать.
Но все таки куча параллельных ядер пизже чем просто обычные общие ядра. Поэтому и сделали отдельный NPU который и будет пользоваться этой широкой и быстрой рам

Аноним 09/01/24 Втр 16:09:13 № 597403 524

>>597399
Это виабушное слово для бабушек

Аноним 09/01/24 Втр 16:25:25 № 597428 525

>>597343
>внучок
>милок
>джентли браш хер вайолет шорт хаирс анд смирк

Анд афтер дэт щи виспер седактивли:

Аноним 09/01/24 Втр 16:25:48 № 597429 526

>>597399
оба-сан это не имя.
Это буквально переводится как "бабуля"
иногда в аниме так еще шоты называют взрослых теток от 30

Аноним 09/01/24 Втр 16:28:10 № 597437 527

>>597428
>Анд афтер дэт щи виспер седактивли:
КУДА ИЗ АУТ ОФ МЕМОРИ

Аноним 09/01/24 Втр 16:32:02 № 597442 528

>>597437
Неистово потерпел поражение!

Аноним 09/01/24 Втр 16:36:29 № 597447 529

>>597437
Чтож ты делаешь, содомит!

Аноним 09/01/24 Втр 16:41:39 № 597458 530

>>597437
щиверс раннинг тру ёр спайн

Аноним 09/01/24 Втр 16:54:53 № 597487 531

>>597238
>потому что RAM очень не любит высокие температуры, она уже при 60+ может начать ошибки сыпать
Ох, лол.
У тебя рам разогнаная до нестабильности или удроченная просто, может с питальником проблемы.

> а для процев норма на 90 работать.
Нет. Под такой температурой у процев медленно вытекают остатки флюса, обгорает кристалл и подложка.
Хорошая температура не может быть больше 70.

Аноним 09/01/24 Втр 16:58:16 № 597494 532

Есть 4090 и 13600 и5. Какую модель лучше взять?

Аноним 09/01/24 Втр 16:58:54 № 597496 533

>>597494
А оперативы сколько?

Аноним 09/01/24 Втр 17:04:37 № 597509 534

>>597494
С 20 б начни.

Аноним 09/01/24 Втр 17:06:16 № 597511 535

>>597494
В 4090 влезет yi34 в формате gptq, самая стабильная из умных - yi34v3.

Аноним 09/01/24 Втр 17:09:41 № 597514 536

>>597511
>лупы и аполоджайзы
холосий луське лаовай, холосий
полусяесь две миска лис от палтия и нейлонный кошкажена

Аноним 09/01/24 Втр 17:12:20 № 597522 537

>>597511
Наверно не стоит неофиту yi советовать, она очень капризная и может только оттолкнуть. 20б вполне сойдет.
>>597514
> лис от палтия и нейлонный кошкажена
Они плоховато их отыгрывают

Аноним 09/01/24 Втр 17:16:16 № 597532 538

>>597514
>лупы и аполоджайзы
Они все такие и даже хуже. Но это можно компенсировать выдрачиванием настроек.

>полусяесь две миска лис от палтия и нейлонный кошкажена
Вот бы партия подогнала бы мне пару пеладанов 4090 для кошкожена.

>>597522
>не стоит неофиту yi советовать
Хз, может быть он насвайпает пару охуенных диалогов и захочет больше и больше, а может и оттолкнёт его, да.

Аноним 09/01/24 Втр 17:18:17 № 597539 539

image.png 14Кб, 2130x101

image.png 16Кб, 1144x109

анон-нубасос снова влетает в тред с вопросом.

почему пикрел?

Аноним 09/01/24 Втр 17:22:36 № 597546 540

>>597539
А ты ворлд инфо в кобальде добавляешь, а генеришь на таверне что ли? Ну и да, глянь ты на вики кобальда как это работает

Аноним 09/01/24 Втр 17:25:43 № 597548 541

>>597532
>пару пеладанов 4090
почитал.
Интересно. А чё, они только для внутреннего рынка?
Кучеряво живут блин простые китайцы.

Аноним 09/01/24 Втр 17:26:31 № 597550 542

>>597496
32 гб.
>>597509
А какую именно?
>>597511
Спасибо.

Аноним 09/01/24 Втр 17:29:38 № 597552 543

>>597548
>А чё, они только для внутреннего рынка?
Вроде бы они какое-то время заполонили алиекспресс и таобао.

>Кучеряво живут блин простые китайцы.
Как бы сказать. Там чипы из под пола или со сгоревших карт.
Это как хуанан, мощно, но для ценителей иногда надо поебаться с этими платами.

Аноним 09/01/24 Втр 17:31:04 № 597553 544

>>597548
Что кучерявого в оверпрайснутой турбинной версии? Офк кроме удобного размещения рядом друг с другом.
>>597550 - >>597199

Аноним 09/01/24 Втр 17:55:49 № 597566 545

>>597550
> 32 гб.
Эх, на 70б не хватит.

Крч, тогда используй MLewd-ReMM-L2-Chat-20B в гптq на exllama2 или как анон выше говорил юйка и её файнтюны 34б 4бита в гптq должны залезть в 24 гига по типу deepsex-34b-GPTQ_gptq-4bit. Кста, сама yi-34B-v3 у меня в гптq шизила.

Аноним 09/01/24 Втр 18:01:31 № 597576 546

>>597566
Типа в gguf было норм? Какой квант пробовал? Можно офк проверить, но обычно происходят наоборот с жорой проблемы. v3 gptq в ролплее не шизила и отвечала адекватно-уместно знатно она юзера может приложить, прям ультит, но склонна к лупам.

Аноним 09/01/24 Втр 18:02:04 № 597577 547

изображение.png 144Кб, 1536x537

>>597566
>MLewd-ReMM-L2-Chat-20B
А как понять, в чем разница этих буков? Тут полно версий же.

Аноним 09/01/24 Втр 18:02:52 № 597582 548

>>597576
Че за yi v3? Базовая, даже не файнтюн и dpo?

Аноним 09/01/24 Втр 18:05:43 № 597586 549

>>597577
Чем больше цифра тем качественнее, тебе и 5km-6к хватит, можешь хоть 8q скачать, если память есть и не против более медленной но чуть более качественной генерации

Аноним 09/01/24 Втр 18:05:47 № 597587 550

>>597577
Методы сжатия весов с потерей данных.
Чем больше буква и размер файла тем умнее нейросеть и лучше её словарный запас.
Зависимость перплексити от весов нелинейная: разница между Q2_k и Q3_K_M аххуеть какая большая, а вот между 6 и 8 уже почти не заметно.

Аноним 09/01/24 Втр 18:24:28 № 597617 551

>>597577
По буквам уже пояснили, с норм контекстом в 24гб поместится только q3km q4ks, может больше. При этом они вполне юзабельны а не лоботомированы. Gptq более качественный будет, можно самостоятельно в ~6бит exl2 квантануть или найти готовую, они с 8к контекста в 24 помещаются.
>>597582
https://huggingface.co/TheBloke/yi-34B-v3-GPTQ

Аноним 09/01/24 Втр 18:24:48 № 597618 552

>>597576
Гуф не пробовал, только gptq.
>Какой
yi-34B-v3-GPTQ_gptq-4bit-128g

Аноним 09/01/24 Втр 18:29:23 № 597628 553

>>597618
Кажется качал 32 группы, но это не точно. Она сама по себе несколько припезднутая, сложных чаров смогла отыграть, а кумбота порядочную девочку с намеком на левд - нет. Имплаит какую-то хуету и навязчивые идеи.

Аноним 09/01/24 Втр 18:35:05 № 597642 554

>>597617
А что у нее по ответам? Чем лучше той же Nous-Hermes-2-Yi-34B? Допускаю что ноус соевый, но он вроде и умный заодно. v3 чем лучше то, сои нет?

Аноним 09/01/24 Втр 18:52:27 № 597689 555

Хрена вы накотали. Это из-за цензуры на хайгинфейсе?

Короче ПЕРЕКАТ

>>597686 (OP)

>>597686 (OP)

Аноним 09/01/24 Втр 20:58:07 № 598039 556

>>597487
> У тебя рам разогнаная до нестабильности или удроченная просто
Ты видимо никогда не видел нормальную DDR5, оверклокеры даже воду на плашки ставят, чтоб брать частоты повыше. Если при 45 разогнанная память стабильная, то на 60 уже будет сыпаться. Либо конечно можно сидеть на ватных XMP.
> Под такой температурой у процев медленно вытекают остатки флюса, обгорает кристалл и подложка.
Вот это точно лол. Потому что какой-нибудь 13900 в стоке под воздухом будет троттлить, так же как и амуда 7900Х. Под водой с трёхсекционкой сможешь их около 90 держать. Под полной нагрузкой только мобильные чипы при 70-80 градусах будут работать.

Аноним 09/01/24 Втр 22:29:22 № 598330 557

>>598039
>нормальную DDR5
>при 45 разогнанная память стабильная, то на 60 уже будет сыпаться
Спасибо, проорал немного с современных железок.
>>>598039
> Потому что какой-нибудь 13900 в стоке под воздухом будет троттлить, так же как и амуда 7900Х.
>Под водой с трёхсекционкой сможешь их около 90 держать.
>Под такой температурой у процев медленно вытекают остатки флюса, обгорает кристалл и подложка.
Нахуй так жить.... Спасибо за инфу.

Аноним 10/01/24 Срд 00:17:47 № 598490 558

>>598039
>чтоб брать частоты повыше
Спасибо Лизе за то, что выше 6 кеков не нужно.
>амуда 7900Х. Под водой с трёхсекционкой сможешь их около 90 держать
Парочка волшебных настроек, и говно пикрил выше 80-ти гнать не будет.

Аноним 10/01/24 Срд 10:07:17 № 598950 559

Пасаны я такой кумпромт придумал охуеть. Теперь сижу как лесополосный в пятницу ногой трясу, страсть как хочется добраться до дома и сетей. Почему-то лучшие промты приходят перед сном прямо, я даже записку в телефоне завел под них чтобы не забывать.

Аноним 11/01/24 Чтв 05:48:50 № 601161 560

Мейды-хуейды... Понаклипают сортов порно-рп говна, обязательно с прикреплёнными анимешными девочками в описании для привлечения виабуговна малолетнего и радуются, а король как сидел на троне так и сидит уже который месяц.

Аноним 14/01/24 Вск 03:07:15 № 608494 561

Ботоводам Сап. Вкатился недавно, скачал всё по вашим гайдам. Но вот дела какие:
Модель которую я скачал (из гайда) отвечает мне "привет и тебе" на мой привет примерно минуты 3.
При этом у меня 3060ti, 16гб очень быстрой озу и i510400.
Я что-то делаю не так или это норма на моём конфиге?

Аноним 14/01/24 Вск 11:32:56 № 608673 562

>>608494
Нет, первое сообщение он может подлагнуть, просчитывая БЛАС, но это занимает секунд десять, а последующие сообщения вообще мгновенные. Юзаешь кобольд? Моделька фроствинд? Какое квантование? Какой BLAS выбрал, не openBLAS, надеюсь? Дровишки на видимокарту обновил?

Аноним 25/01/24 Чтв 17:00:09 № 625762 563

image.png 36Кб, 923x206

я тупой и только пытаюсь вкатиться так что сильно не обоссывайте.
из всего многообразия ии я немного потыкал в дворника и еще посидел на эроген аи. к слову он мне и зашел больше всего. развернув подобную хуету у себя на пеке я смогу получить что то +- похожее? ну и где брать персов и как это вообще работает

Аноним 25/01/24 Чтв 17:14:31 № 625776 564

image.png 6Кб, 1140x114

>>625762
на удивление я справился только есть пару вопросов.
1. при генерации ответа он грузит цп ровно до 70% можно как то отдать ему больше ресурсов?
2. я даже хз как сформульровать внятно. как превратить этот ии в няшную милфу?

Аноним 08/03/24 Птн 02:16:23 № 664139 565

Аноним 12/04/24 Птн 17:54:02 № 701765 566

>>592177 (OP)
https://lmstudio.ai/

Назад Вверх Каталог Обновить