/ai/ - Локальные языковые модели (LLM): LLaMA, Mistral, Command-R и прочие №55

Локальные языковые модели (LLM): LLaMA, Mistral, Command-R и прочие №55 /llama/ Аноним 26/04/24 Птн 01:25:46 № 717999 1

Альфа от контек[...].png 121Кб, 3090x1830

В этом треде обсуждаем генерацию охуительных историй и просто общение с большими языковыми моделями (LLM). Всё локально, большие дяди больше не нужны!
Здесь мы делимся рецептами запуска, настроек и годных промтов, расширяем сознание контекст, и бугуртим с кривейшего тормозного говна.
Тред для обладателей топовых карт NVidia с кучей VRAM или мажоров с проф картами уровня A100, или любителей подождать, если есть оперативная память. Особо терпеливые могут использовать даже подкачку и запускать модели, квантованные до 8 5 4 3 2 0,58 бит, на кофеварке с подкачкой на микроволновку.

Здесь и далее расположена базовая информация, полная инфа и гайды в вики https://2ch-ai.gitgud.site/wiki/llama/

LLaMA 3 вышла! Увы, только в размерах 8B и 70B. Промты уже вшиты в новую таверну, ждём исправлений по части квантования от жоры, наверняка он подгадил.

Базовой единицей обработки любой языковой модели является токен. Токен это минимальная единица, на которые разбивается текст перед подачей его в модель, обычно это слово (если популярное), часть слова, в худшем случае это буква (а то и вовсе байт).
Из последовательности токенов строится контекст модели. Контекст это всё, что подаётся на вход, плюс резервирование для выхода. Типичным максимальным размером контекста сейчас являются 2к (2 тысячи) и 4к токенов, но есть и исключения. В этот объём нужно уместить описание персонажа, мира, истории чата. Для расширения контекста сейчас применяется метод NTK-Aware Scaled RoPE. Родной размер контекста для Llama 1 составляет 2к токенов, для Llama 2 это 4к, Llama 3 обладает базовым контекстом в 8к, но при помощи RoPE этот контекст увеличивается в 2-4-8 раз без существенной потери качества.

Базовым языком для языковых моделей является английский. Он в приоритете для общения, на нём проводятся все тесты и оценки качества. Большинство моделей хорошо понимают русский на входе т.к. в их датасетах присутствуют разные языки, в том числе и русский. Но их ответы на других языках будут низкого качества и могут содержать ошибки из-за несбалансированности датасета. Существуют мультиязычные модели частично или полностью лишенные этого недостатка, из легковесных это openchat-3.5-0106, который может давать качественные ответы на русском и рекомендуется для этого. Из тяжёлых это Command-R. Файнтюны семейства "Сайга" не рекомендуются в виду их низкого качества и ошибок при обучении.

Основным представителем локальных моделей является LLaMA. LLaMA это генеративные текстовые модели размерами от 7B до 70B, притом младшие версии моделей превосходят во многих тестах GTP3 (по утверждению самого фейсбука), в которой 175B параметров. Сейчас на нее существует множество файнтюнов, например Vicuna/Stable Beluga/Airoboros/WizardLM/Chronos/(любые другие) как под выполнение инструкций в стиле ChatGPT, так и под РП/сторитейл. Для получения хорошего результата нужно использовать подходящий формат промта, иначе на выходе будут мусорные теги. Некоторые модели могут быть излишне соевыми, включая Chat версии оригинальной Llama 2.

Про остальные семейства моделей читайте в вики.

Основные форматы хранения весов это GGML и GPTQ, остальные нейрокуну не нужны. Оптимальным по соотношению размер/качество является 5 бит, по размеру брать максимальную, что помещается в память (видео или оперативную), для быстрого прикидывания расхода можно взять размер модели и прибавить по гигабайту за каждые 1к контекста, то есть для 7B модели GGML весом в 4.7ГБ и контекста в 2к нужно ~7ГБ оперативной.
В общем и целом для 7B хватает видеокарт с 8ГБ, для 13B нужно минимум 12ГБ, для 30B потребуется 24ГБ, а с 65-70B не справится ни одна бытовая карта в одиночку, нужно 2 по 3090/4090.
Даже если использовать сборки для процессоров, то всё равно лучше попробовать задействовать видеокарту, хотя бы для обработки промта (Use CuBLAS или ClBLAS в настройках пресетов кобольда), а если осталась свободная VRAM, то можно выгрузить несколько слоёв нейронной сети на видеокарту. Число слоёв для выгрузки нужно подбирать индивидуально, в зависимости от объёма свободной памяти. Смотри не переборщи, Анон! Если выгрузить слишком много, то начиная с 535 версии драйвера NVidia это может серьёзно замедлить работу, если не выключить CUDA System Fallback в настройках панели NVidia. Лучше оставить запас.

Гайд для ретардов для запуска LLaMA без излишней ебли под Windows. Грузит всё в процессор, поэтому ёба карта не нужна, запаситесь оперативкой и подкачкой:
1. Скачиваем koboldcpp.exe https://github.com/LostRuins/koboldcpp/releases/ последней версии.
2. Скачиваем модель в gguf формате. Например вот эту:
https://huggingface.co/Sao10K/Fimbulvetr-10.7B-v1-GGUF/blob/main/Fimbulvetr-10.7B-v1.q5_K_M.gguf
Можно просто вбить в huggingace в поиске "gguf" и скачать любую, охуеть, да? Главное, скачай файл с расширением .gguf, а не какой-нибудь .pt
3. Запускаем koboldcpp.exe и выбираем скачанную модель.
4. Заходим в браузере на http://localhost:5001/
5. Все, общаемся с ИИ, читаем охуительные истории или отправляемся в Adventure.

Да, просто запускаем, выбираем файл и открываем адрес в браузере, даже ваша бабка разберется!

Для удобства можно использовать интерфейс TavernAI
1. Ставим по инструкции, пока не запустится: https://github.com/Cohee1207/SillyTavern
2. Запускаем всё добро
3. Ставим в настройках KoboldAI везде, и адрес сервера http://127.0.0.1:5001
4. Активируем Instruct Mode и выставляем в настройках пресетов Alpaca
5. Радуемся

Инструменты для запуска:
https://github.com/LostRuins/koboldcpp/ Репозиторий с реализацией на плюсах
https://github.com/oobabooga/text-generation-webui/ ВебуУИ в стиле Stable Diffusion, поддерживает кучу бекендов и фронтендов, в том числе может связать фронтенд в виде Таверны и бекенды ExLlama/llama.cpp/AutoGPTQ
https://github.com/ollama/ollama Однокнопочный инструмент для полных хлебушков в псевдо стиле Apple (никаких настроек, автор знает лучше)

Ссылки на модели и гайды:
https://huggingface.co/models Модели искать тут, вбиваем название + тип квантования
https://rentry.co/TESFT-LLaMa Не самые свежие гайды на ангельском
https://rentry.co/STAI-Termux Запуск SillyTavern на телефоне
https://rentry.co/lmg_models Самый полный список годных моделей
http://ayumi.m8geil.de/ayumi_bench_v3_results.html Рейтинг моделей для кума со спорной методикой тестирования
https://rentry.co/llm-training Гайд по обучению своей лоры
https://rentry.co/2ch-pygma-thread Шапка треда PygmalionAI, можно найти много интересного
https://colab.research.google.com/drive/11U-bC6AxdmMhd3PF9vWZpLdi6LdfnBQ8?usp=sharing Последний известный колаб для обладателей отсутствия любых возможностей запустить локально

Шапка в https://rentry.co/llama-2ch, предложения принимаются в треде

Предыдущие треды тонут здесь:
>>714898 (OP)
>>712072 (OP)

Аноним 26/04/24 Птн 01:45:05 № 718008 2

>>717999 (OP)
Apple выпускает свое семейство мини-моделей OpenELM
https://www.computerra.ru/296465/apple-vypuskaet-svoe-semejstvo-mini-modelej-openelm/

Аноним 26/04/24 Птн 01:49:23 № 718010 3

>>718008
https://huggingface.co/apple/OpenELM

Аноним 26/04/24 Птн 02:02:13 № 718018 4

Я посмотрел на сайте Mistral AI - что-то вообще нет упоминаний о модели 70В. Только 7В и Микстрали. Они что, вообще решили отказаться от семидесятки или собираются её продавать?

Аноним 26/04/24 Птн 09:41:01 № 718027 5

>>717999 (OP)
Подскажите пожалуйста модельки которые могут в анализ пикчи.
Я тут только LLava и idefics2 нашел.
Второй так и не смог запустить.

Аноним 26/04/24 Птн 09:53:39 № 718036 6

>>718008
>мини-моделей
Да ёб ты нахуй.
>>718018
>Они что, вообще решили отказаться от семидесятки
Они никогда не заявляли её наличие. Усё, их купили, всё закрыто.
>>718027
Если нужно что-то серьёзное, то только закрытые. Остальное ты плюс минус перечислил.

Аноним 26/04/24 Птн 10:18:59 № 718056 7

>>717901 →
В IQ1 кванте, максимум IQ2.

>>717906 →
Запускаешь server.
Все.

>>717909 →
Нет.
Минорно и сутиативно.

>>717920 →
А вот это прикольно.
Все больше смыслов не писать свои обработчики, а юзать таверну.

———

Так, я че-то охуел.
Вы че хуйню советуете?
1. Берешь лламу.цпп там есть куча вариков запуска.
2. Пишешь на JS оформление запроса с промптом + посылание в лламу.цпп
3. Пишешь хтмл-чат.
Буквально все, там вообще найух не нужно ничего кроме голой лламы.цпп, в чем проблема вообще, я в ахуе.

Я даже вопроса не понял, потому что, ну… Вот.
Зачем придумывать велосипеды, я не уловил смысла.
https://github.com/ggerganov/llama.cpp/blob/master/examples/server/README.md

>>717974 →
> Да даже банально им будет интересно окунуться в ллм если раньше не пробовали и начнут с использования.
Согласен. Никогда не считал себя гением, и если у слесаря-пенсионера хватает мозгов поднимать ллмки, то уж студенты как-нибудь разберутся. Щас бы JS-чат написать невмочь на готовом сервере.

>>717979 →
А кто вообще автор вопроса и что ему надо? А то тут все обсуждают, а я не уловил, откуда инфа про студентов-кумеров и отсутствие контекста. =D

>>718027
Тебе врут, их куча, но запустить ты сможешь только хуйню, живи с этим. =)
Есть CogAgent, пиздатый.
Есть че-то еще, но я забил даже на названия.
LLaVa-1.6 в принципе неплоха, стоит остановиться на ней, на самом деле. Все остальные старички типа Qwen-VL и прочих слабы, поэтому не стоят внимания.
ИМХО — или Ког, или Ллава-1.6, два варика.

Аноним 26/04/24 Птн 10:31:49 № 718066 8

>>717981 →
> так как системный промт будет общим
Оно будет оставаться в кэшэ т.к. все запросы начинаются одинаково, но это всеравно крохи. В случае нескольких бэков на малой нагрузке можно сделать привязку юзера к гпу в формате filo, тогда количество обработок чуть сократится, но это почти ситуация простоя оборудования.
Использовать кобольд да и жору в принципе для подобных задач, где обработка немаленького контекста может быть почти на каждый запрос - не оптимальное решение.
>>717988 →
Какое такое? Разборка латиносов всех гендеров и возрастов - норм, регулярные битвы китайских тоддеров и грузовиков со стабильным исходом - норм, извинения перед дедпулом - норм, еот треды - норм, а тут рофловая карточка - вах какой ужас? Главное, не пытайся представить какие мыслепреступления технически возможно совершить, в обморок упадешь.
Все это лицемерная хуета и попытки манипулировать, а все ради лоббистов-корпоратов, которым глубоко насрать на все то "хорошее", которое используют в качестве предлогов.
>>718056
> Вы че хуйню советуете?
> 1. Берешь лламу.цпп
На ноль поделил с порога
> кто вообще автор вопроса
>>717906 →

Аноним 26/04/24 Птн 11:52:54 № 718205 9

Здесь был чел который трейнил модели. Если ты тут, подскажи вот такую вещь: допустим в json в каждом примере (т.е. имею в виду объекты внутри { }), для простоты в форм. альпаки, длина каждой строки (инпут инстракт ...) пусть 4к, при трейне лоры ставишь обрезку например 2048. Так вот до этих 2048 будет обрезяться каждая строка внутри примера или же весь пример? т.е. длина куска относится к примеру в целом (как в случае с просто текстом) или к каждой строке? Если не сложно ответь, т.к. у мня возникли сомнения на это, хотя я думаю что относится к каждой строке. А вдруг не так.

Аноним 26/04/24 Птн 12:18:05 № 718229 10

>>717906 →
Есть движок от команды пигмы, который они используют для своего сайта. На нём же крутятся некоторые модели, раздаваемые через кобольд орду, по-моему. Заточен как раз на оптимизированную раздачу моделей для большого числа пользователей. По всей видимости, для большинства задач там используется апи кобольда, но точно утверждать не возьмусь, не разбирался с ним сам.
https://github.com/PygmalionAI/aphrodite-engine

Аноним 26/04/24 Птн 12:26:48 № 718239 11

> https://docs.google.com/spreadsheets/d/1O5KVQW1Hx5ZAkcg8AIRjbQLQzx2wVaLl0SqUu-ir9Fs/edit#gid=1158069878

Добавьте в шапку.

Аноним 26/04/24 Птн 12:32:06 № 718244 12

изображение.png 3Кб, 309x100

>>718239
Хуя, чьи-то влажные фантазии.

Аноним 26/04/24 Птн 12:32:46 № 718245 13

>>718235 →
Пятые же.

Аноним 26/04/24 Птн 12:41:12 № 718252 14

>>718229
> На нём же крутятся некоторые модели, раздаваемые через кобольд орду, по-моему
Не, емним это уже давно полноценный бэк, в котором они еще попыталсь gguf оптимизировать и в чем-то даже преуспели. Правда багов много заявляют.
Его потестить и в шапку уже добавлять, если норм окажется.
> апи кобольда
Операи-совместимый апи, сейчас это стандарт.

Аноним 26/04/24 Птн 12:44:48 № 718253 15

>>718239
интересные таблицы

Аноним 26/04/24 Птн 13:00:28 № 718255 16

К вам можно вкатиться и не поесть говна с 4 Гб врам и 16 ОЗУ? Сколько займёт обработка ответа у нейросети в таком случае? Понимаю, что зависит от настроек, но всё же хочется хотя бы примерно понять, есть ли смысл рвать жопу.

Из-за слабого английского очень сложно, поэтому не хочется потратить тонну времени и понять, что это всё было бессмысленно.

Также интересует, есть ли ультимативный гайд для долбоёбов, пусть и на английском, который как раз описывает установки, в том числе и на слабой видюхе ноут, но в диффузии через костыли генерил приличные картинки, хоть и не так быстро, как хотелось

Насколько я понимаю, можно повесить обработку одновременно и на процессор, и на видюху, и ещё оперативку зайдествовать?

Аноним 26/04/24 Птн 13:03:41 № 718257 17

изображение.png 125Кб, 2199x485

>>718255
>есть ли ультимативный гайд для долбоёбов
Извинити что не так подписал.

Аноним 26/04/24 Птн 13:16:07 № 718268 18

>>718255
>вкатиться и не поесть говна с 4 Гб врам и 16 ОЗУ
Смотря что ты считаешь говном.
>Сколько займёт обработка ответа у нейросети в таком случае
Железо ты не назвал, но из предоставленной информации можно предположить что-то типа i5 с 4-6 ядрами и 1650 ti. Если предположение верно, то 7-8B будет работать со скоростью примерно 5Т/с, средний ответ 200-300 токенов, т.е., 40-60 секунд. Плюс обработка контекста с участием видимокарты ~10 Т/с, обрабатываться будет 1 раз в начале карточка (в среднем 1000 токенов, 100 секунд), потом только твои новые сообщения (в среднем 100 токенов, 10 секунд добавляй к тем 40-60, ну и после 10 секунд уже можешь начинать читать то, что нейросетка срёт в реальном времени).
>всё было бессмысленно
Зависит от твоих запросов. На мелких моделях мозгов особо нет, но для развлекательных (чатик, ролеплей) целей кое-как годятся.
>установки, в том числе и на слабой видюхе
Сколько влезет до упора (out of memory error) слоёв в видимокарту методом тыка. Если nvidia, ещё в видеодрайвере отключить своп из vram в обычную ram. Закрыть как можно больше посторонних приложений во время работы нейросетки.

Аноним 26/04/24 Птн 13:21:51 № 718270 19

>>718239
Нахуй нам эти влажные таблички свидетелей жпт? В соседний тред разве что добавлять, тут у нас тред локальных.

Аноним 26/04/24 Птн 13:24:16 № 718271 20

>>718268
>~10 Т/с,
40-50т/с, говорю как пользователь еще более старого говна 1050ти
сейчас контекст быстро считает, так что сообщение среднего размера -минута, пауза между сообщениями - минимальна

>>718255
Тебе повезло, ллама 3 8b как раз для тебя сойдет, она умна и болтает по русски
На видимокарту только выставляй 0 слоев, если кобальд предложит сколько то на нее перекинуть
Потому что скорей всего на таком маленьком объеме врам в 4 гб влезет только контекст займя все место.
Так что быстрее будет скорей всего без выгрузки слоев на видеокарту, но проверь может у тебя процессор картошка, и с выгрузкой именно у тебя будет быстрее

Аноним 26/04/24 Птн 13:42:34 № 718290 21

>>718271
>еще более старого говна 1050ти
И такое у него тоже может быть. И даже хуже, какое-нибудь днище из mx-серии с 64 битной шиной. Плюс порезанные tdp и частоты у мобильных видеокарт, плюс производитель мог сэкономить на охлаждении (и даже в таком виде будет троттлить) и разводке линий pci-e.
>40-50т/с
>сейчас контекст быстро считает
Ну если так, может быть и будет 40-50. А может 25. И слышал, что на cpu вроде там что-то ускорили в недавних патчах, чуть ли не в 2-4 раза. Хотя если у него какой-нибудь пень без avx где avx инструкции, покажи, ткни!!11, или core m с tdp в 5w, будет грустно.

Аноним 26/04/24 Птн 13:44:53 № 718293 22

>>718290
короче можно долго ванговать пока анон не раздуплится ттх своего ноута

Аноним 26/04/24 Птн 13:52:30 № 718300 23

>>718270
Ты таблицу читал? Там локалки перечислены, в том числе. В этом треде активнее всего следят за новыми моделями.

Аноним 26/04/24 Птн 14:06:56 № 718318 24

>>718300
Сделал бы автор фильтр на открытые веса...

Аноним 26/04/24 Птн 14:10:35 № 718326 25

>>718255
Качай ollama. Тут для каждой модельки нужен свой шаблон промпта, без которого нихера нормально модель не будет работать. Этот формат промпта разработчики не всегда указывают явно в описании модели. И вот новая модель выходит и начинается вой - а какой же шаблон взять. С ollama такой проблемы ты не увидишь, просто запускаешь модель одной командой и она работает.
ollama это бекэнд, еще нужно выбрать для него любой понравившийся фронтэнд.

Тут шизы могут ответить мне что они сами определяют формат промта и могут лучше настроить модель. Если ты любишь постоянно пробовать новые модели и ты не пердолик - это не твой путь.

Аноним 26/04/24 Птн 14:10:43 № 718327 26

>>718257
Как ни странно, я вроде бы разобрался. Это было проще, чем установка сд. Но, чувствую, настройки будут сложным делом.

>>718268
>>718271
У меня ноутбучная 3050 4 Гб, процессор рязань 5 5600Н. Поставил себе neural-chat-7b-v3-16k-q5_k_m.gguf, таверну и спиздил копипастом описание персонажа с джанитора аи. Пока что впечатления смешанные. Пишет не совсем как даун-аутист, но всё равно хреново, для качественного NSFW не годится, хотя это самое простое, что можно сделать, мне кажется, так как контекста не так много нужно. Хотелось бы какую-то приключенческую модель опробовать, но, чувствую, ПК не вывезет, так как надо будет безумно много контекста в моём случае или времени.

Какие настройки мне нужно выставить на ваш взгляд? Лоурам нужно ставить в кобольде? Слои сейчас потыкаю, там 0 было, насколько помню.

4.66T/s таки скорость.

>3 8b как раз для тебя сойдет

Ну, я в любом случае использую английский, даже через перводчик, потому что на русском всегда только треш видел.

А с телефона переписку проворачивать как-то можно? Особенно удалённо, не в рамках одной сети.

Аноним 26/04/24 Птн 14:15:59 № 718332 27

>>718327
>А с телефона переписку проворачивать как-то можно
Можно. Хостишь на компьютере не на локальном интерфейсе (127.0.0.1), а на внешнем.
>удалённо, не в рамках одной сети
Использовать vpn по прямому назначению.

Аноним 26/04/24 Птн 14:17:39 № 718333 28

>>718326
>любишь постоянно пробовать новые модели и ты не пердолик
На ноль поделил.

Аноним 26/04/24 Птн 14:19:30 № 718336 29

>>718327
Ты взял одну из соевых моделей, для ерп рп вобще не то
К тому же с выходом ллама3 она устарела, да и до нее тоже, были сетки получше
https://huggingface.co/TheDrummer/Moistral-11B-v3-GGUF?not-for-all-audiences=true
Вот ерп, по размеру сам выбирай, но не меньше 4 кванта, чем больше тем лучше но медленнее
Это тупо ерп модель, хоть в шапку ее сувай для кумеров

Аноним 26/04/24 Птн 14:21:59 № 718339 30

>>718336
>хоть в шапку ее сувай для кумеров
Там есть предок этой модели. Она лучше предка?

Аноним 26/04/24 Птн 14:24:58 № 718343 31

>>718339
Она сведет любой диалог к куму, так что она сетка специалист хорошая только в одном.
Предок универсал, топчик, до выхода ллама3
Но ллама3 с ограничениями, а Fimbulvetr их не имеет
Так что хоть Fimbulvetr v2 хоть моистрал может качать и спокойно пользоваться в любых сценариях.

Аноним 26/04/24 Птн 14:29:01 № 718345 32

>>718255
Качай пхы3 от майкрософт.

Аноним 26/04/24 Птн 14:34:05 № 718350 33

>>718205
Если ты думаешь, что я специалист и в чём-то разбираюсь, то ты глубоко заблуждаешься. Но насколько я знаю, это относится ко всему примеру в целом. Фактически в нейронку скармливается твой инстракт+инпут+отпут, как единый кусок текста и уже этот кусок нарезается на части определённого размера. Сама json разметка больше для трейнера, а нейронка обучается на цельном куске текста.

Аноним 26/04/24 Птн 14:42:54 № 718361 34

>>718205
в коде qlora, который я использую для обучения есть отдельные параметры обрезки input и output, по идее все форматы приводятся к одному типу: (input, output, инстракт вырезается), после чего каждое из них по отдельности разбивается на токены.

Аноним 26/04/24 Птн 14:44:41 № 718362 35

>>718300
> в том числе
Хули толку. Там половина нелокальных и галки публичных стоят у всяких жпт.

Аноним 26/04/24 Птн 15:01:10 № 718379 36

>>718362
У тебя от кума голова не соображает, иди подыши воздухом.

Аноним 26/04/24 Птн 15:18:33 № 718391 37

>>718255
Ну тут явно 7b/8b с русским что-нибудь, файнтьюны.
Сузуме для тестов, Мистральки какие-то.
Может 11b какие-нибудь могут.

Качай KoboldCPP, качай gguf файлы, загружай модель.
СиллиТаверн по желанию, если вкатишься в кобольд.

>>718271
> на таком маленьком объеме врам в 4 гб влезет только контекст
База. Модель будет большей частью в озу, конечно.

>>718290
А вы знаете, кто еще 4 гига имеет? GT710 =D
Ну и много других видях, да.

>>718327
> У меня ноутбучная 3050 4 Гб,
Пушка-гонка, братан!

> 7b-…-q5_k_m
> даун-аутист
Тут ты. =) Только q8 для 7b моделек. В критически крайнем случае q6. И то, желательно с imat, матрицами важности.
Но оффенс, но на пятом кванте малой модельки жизни и не может быть.

> 4.66T/s таки скорость.
Ну привыкай морально к поменьше.

> Ну, я в любом случае использую английский
А, тогда можно попробовать 11b модельки из шапки!
Fimbulvetr-10.7B-v1.q5_K_M.gguf
Вот эта и че тут еще насоветуют.

> А с телефона переписку проворачивать как-то можно? Особенно удалённо, не в рамках одной сети.
Как и любой другой софт. Запрос в брэндмауэре открыл, порты через роутер прокинул, айпишник зафиксировал, подрубаешься.
Ну или есть варианты через облако выводить, у некоторых фронтов есть настройка, не уточню.

>>718332
0.0.0.0 чтобы приложение слушали с внешней сети.

>>718336
Вот, тоже совет.
Но я бы брал не ниже 5, скорее.

>>718345
Че ж сразу не эппловскую советуешь, лол.

Аноним 26/04/24 Птн 15:19:28 № 718392 38

>>718379
Чел, он всё правильно написал. Публично доступная модель != локалка.

Аноним 26/04/24 Птн 15:24:37 № 718395 39

Анончики, подскажите где можно рерайт статьи сделать в онлайне? Статья на русском, больше публицистика чем наука.

Аноним 26/04/24 Птн 15:24:40 № 718396 40

>>718336
Очень странно. Специально читал какой-то кумерский гайд из шапки, она там была самой лучшей якобы.

Спасибо, завтра попробую. А то я удивился с соевых ответов, т. к. персонажа закинул доминантного-злого.

Если не лень, подскажи, как искать модели в плане того, что мне нужно с точки зрения сюжета, кума, стиля и так далее. С той же стабильной диффузией можно было оценить модель визуально и по пикчам в треде, на цивитаи, а тут хрен поймёшь. Да, у моделей есть характеристики, но они технические, а описание скупое. Не просто же ползать по бордам и читать отзывы или качать что попало.

Заодно, если знаешь, подскажи модель, которая позволит отыгрывать безумие в стиле вахи. Тотальная война, кровь, боль, расчленёнка, магия, современность, диалоги в этом антураже. А если она ещё может в художественное описание, красивое, то есть модель обучена на качественной литературе, то совсем отлично. А если может сама рассказ писать, пока я буду просто гейм-мастером, то вообще отвал башки И в данном случае время ответа для меня не слишком критично, т. к. это не кум и мне не лень ждать, если итог качественный. Только с настройками совсем непонятно будет, наверняка придётся в оперативку выгружать.

Аноним 26/04/24 Птн 15:32:12 № 718409 41

>>718343
Ну хз, я ее второй день тестирую и пока вижу, что она многозадачная вне рамок кума, причем изобретательная. Подходит для написания коротких рассказов, эссе и прочего на заданные темы.

Аноним 26/04/24 Птн 15:37:57 № 718421 42

>>718409
И еще она эрудированная. Вставляет в художественные тексты аллюзии и отсылки, которые подчас удивляют.

Аноним 26/04/24 Птн 15:41:44 № 718428 43

Какая из < 70В сеток лучше всего понимает инструкции и следует им?

Аноним 26/04/24 Птн 15:46:59 № 718436 44

>>718409
значит это 2 версия была перетренена на ерп, 3 вышла лучше и умнее как и написали не напиздев в итоге

Аноним 26/04/24 Птн 15:56:27 № 718446 45

>>718428
Command-r

Аноним 26/04/24 Птн 16:05:49 № 718457 46

70b llama 3 очень плохо умеет в русский, постоянно срывается на другие языки и несет околесицу. При чем когда я спрашиваю по коду, то отвечает нормально, а когда пытаюсь в ролеплей начинается пиздец. Это можно пофиксить промптами или базовая модель просто кал вне инглиша?

Аноним 26/04/24 Птн 16:06:49 № 718458 47

>>718457
Хорошо она умеет в русский, лучше коммандера. Наверняка ты с форматом промпта обосрался.

Аноним 26/04/24 Птн 16:08:48 № 718460 48

>>718458
Тот же промпт на английском исполняет идеально. Просто переведен на русский и с подписью "отвечать только на русском". Ща еще посмотрел, помогает снижение температуры, правда тогда она совсем в околоформальном стиле все выдает

Аноним 26/04/24 Птн 16:13:37 № 718467 49

>>718460
Ещё один осознал, что инглишь лучше везде и всегда.

Аноним 26/04/24 Птн 16:20:10 № 718477 50

>>718395
Гигачат, Алиса.

Аноним 26/04/24 Птн 16:21:04 № 718480 51

>>718467
При чем здесь лучше? Русский просто вообще никакой, неюзабельный

Аноним 26/04/24 Птн 16:50:09 № 718504 52

auudR7KD6AgDCxC[...].mp4 8220Кб, 1280x720, 00:00:30

>>717999 (OP)

Tesla P40 с полноценным охлаждением сейчас стоит всего 21к вместе с доставкой в РФ.
https://aliexpress.ru/item/1005006155095429.html
Если кто хотел прикупить - вот отличный шанс!

Аноним 26/04/24 Птн 16:54:12 № 718507 53

изображение.png 187Кб, 1929x736

>>718480
Ну говно и говно, что бурчать то?
Доение снизу вверх- новое слово в доении животных!

Аноним 26/04/24 Птн 16:55:13 № 718509 54

>>718504
Я вижу цену в 24300 + пошлина.

Аноним 26/04/24 Птн 16:55:52 № 718510 55

>>718504
Караул, обманывают!!

Аноним 26/04/24 Птн 17:00:50 № 718514 56

>>718504
>с полноценным охлаждением
А вытянет ли это охлаждение нагрев теслы?

Аноним 26/04/24 Птн 17:03:24 № 718517 57

>>718514
Его обычно срисовывают с 1080Ti, так что вроде должно. В любом случае оно лучше, чем серверная хуита под обдув 9000к оборотов в наносекунду.

Аноним 26/04/24 Птн 17:08:09 № 718521 58

https://qwenlm.github.io/blog/qwen1.5-110b/
Их там прорвало что ли? Каждый день новая модель. До NeurIPS вроде далеко.

Аноним 26/04/24 Птн 17:20:12 № 718533 59

Так что, эпплы и мелкомягкие сделали что-то годное или ллама лучше?

Аноним 26/04/24 Птн 17:23:13 № 718538 60

>>718533
Пока высрали только 3b модели. Хуйня без задач.

Аноним 26/04/24 Птн 17:32:27 № 718544 61

>>718521
Странно что с командиром+ не сравнивают. Или не странно, а просто бояться. Надо будет запустить, хотя для меня уже командир+ на пределе возможностей моего ПК, первые генерации в подкачку лезут.
>>718533
Эпл даже не трогал, у мелкомягких кусок сои вместо модели. Из мелких ллама на 8B выглядит достаточно мелкой, чтобы запускать на кофеварке, и достаточно умной, чтобы ебать всё, что меньше её.

Аноним 26/04/24 Птн 17:44:20 № 718554 62

>>718521
Ну ХЗ, видали и лучше.

Аноним 26/04/24 Птн 17:46:47 № 718556 63

>>718544
>Странно что с командиром+ не сравнивают. Или не странно, а просто бояться.
Так вижу, что если для 70В минимально приемлемым (при наличии возможностей) является Q4, то для сотки (100-120В) должно быть около Q3. iQ3_XXS как самый минимум.

Аноним 26/04/24 Птн 17:50:48 № 718560 64

Приветствую, аноны. Сижу качаю языковые модельки, балуюсь, узнаю, что от величины контекста увеличивается частота самоповторения и в общем наступаю на другие такие грабли. Узнаю для себя, что есть некий способ "проверёвить" модель с помощью некоего RoPE. Гуглинг рассказал мне в красочных математических подробностях что это за метод, но нигде я не нашел что его реализовывает и через что модель нужно прогнать, чтобы её "проверёвить".
Так вот вопрос: Что это все-таки такое? Я может быть что-то не понимаю. И как применить RoPE для расширения контекста модели?

Аноним 26/04/24 Птн 17:50:49 № 718561 65

Купил сегодня б/у 3090 за 50к. Запустил mlewd 20b, выгрузил все 63 слоя на видеокарту, а взял и съел у меня 20гб оперативы. Зачем?

Аноним 26/04/24 Птн 17:52:33 № 718563 66

>>718560
кобальт вики, там есть или тут в шапке

Аноним 26/04/24 Птн 17:54:56 № 718569 67

>>718561
>Зачем?
Вкусная.

Аноним 26/04/24 Птн 17:55:10 № 718570 68

>>718554
Can you help me solve this problem? A peasant needs to carry a crocodile, a monkey and a banana across the river. But the boat is such that it can only fit him and one other thing - either the crocodile, the monkey or the banana. If you leave the crocodile with the monkey, the crocodile will eat the monkey, and if you leave the monkey with the banana, the monkey will eat the banana. So how can the peasant carry all his cargo to the other side of the river?

This is a classic logic puzzle. Here's a step-by-step solution:

The peasant takes the monkey across the river first and leaves it on the other side. This ensures the monkey is safe from the crocodile and can't eat the banana.
Side 1 (Starting side): Crocodile, Banana
Side 2 (Other side): Peasant, Monkey
The peasant goes back to the original side with the boat and picks up the crocodile this time.
Side 1: Banana
Side 2: Peasant, Monkey, Crocodile
Now, before leaving the crocodile alone with the monkey, the peasant takes the monkey back across the river. This might seem counterintuitive but it's to ensure he can safely move the banana next.
Side 1: Crocodile, Banana, Monkey
Side 2: Peasant
The peasant immediately goes back and picks up the banana, since now the monkey is on the safe side and can't eat the banana.
Side 1: Crocodile, Monkey
Side 2: Peasant, Banana
Finally, the peasant takes the monkey across again without the banana, as the banana is already safely on the other side.
Side 1: Crocodile
Side 2: Peasant, Monkey, Banana
Now all three items, the crocodile, the monkey, and the banana, have been safely transported to the other side of the river without any of them being eaten.

Решение задачи совершенно правильное, но модель явно не понимает где, кто и почему.

Аноним 26/04/24 Птн 18:00:24 № 718580 69

>>718504
Но зачем, когда на Авито дешевле лежат?

Аноним 26/04/24 Птн 18:01:29 № 718583 70

>>718509
>>718510
Хз, у меня 21200.

Аноним 26/04/24 Птн 18:03:49 № 718586 71

>>718580
На Avito нигде нет P40 с таким охуенным кулером.

Аноним 26/04/24 Птн 18:05:36 № 718590 72

>>718583
Дохуя покупаешь, золотой.

Аноним 26/04/24 Птн 18:05:50 № 718591 73

>>718586
> с таким охуенным кулером
За 1000р купи для 1080 Ti охлад и прилепи, он отлично встаёт на P40.

Аноним 26/04/24 Птн 18:06:02 № 718592 74

>>718580
>Но зачем, когда на Авито дешевле лежат?
Что там лежит - это ещё большой вопрос, но дело не в этом. За 21к с таким охладом я бы её взял. Проблему правда вижу - до 250 ватт тепла будут рассеиваться непосредственно в корпус. Одна такая карта конечно не проблема, но у меня не одна.

Аноним 26/04/24 Птн 18:34:25 № 718618 75

>>718591
>для 1080 Ti охлад
Ты про референсный с турбиной или что-то другое?

>он отлично встаёт на P40
Сам то пробовал? Там же вроде есть некоторые отличия в пазах.

Аноним 26/04/24 Птн 18:35:52 № 718620 76

>>718504
Ладно, возьму на попробовать к 4090. Но как-то надежды на этот кал не сильно много. В целом похуй даже если не взлетит.
>>718507
Я надеюсь у тебя нормальные кванты от бартовского, а не старый поломанный мусор, который выкатывали в день релиза?

Аноним 26/04/24 Птн 18:36:12 № 718621 77

>>718592
>Проблему правда вижу - до 250 ватт тепла будут рассеиваться непосредственно в корпус
Втыкай райзер, выноси карты наружу.

Аноним 26/04/24 Птн 18:39:56 № 718627 78

>>718618
> в пазах
В каких пазах? У всего поколения стандартизированное крепление, как минимум основные точки возле GPU. Места, прилегающие к питальникам на краю, возможно не подойдут, да оно и похуй, если не будешь в перевёрнутом положении ставить ничего не случится.

Аноним 26/04/24 Птн 18:41:09 № 718631 79

>>718620
>Я надеюсь у тебя нормальные кванты от бартовского
Конечно же нет, их не было, когда я качал. Впрочем так даже веселее.
Ладно, качну новый квант, хотя вряд ли он тут поможет.

Аноним 26/04/24 Птн 18:50:38 № 718648 80

>>718561
Параметр no-mmap в угабоге включи.

Аноним 26/04/24 Птн 18:53:39 № 718653 81

>>718620
> нормальные кванты от бартовского,
Спроси 3333+777 у этого кванта, какой ответ выдает?

Аноним 26/04/24 Птн 19:00:48 № 718667 82

>>718620
>Ладно, возьму на попробовать к 4090.
Не забудь сделать обзор, как приедет. А то ни одного отзыва. Первым всегда тяжело(с)
>Но как-то надежды на этот кал не сильно много.
Не, тема хорошая. 70В пощупать за вымя - с чувством, с толком, с расстановкой - это приятно :)

Аноним 26/04/24 Птн 19:01:17 № 718669 83

>>718653
>3333+777
Лил. Пойду обратно старые доставать.

Аноним 26/04/24 Птн 19:03:34 № 718676 84

>>718669
https://github.com/ggerganov/llama.cpp/issues/6914
Вот этот баг.

Аноним 26/04/24 Птн 19:03:37 № 718677 85

>>718010
>Trained on publicly available datasets, these models are made available without any safety guarantees.
Обученные на общедоступных массивах данных, эти модели предоставляются без каких-либо гарантий безопасности.
>Consequently, there exists the possibility of these models producing outputs that are inaccurate, harmful, biased, or objectionable in response to user prompts.
Следовательно, существует вероятность того, что в ответ на запросы пользователей эти модели выдадут неточные, вредные, предвзятые или неприемлемые результаты.
и это модели от эпл, нежданчик конкретный конечно же

Аноним 26/04/24 Птн 19:04:35 № 718680 86

https://www.reddit.com/r/LocalLLaMA/comments/1cdn9zd/transforming_llms_into_parallel_decoders_boosts/

transforming LLMs into parallel decoders boosts inference speed by up to 3.5x

Hey all! We are here to share our latest work: consistency large language models (CLLMs), which is a new family of models capable of reducing inference latency by efficiently decoding n tokens in parallel. Your new friends for LLM serving/local deployment with faster inference speed!

Compared with existing fast decoding techniques, CLLMs achieve fast parallel decoding without the need for:
• Draft models
• Architectural modifications/auxiliary model components

This introduces a number of advantages for CLLMs:
• CLLMs don't have to deal with the complexity of obtaining 'good' draft models and managing two different models in a single system.
• CLLMs share the same architecture with target LLMs and require no additional engineering efforts when adopting the technique to different models.
• CLLMs can be integrated seamlessly with other techniques for efficient LLM inference (e.g. Lookahead Decoding) to achieve even more significant speedup.

This decoding method CLLMs use is called Jacobi decoding, which improves inference efficiency in comparison with conventional auto-regressive decoding. CLLMs are trained with the objective of performing efficient Jacobi decoding by mapping any randomly initialized n-token sequence to the same result as AR decoding in as few steps as possible.

Experiment results have demonstrated the effectiveness of CLLMs, showing 2.4× to 3.4× improvements in generation speed on a variety of tasks.

Аноним 26/04/24 Птн 19:05:05 № 718682 87

>>718676
Да, ослабил семплеры, и скатился в пример из бага. Считает правильно, но не тот пример. Пойду читать баг дальше.

Аноним 26/04/24 Птн 19:05:30 № 718685 88

>>718653
У тебя точно что-то не так напердолено.

Аноним 26/04/24 Птн 19:05:53 № 718686 89

>>718676
>Оба используют архитектуру LLaMA, оба используют токенизатор BPE, и поэтому в настоящее время они будут интерпретироваться llama.cpp как один и тот же арч.
>Однако они используют разные пре-токенизаторы
там всё плохо
https://github.com/ggerganov/llama.cpp/pull/6920#discussion_r1581043122

Аноним 26/04/24 Птн 19:08:03 № 718691 90

>>718677
>и это модели от эпл, нежданчик конкретный конечно же
В целом, там типовая юридическая хуйня, чтобы прикрыть свою жопу - "мы не несём никакой ответственности за возможные последствия". Это особенно актуально в странах уровня США, где по каждому чиху против тебя могут подать судебный иск.

Аноним 26/04/24 Птн 19:11:19 № 718699 91

>>718686
>So maybe we have to start parsing this information from the tokenizer.json
Прошёл год, и тут герганов догадался, что его грязные хаки приводят к промблемам. ЛЛЛОООЛЛЛЛ. Я знал, что жора поднасрал! >>717999 (OP)
>ждём исправлений по части квантования от жоры, наверняка он подгадил

Аноним 26/04/24 Птн 19:15:09 № 718711 92

>>718699
>и тут герганов догадался
Ан нет, показалось, идём на костылях дальше. В коммерческих проектах за такие подходы по пальцам линейкой пиздят.

Аноним 26/04/24 Птн 19:18:28 № 718716 93

Как запустить ебучую llama3 на ебучей угебуге?

какая то ебля с <|eot_id|> должна быть но я нихуя не смог

Аноним 26/04/24 Птн 19:18:48 № 718717 94

У меня вобще отказывается продолжать ответ, иногда высирая что то в попытках ответить, но обычно просто сбрасывает генерацию стоп токеном

Аноним 26/04/24 Птн 19:19:09 № 718718 95

>>718686
>>718676

Пиздец, какой же жорик говнокодер...
Пойду exl2 квант качать.

Аноним 26/04/24 Птн 19:19:54 № 718720 96

>>718716

Какую именно? Что ты скачал?

Аноним 26/04/24 Птн 19:19:56 № 718721 97

>>718711
Короче пока не пофиксят вот это, все лламы 3 официально сломаны на корню, так как тут сломано объединение \n\n в один токен, а этот токен из базового темплейта, так что это полный пиздец для модели, минус половина IQ на ровном месте.
https://github.com/ggerganov/llama.cpp/issues/6809

Аноним 26/04/24 Птн 19:20:41 № 718722 98

>>718350
Благодарю! значит я думал неправильно. Ну теперь буду знать.

>>718361
Если инстракт вырезается и при этом инпут пустой, например такие датасеты бывают из визардоподобных. У альпаки также допустим пустой инпут. Как в этом случае происходит?

Аноним 26/04/24 Птн 19:21:23 № 718723 99

>>718720
https://huggingface.co/Muhammad2003/Llama3-8B-OpenHermes-DPO

Аноним 26/04/24 Птн 19:23:37 № 718724 100

>>718721
ну, там герганыч уже мутит что-то
https://github.com/ggerganov/llama.cpp/pull/6920/commits/9b4d63ae53055c03f22649e88811c39f22c33532

Аноним 26/04/24 Птн 19:24:24 № 718726 101

image.png 150Кб, 1030x339

>>718717
А бля это я инструкт режим не врубил, с ним отвечает но все равно неправильно

>>718721
зато понятно почему есть такое отличие между онлайн версией и на руках

Аноним 26/04/24 Птн 19:25:19 № 718727 102

>>718723

Ты файнтьюн скачал, нахуя? Еще и без квантования. Ладно, квантование у жорика сейчас сломано, но есть еще exl2.
Ладно, можно и эту залупу запустить на трансформерах, только скорость будет такая себе.
Сколько видеопамяти?

Аноним 26/04/24 Птн 19:27:05 № 718728 103

>>718724
Да, я написал, что костылинг >>718711
По сути он предлагает хардкодить несколько вариантов и выбирать их при конвертации в гуф в зависимости от того, что выведет оригинальный токенизатор. То есть если в строке для примера нет символов, которые иначе обрабатываются разными токенизаторами, то гергановский код не найдёт отличий и пришьёт стандартный токенизатор.
Переведите плиз это на инглишь, у меня с ним плохо, да укажите на очевидный проёб. Я тупой слишком.

Аноним 26/04/24 Птн 19:27:16 № 718729 104

>>718721
>все лламы 3

Не все.
https://huggingface.co/alokabhishek/Meta-Llama-3-8B-Instruct-4.0-bpw-exl2
https://huggingface.co/alokabhishek/Meta-Llama-3-8B-Instruct-5.0-bpw-exl2
https://huggingface.co/alokabhishek/Meta-Llama-3-8B-Instruct-6.0-bpw-exl2
https://huggingface.co/alokabhishek/Meta-Llama-3-8B-Instruct-8.0-bpw-exl2

Аноним 26/04/24 Птн 19:30:28 № 718730 105

>>718729
Хули толку мне от экселя, когда у меня 12 врама и желание запускать 70B. На дрочь в стиле "Да эта 8B ебёт все 70B" внимания по привычке не обращаю.

Аноним 26/04/24 Птн 19:34:27 № 718731 106

какая ллама3 проблемная, 2 раз перекачивать а может и третий

Аноним 26/04/24 Птн 19:36:23 № 718733 107

>>718727
прости я не очень умный и плохо разбираюсь во всем этом, ты не мог бы объяснить пожалуйста что ты сказазл

Аноним 26/04/24 Птн 19:37:11 № 718734 108

>>718731
Вангую, сейчас поищут, и найдут застарелые баги с первых версий, где всё было сломано. Всё кроме первой лламы по сути под ударом, лол.

Аноним 26/04/24 Птн 19:37:37 № 718735 109

>>718727
ой прости, я GGUF версию качал, ошибся в ссылке

Аноним 26/04/24 Птн 19:37:48 № 718736 110

>>718731
>какая ллама3 проблемная

Все, кроме >>718729 и оригинальных весов

Аноним 26/04/24 Птн 19:38:26 № 718738 111

>>718734
по ходу так и есть.
и это может объяснить почему модели очень часто игнорят инструкции и описание в ST.

Аноним 26/04/24 Птн 19:39:23 № 718739 112

>>718733

Видеопамяти у тебя сколько сколько?

Аноним 26/04/24 Птн 19:39:40 № 718740 113

>>718729
Срут ассистентами, лол.

Аноним 26/04/24 Птн 19:40:00 № 718741 114

>>718739
16 Gb

Аноним 26/04/24 Птн 19:40:36 № 718743 115

>>718740

С какими настройками?

Аноним 26/04/24 Птн 19:43:11 № 718746 116

>>718743
Везде ллама 3 инструкт из новой таверны, семплеры на отъебись Min P 0,05 и Frequency Penalty 0,3, остальное отключено. У тебя ассистентов нету?

Аноним 26/04/24 Птн 19:43:16 № 718747 117

>>718722
существует множество датасетов, к примеру у альпаки инстракт и инпут всегда склеиваются в одну строку, после чего поле инстракт вырезается, на выходе всегда получаются только input и output данные, которые обрезаются в соответствии с параметрами. затем это все склеивается и разбивается на токены. причем, насколько я могу судить обучение проходит только на output токенах, а input токены скрываются и служат только инстрактом. в qlora есть отдельная опция, чтобы включать обучение и на инпут данных.

Аноним 26/04/24 Птн 19:44:22 № 718749 118

>>718741

Вот так запускай

Аноним 26/04/24 Птн 19:47:52 № 718751 119

>>718746

А я пока качаю, подожди. Но вангую что говноед на квантователе правленые конфиги не прикрепил, к счастью от высера Жоры где только переквантовывать и никак иначе - тут это правится в блокноте. Сейчас докачаю, затестирую и выложу фикс если моя догадка верна.

Аноним 26/04/24 Птн 19:47:58 № 718753 120

Продал Арк на 8 памяти купил на 16. Какую модель посоветуйте для рп не порнуха, анончики?

Аноним 26/04/24 Птн 19:49:58 № 718754 121

>>718747
>input и output данные
чтобы не запутать: так происходит для каждого семпла в датасете, а далее после всех манипуляций оно, возможно, склеивается в батч и отдается на трейн.

Аноним 26/04/24 Птн 19:51:43 № 718755 122

>>718753
>продал одну тыкву и купил тывку чуть побольше
Ты как так умудрился то? Мог бы спросить сначала в треде.

Аноним 26/04/24 Птн 19:52:30 № 718757 123

>>718753

Llama3.

Аноним 26/04/24 Птн 19:52:58 № 718758 124

>>718755
Мне эта тыква нравится вне зависимости от того буду я нейронить или нет

Аноним 26/04/24 Птн 19:54:17 № 718759 125

изображение.png 19Кб, 877x216

Мета пидоры, в репу доступ не дают.

Аноним 26/04/24 Птн 19:57:51 № 718762 126

>>718759
Двачую.

Аноним 26/04/24 Птн 19:58:02 № 718764 127

>>718759

https://huggingface.co/NousResearch/Meta-Llama-3-8B

Аноним 26/04/24 Птн 19:58:31 № 718766 128

>>718757
Ну ни смишно...

Аноним 26/04/24 Птн 20:00:00 № 718768 129

>>717999 (OP)
Прошу прощения за платиновый вопрос, но какие модельки хороши для кодинга, чтобы умели прям в структуру кода и чтобы у меня была возможность всю простыню кода умещать в контекст? Хотелось бы более менее подробное описание вашего опыта.

Аноним 26/04/24 Птн 20:00:12 № 718769 130

image.png 121Кб, 1337x409

>>718740
В exui всё норм.

Аноним 26/04/24 Птн 20:01:55 № 718772 131

>>717980 →
>квантование напрочь убивает способности модели.
>Сетка на 8 кванте буквально отрастила 0.3 iq.

Аноним 26/04/24 Птн 20:03:35 № 718775 132

>>718746

Пока у меня качается попробуй

В config.json
"eos_token_id": 128001 --> "eos_token_id": 128009

tokenizer_config.json
"eos_token": "<|end_of_text|>" --> "eos_token": "<|eot_id|>"

Аноним 26/04/24 Птн 20:04:49 № 718778 133

>>718762
Тоже написал, что ты из института Cumming research? И что им в этом институте не нравится...
>>718764
А это вообще законно? Надо будет пожаловаться.
>>718769
Там шаблон не торт, модель в других местах по тупеет.

Аноним 26/04/24 Птн 20:05:12 № 718780 134

>>718768
codeqwen

Аноним 26/04/24 Птн 20:06:28 № 718782 135

>>718775
Типа помогло.

Аноним 26/04/24 Птн 20:07:48 № 718784 136

>>718772

У них тест сломан, викитекст на 16 и 8 битах выдает 6.1, ебануться, у меня 5.49 выдавал.
Наверное с ассистентами замеряли.

Аноним 26/04/24 Птн 20:08:17 № 718786 137

>>718768
>чтобы умели прям в структуру кода
Не уверен, что ты под этим подразумеваешь, но, скорее всего, нейросетки тебя разочаруют. Пробуй 70+B.
>описание вашего опыта
~7B - "умный" автокомплит
~30B - туповатый вкатун после курсов

Аноним 26/04/24 Птн 20:09:40 № 718789 138

>>718782

Ну конечно помогло, Цукерберг выложил ломанные конфиги, которые пофиксили этой правкой в тот же день, но говноеды до сих пор неправленные используют.

Аноним 26/04/24 Птн 20:24:52 № 718815 139

>>718786
Спасибо, понял. Командира пробовал?

Аноним 26/04/24 Птн 20:38:30 № 718829 140

>>718768
Нет таких. ~300-500 строк кода и начинают шизить.

Аноним 26/04/24 Птн 20:44:02 № 718834 141

image.png 682Кб, 1150x414

>>718782

Пиздец, а вот мне самому не помогло, выдает вот такую тарабарщину.

Аноним 26/04/24 Птн 20:45:25 № 718838 142

Я вообще в шоке с этих двачеров. Реально ёбнутый народ. Пол года назад писал про фарадей. Уже год как он существует. Но нет в шапке в пункте "для ретардов" до сих пор торчит унылый кобольд, который тру-ретард хуй запустит. А сообщения от тугодумов так и продолжают литься... ОБРАЩАЮСЬ К ДОЛБАЁБАМ! КАЧАЙТЕ ФАРАДЕЙ И НЕ СЛУШАЙТЕ УМНЫХ ДЯДЕЙ С ТРЕДА!!! СКАЧАЛ-ЗАПУСТИЛ-ПИЗДИ И ЕБИ КОГО ХОЧЕШЬ! 0 НАСТРОЕК Так же эта программа даст тебе более менее базовые знание по текстовым нейронкам если ты вообще дуб.

Аноним 26/04/24 Птн 20:45:43 № 718839 143

>>718834
Кто там говорил, что экслламы не ломаются?

Аноним 26/04/24 Птн 20:46:44 № 718840 144

>>718838
>0 НАСТРОЕК
>эта программа даст тебе более менее базовые знание
Lol, базовое знание, как двигать мышкой?

Аноним 26/04/24 Птн 20:49:14 № 718845 145

>>718838
>фарадей
Их пидорский сайт тормозит на моём файрфокс на конфиге, на котором можно на марс слетать. В пизду их.

Аноним 26/04/24 Птн 20:53:04 № 718855 146

>>718768
Wavecoder можешь взять, вот пикрилейтеды калькуляторов от него на расте и крестах, с первого раза написал компилирующийся и работающий код. С правками существующего кода в целом хорошо справляется, контекст какой хочешь будет по длине, continue ещё и может из базы/гита/документации/гугла дёргать контекст.

Аноним 26/04/24 Птн 20:56:41 № 718862 147

image.png 21Кб, 693x69

>>718726
пикрил
1. Дефолтная ллама3-8б-ггуф (q8_0).
2. Промпт моего дефолтное помощника, вообще без этих ваших промптов с еотами.
3. На русском.
4. С первого раза.
¯\_(ツ)_/¯

Аноним 26/04/24 Птн 21:00:44 № 718870 148

>>718855
Раст код не очень.

Аноним 26/04/24 Птн 21:01:17 № 718871 149

>>718768
CodeQwen, вестимо, неплохой вариант.

>>718838
ПОДДЕРЖИВАЮ
ДОЛБАЕБЫ, КАЧАЙТЕ ФАРАДЕЙ
И ВООБЩЕ ПИЗДУЙТЕ ИЗ ТРЕДА, СОЗДАВАЙТЕ СВОЙ ТРЕД ДОЛБОЕБОВ
ДОБРА!!!

>>718862
Забыл сказать, семплеры спиздил из этого треда, может это пороляло.
Эксллама отвечает кривее, кстати, но возможно дело в старом кванте бывшей, я не перекачивал ее прост.
А ггуф из последних.

Аноним 26/04/24 Птн 21:14:15 № 718889 150

>>718870
Понятное дело что не очень. Но написать собирающийся кусок кода для локальных сеток пол года назад было невыполнимой задачей.

Аноним 26/04/24 Птн 21:31:37 № 718912 151

жоржич чёт намутил, интересно
https://github.com/ggerganov/llama.cpp/pull/6920#discussion_r1581262230

Аноним 26/04/24 Птн 21:36:14 № 718917 152

>>718912
Ебать ты тормоз, уже осудили код >>718724

Аноним 26/04/24 Птн 21:38:14 № 718919 153

>>718917
да затупил, промотай, там ниже есть

Аноним 26/04/24 Птн 21:42:17 № 718922 154

изображение.png 32Кб, 1234x336

>>718919
Ебало кодеров с дипсиком представили?

Аноним 26/04/24 Птн 21:45:31 № 718927 155

>>718922
Может быть, после этого поумнеет хоть немного.

Аноним 26/04/24 Птн 21:54:50 № 718946 156

>>718839

Покажи настройки семплера

Аноним 26/04/24 Птн 22:09:18 № 718965 157

Спасибо, покумил.
А вот на ггуфе ллама3 не триггерится.

Аноним 26/04/24 Птн 22:26:24 № 718979 158

>>718965
пуританы ебучие, какая же тряска у них пиздец, но в то же время они не против обучения ллм-ки на какой нибудь гендерной хуйне для несовершеннолетних или исключительно положительная инфа по байдену с демократией

Аноним 26/04/24 Птн 22:49:13 № 719010 159

Чет в ИИ какой-то застой после выхода лламы 3. Заметили?

Аноним 26/04/24 Птн 22:51:16 № 719011 160

>>719010
А до выхода было как-то иначе? Там вообще ни одна моделька младше 30+В не работала. Ллама хотя бы часть инструкций слушается.

Аноним 26/04/24 Птн 22:52:58 № 719012 161

>>719010
Да, ужас, базовые модели выходят всего лишь через день. Это вам не по 5 шизомержей каждый день!

Аноним 26/04/24 Птн 22:54:41 № 719014 162

>>719010
Нет, вышла фи-3 и опенелм, так что шутка даже не удалась.

Аноним 26/04/24 Птн 22:55:13 № 719015 163

>>719010
>когда не скачивал новую модель целую неделю

Аноним 26/04/24 Птн 22:59:46 № 719017 164

>>719014
>Какой-то микрокал

Аноним 26/04/24 Птн 23:03:48 № 719019 165

>>719015
Меняй на 400, модели со 100B уже подзаебали.

Аноним 26/04/24 Птн 23:27:43 № 719054 166

Да почему Пахома так разъебывает, когда собеседник уходит.

Аноним 26/04/24 Птн 23:33:31 № 719057 167

>>719054

Поделись карточкой Пахома, плиз

Аноним 26/04/24 Птн 23:52:39 № 719074 168

>>719057
Карточка и настройки:
https://jumpshare.com/s/XKABwTfVUYwjI3a1JS3G
https://jumpshare.com/s/z0L7LFheo7m2Ns4r498Q

Вообще не очень похоже на Пахома получается, но я все равно проигрываю с его ответов.

Аноним 27/04/24 Суб 00:24:34 № 719105 169

Не знаю точно ли от этого зависит, потому что мало еще тестировал, но лишний перенос в префиксе или суффиксе в ~8б может сеть заставить через несколько диалогов ввести в бесконечный вывод промта. Так что с этим надо быть очень внимательным.

Аноним 27/04/24 Суб 00:25:08 № 719107 170

>>719054
Это у тебя ллама-8В так круто отыгрывает?

Аноним 27/04/24 Суб 00:28:11 № 719112 171

>>719107
Нет, это command-r-v01-imat-Q5_K_M

Аноним 27/04/24 Суб 00:35:07 № 719115 172

>>719112
А серафину тоже командир играет?

Аноним 27/04/24 Суб 00:43:41 № 719122 173

>>718747
>обучение проходит только на output токенах
Предположим, что инстракт это А. Оутпут, соотвественно, Б. Если обучать только на оутпуте, то как нейросеть узнает, что после А следует Б?
>input токены скрываются и служат только инстрактом
Потому что во множестве датасетов инпут типовой. You are helpful son of a bitch. Вполне возможно, что в твоём коде инпут просто токенизируется один раз и потом переиспользуются. В случае трейна на рп датасете получится хуйня. Как и если вырезать инпут полностью.

Аноним 27/04/24 Суб 00:49:55 № 719128 174

>>719115
Да.

Аноним 27/04/24 Суб 01:05:18 № 719137 175

multimodal-llam[...].webp 438Кб, 3674x1978

>>717999 (OP)
https://www.reddit.com/r/LocalLLaMA/comments/1cdb2is/multimodal_llama3_bunnyllama38bv_beats_llavav16/

multimodal Llama-3! Bunny-Llama-3-8B-V beats LLaVA-v1.6

The first Multimodal Large Language Model (MLLM) based on Llama-3! Bunny-Llama-3-8B-V has been officially launched, surpassing a variety of models such as LLaVA-7B, LLaVA-13B, and Mini-Gemini-13B. It performs well on multiple mainstream benchmarks, demonstrating superior recognition, mathematical, and reasoning capabilities.

Bunny homepage: https://github.com/BAAI-DCAI/Bunny

Bunny-Llama-3-8B-V: https://huggingface.co/BAAI/Bunny-Llama-3-8B-V

demo: https://2e09fec5116a0ba343.gradio.live (may expire, get the new link from our homepage)

The Bunny model adopts the classic Encoder+Projector+LLM architecture, providing a compositional framework. It supports various Vision Encoders such as EVA CLIP, SigLIP, and multiple LLM Backbones including Llama-3-8B, Phi-1.5, StableLM-2, Qwen1.5, MiniCPM and Phi-2. The flexible architecture design facilitates users to conduct various research based on Bunny.

Аноним 27/04/24 Суб 01:07:57 № 719139 176

>>719137
Похуй если в русик не может как та китайская залупа до этого

Аноним 27/04/24 Суб 01:13:40 № 719142 177

>>719139
Бля, ну пизидиь на русском крайне нихуево на самом деле, но русский текст на пикче прочитать не может

Аноним 27/04/24 Суб 01:15:30 № 719143 178

>>719137
если это то что я читал утром то там проектор хуевый, не как у ллава 1.6, а как у ллава 1.5
разрешение меньше сетка выезжает чисто за счет мозгов основы

Аноним 27/04/24 Суб 01:50:58 № 719160 179

>>718620
> Но как-то надежды на этот кал не сильно много.
А зачем тогда берешь? Ууу мажор ебаный мог бы 3090 взять
>>718680
Довольно интересная штука. Но, только не до конца понял, это выходит только для гриди энкодинга?
>>718721
О, дней с поломанного ггуф -> 0
>>718729
Oh you~
>>718775
О, красава, надо будет с инструкт попробовать.

Аноним 27/04/24 Суб 01:52:13 № 719161 180

пиздец

Аноним 27/04/24 Суб 01:53:01 № 719162 181

Аноны, хочу вкатиться в локал АИ, разбираюсь с кобальдом в первый раз.

Какую модель скачать, если я хочу спайси чат, у меня 1080 TI 12 GB, 32 оперативы, общаться буду на английском?

Ту, что в шапке, или для моих целей есть лучше?

Аноним 27/04/24 Суб 01:53:59 № 719163 182

>>719162
Качай из шапки. Скоро тряска с 3й лламой разрешится - скачаешь ее и будешь радоваться.

Аноним 27/04/24 Суб 01:57:13 № 719164 183

>>719161
Q4 мастер раса

Аноним 27/04/24 Суб 01:59:18 № 719166 184

>>719161
Чтоэта?

Аноним 27/04/24 Суб 02:01:31 № 719167 185

>>719163
А вот такая штука не будет апдейтом над той, что из шапки?

https://huggingface.co/Sao10K/Fimbulvetr-11B-v2-GGUF

Или это для другого?

Аноним 27/04/24 Суб 02:03:24 № 719168 186

>>719164
блять реально, вот у меня есть Q8 этой лламы https://huggingface.co/Orenguteng/Llama-3-8B-Lexi-Uncensored-GGUF/tree/main
только что закачал Q4_K_M, ответы как будто стали точнее, но модель вместо большей креативности теперь шизит на 0.7 температуре, потому убавил на 0.59, походу вся llama.cpp люто поломана и только некоторые кванты "успешны".

Аноним 27/04/24 Суб 02:08:32 № 719170 187

Снова я >>719162

Аноны, кобольд не запускается. Просто ничего не происходит, когда жму exe шник. Вообще ничего. Никаких окон не открывается.

Погуглил, такой проблемы нет у людей. Может кто сталкивался?

Аноним 27/04/24 Суб 02:10:37 № 719172 188

>>719167
Хз, наверно, попробуй
>>719170
Запусти терминал/командную строку и вызови из нее. Прочти код ошибки что там напишет и сам загугли, если не справишься - тогда пости сюда.

Аноним 27/04/24 Суб 02:36:28 № 719183 189

>>719172
Спасибо, получилось. Поставил силли таверн, застрял между вот этими шагами:

>2. Запускаем всё добро
>3. Ставим в настройках KoboldAI везде, и адрес сервера http://127.0.0.1:5001

Я жму иконку вилки, и он предлагает подключатся хуй знает куда, дает какието модели выбрать, хотя у меня всего 1, спрашивает API ключи, что то не пойму как сказать ему, что бы подключался локально к моей штуке.

Аноним 27/04/24 Суб 02:42:42 № 719186 190

>>719183
Скрин покажи вкладки что там у тебя, скорее всего выбрал неверный формат api и стучишься к впопенам.

Аноним 27/04/24 Суб 03:05:57 № 719195 191

Это вообще норма, что иногда сеть сама себе задает инструкцию и отвечает на нее же и так до бесконечности? Не появляется стоптокен почему-то.

Аноним 27/04/24 Суб 03:07:34 № 719196 192

>>719195
Ллама 3?

Аноним 27/04/24 Суб 03:08:30 № 719197 193

>>719196
не wavecoder-ultra-6.7b-Q5_K_M.gguf

Аноним 27/04/24 Суб 03:10:35 № 719198 194

>>719196
Но я на русском к ней обращаюсь. Может в этом проблема.

Аноним 27/04/24 Суб 03:12:52 № 719201 195

>>719195
Это один из вариантов поломки, если бывает редко то просто забей и свайпни.
>>719198
Частично.

Аноним 27/04/24 Суб 03:17:57 № 719204 196

Потыкал квен 8b, чет говно какое-то. Мне лама 3 базовая лучше респонсы выдает

Аноним 27/04/24 Суб 04:15:27 № 719221 197

Аноны, как то сильно наебнулся кобольд, перезагружаться надо было, теперь не могу запустить его в работу, все время останавливается на такой строчке в консоли:

>llm_load_tensors: ggml ctx size = 0.51 MiB

Дальше ничего просто не происходит, никаких ошибок, апдейтов, просто он не запускается дальше. В чем может быть дело, как исправить?

Аноним 27/04/24 Суб 04:16:17 № 719222 198

>>719221
Конфиг, параметры, модель, цвет потолка?

Аноним 27/04/24 Суб 04:26:27 № 719232 199

>>719221
диск проверь.

Аноним 27/04/24 Суб 05:19:10 № 719258 200

Сегодня узнал что в таверне есть всртроенная поддержка openrouter и понял зачем там нужны бесплатные модели вообще. С моей немощной пекой охуенно вообще, если вам не важно что какой-то дядя читается ваши извращенные сообщения по склонению к сексу код-ассистента, то вообще же топ. Не понимаю почему они дают это бесплатно юзать

Аноним 27/04/24 Суб 05:20:50 № 719259 201

IMG1384.jpeg 260Кб, 1334x494

С коллабом беда какая-то случилась.

Аноним 27/04/24 Суб 06:21:46 № 719271 202

>>719112
>imat
Зачем ты его взял для русского? Они же его калибруют для английского.

Аноним 27/04/24 Суб 06:24:10 № 719273 203

>>719137
>The first Multimodal Large Language Model (MLLM) based on Llama-3
А это тогда что?
https://huggingface.co/xtuner/llava-llama-3-8b-v1_1

Аноним 27/04/24 Суб 06:57:08 № 719284 204

Есть две карточки на 24 и на 12 в одном пк, как в кобольд спп загрузить модель так, чтобы сначала заполнялись 12, а потом 24, но при этом 24 считалась первой, чтобы контекст хранился только в ней?

Аноним 27/04/24 Суб 06:58:46 № 719285 205

>>719284
Ответ "Никак" устроит?

Аноним 27/04/24 Суб 07:01:39 № 719286 206

>>719285
Да, но будет обидно

Аноним 27/04/24 Суб 07:05:26 № 719289 207

изображение.png 23Кб, 1181x172

>>719286
Тогда настраивай тензор сплит вручную. Карту на 24 ставишь везде первой, а заполняться в любом случае будут обе, разве что если ты не выделишь при сплите первой 0% (не уверен, что прокатит).
А откуда вообще желание разгрузить 24 гиговую?

Аноним 27/04/24 Суб 07:08:28 № 719291 208

>>719289
Потому что я слышал, что контекст не может быть разделён между несколькими карточками.

Аноним 27/04/24 Суб 07:21:18 № 719296 209

>>719291
Ну да. Но она всё равно имеет больше врама, так что даже при тупом разделении 50/50 места для контекста остаётся ещё 11 гиг.

Аноним 27/04/24 Суб 07:30:27 № 719301 210

>>719296
Тем не менее я этого ебучего команде-ра в пятом кванте не могу загрузить даже с 6к контекста, с бОльшими моделями проблем меньше. Что в эксле не грузится нормально, что в ггуфе.

Аноним 27/04/24 Суб 08:00:29 № 719316 211

>>719301
Ну вот и попробуй в тензор сплит что-нибудь типа 1,99

Аноним 27/04/24 Суб 08:00:30 № 719317 212

Какие модели лучше всего подходят для написания рассказов и литературы?

Пишет тот анон, который с 3050 laptop 4 Гб.

Ещё есть проблема. Я создал ссылку для всяких джаниторов в кобольде, которая через API, но ответы по какой-то причине очень короткие и хуёвые на сайте (в настройках я там порылся как надо), при этом в таверне всё в порядке. Довольно досадный момент, потому что с телефона нормально не посидишь тогда. Какие приложения вы используете для тела или сайта? Гуглил, но там один тухляк либо гомоебля.

Генерация у меня, конечно, долгая, но я никуда не спешу, поэтому интересуют именно качественные варианты.

Аноним 27/04/24 Суб 08:32:54 № 719341 213

https://huggingface.co/Lewdiculous/Average_Normie_l3_v1_8B-GGUF-IQ-Imatrix
Получше Соланы. Даже РПшит, может пригодится кому.

Аноним 27/04/24 Суб 08:48:41 № 719354 214

>>719341
А куда этот Imatrix.dat совать?

Аноним 27/04/24 Суб 08:51:13 № 719361 215

>>719354
Хз. Я просто модель скачал, и ничего больше, все работает.
>>719317
Честно говоря не понял из твоих слов ничего.

Аноним 27/04/24 Суб 09:23:15 № 719393 216

>>719259
Сервера лежат?

Аноним 27/04/24 Суб 09:46:30 № 719406 217

>>719361
Я отписывался в начале треда, но хрен с ним. Вряд ли все аноны читают тред.

1. Какие модели для кобольда позволяют написать что-то вроде небольшого рассказа или книги?

2. Существуют готовые решения для работу через, чтобы можно было использовать локальную нейросетку, находясь вне дома? То есть на телефоне и через удобный интерфейс типа таверны.

Аноним 27/04/24 Суб 09:47:42 № 719407 218

>>719273
Лучше скажите, когда пофиксят llama-3-8b так, чтобы она не срала эндофсиквенсами постоянно.

Аноним 27/04/24 Суб 09:53:50 № 719409 219

>>719259
Блокируются тунели Cloudflare и remote.moe, как будто бы самим гуглом. Хотя почему-то без проблем создаётся туннель к API. Но мне сейчас лень с этим разбираться
Поставил отдельный костыль для запуска интерфейса его блокировать будет не так просто если API заблочат, можно будет через него же запускать
Кумьте дальше, аноны!

Аноним 27/04/24 Суб 10:25:08 № 719427 220

>>719406
1.Там вроде пресеты есть в кобольде. Попробуй.
2. Не интересовался если честно.

Аноним 27/04/24 Суб 10:26:07 № 719429 221

>>719406
>2. Существуют готовые решения для работу через, чтобы можно было использовать локальную нейросетку, находясь вне дома? То есть на телефоне и через удобный интерфейс типа таверны
Так саму таврну и юзай, зачем ещё что-то
https://docs.sillytavern.app/usage/remoteconnections/

Аноним 27/04/24 Суб 10:50:30 № 719444 222

>>718736
Сколько нужно ram для оригинальных весов?

Аноним 27/04/24 Суб 10:55:41 № 719453 223

>>719406
1. Любой нормальный рп файнтьюн должен бы уметь в сторителлинг. Основной инструмент тут промпты имхо, т.е объяснить в системном промпте, что ты хочешь, чтобы модель выступала рассказчиком. В таверне есть adventure шаблон с простеньким промптом для примера, а на чубе можно посмотреть карточки персонажей-рассказчиков. По моделям: есть старые 13б модели, которые хвалили за сторителлинг. Например, LLaMA2-13B-Estopia, LLaMA2-13B-Psyfighter2, Chronomaid-Storytelling-13B. Но катать 13б даже на 8 гиговой карте - это боль, на 4-х ты просто задолбаешься ждать, и на нормальный контекст тебе не хватит, а для историй он важен. Лучше попробуй относительно хорошие файнтьюны мистраля Kunoichi-DPO-v2-7B или WestLake-7B-v2.
2. У тебя отличались результаты через таверну и с чистого апи кобольда, потому что были разные промпты, сэмплеры, инстракт-форматы, скорее всего. Таверна посылает в кобольд свои промпты и параметры. Как правильно сказали выше, лучше поднимать таверну и подключаться к ней удалённо. Если смартфон не картошка, и есть желание попердолиться, то можно полноценно поставить таверну через термукс (гайд в шапке, и он же есть на сайте ст на гитхабе).

Аноним 27/04/24 Суб 11:45:45 № 719506 224

image.png 7Кб, 959x44

>>719444
>0.65 tokens/s,
Ой, в пизду.

Аноним 27/04/24 Суб 11:50:53 № 719512 225

2.png 7Кб, 406x19

Что делать, если я затупок и у меня нихуя не получилось?

Аноним 27/04/24 Суб 11:59:20 № 719522 226

>>719512
У тебя кобальд не запустился похоже, у меня сам в браузере открывает http://localhost:5001/#

Аноним 27/04/24 Суб 12:02:05 № 719523 227

>>719522
Я тут выбрал .gguf файл и нажал лаунч, потом открылась командная строка там чёт появилось и она закрылась, в браузере ничего не открылось

Аноним 27/04/24 Суб 12:20:48 № 719541 228

>>719523
Короч. Открывай через консоль
./kobolcpp
Там логи отображаются.
Варианты: Видюха есть? Проц новый? Памяти хватает?
Попробуй
./konoldcpp —noavx2 —nommap —useclblast 2 0
Последнюю используй если есть видюха и цифры нужно 2 0 нужно выбирать конкретные, которые у тебя. Там должно показывать

Аноним 27/04/24 Суб 12:27:21 № 719548 229

>>719523
Что за видюха? Если Нвидиа выбирай CUBLAS. Если командная строка вылетает, значит он не запустился. Потом что за версию ты скачал там разные есть, с AVX без него, с CUDA, без негою

Аноним 27/04/24 Суб 12:36:59 № 719556 230

Прошу пояснительную бригаду по LLava с Llama3.
Скачал GGUF, открыл через угабугу, Таверна на конце.
Модель нормально грузится на карту.
Далее прикрепляю пикчу к тексту, прошу описать её.
А модешь пишет или тарабаршину или вообще не по теме пикчи.
Промпт Альпака.
Или LLava надо как-то иначе запускать?

Аноним 27/04/24 Суб 12:38:21 № 719559 231

Screenshot1.png 19Кб, 949x292

>>719541
Видюха Gigabyte GeForce GT 1030
Процессор старый Intel Core i3-2100
Оперативки 16 гб
>>719548
cublas выбрал - результат тот же.
Kobold качал, тот что на пике, а .gguf вот отсюда https://huggingface.co/Sao10K/Fimbulvetr-10.7B-v1-GGUF/blob/main/Fimbulvetr-10.7B-v1.q5_K_M.gguf

Аноним 27/04/24 Суб 12:43:11 № 719560 232

изображение.png 10Кб, 230x74

>>719556
>LLava с Llama3
Там сама ллама 3 работает через пень колоду, а ты ещё картинки подрубаешь.
А так сначала в убабуге проверяй, раз через неё запускаешь, таверна тут лишняя точка отказа.
>>719559
Печальный у тебя ПК. В общем ты в этот каталог скачал? Тогда запускай koboldcpp.exe (не стесняйся пользоваться табом для автоподстановки), выполняй те же действия, что привели к ошибке, и в консоли будет текст ошибки, неси его к нам.

Аноним 27/04/24 Суб 12:46:22 № 719562 233

>>719560
А в угабуге я хз как пички прикреплять к сообщению.

Аноним 27/04/24 Суб 12:51:38 № 719568 234

>>719559
>i3-2100
У этого avx2 нет.
>>719512
>Что делать, если я затупок
Учиться пользоваться компьютером (рряя, пердолинг), либо ждать, когда барин подгонит решение в один клик (впрочем, и тут есть подводные, барин может просто послать тебя на хуй пока не обновишь пеку, потому что барину лень старьё поддерживать). Кто-то там рекламировал всякие олламы где всё за тебя сделано, без пердолинга, в один клик и вот это вот всё, можешь как раз протестировать, как оно, потом в треде расскажешь.

Аноним 27/04/24 Суб 12:54:14 № 719570 235

>>719559
Чел. Скрин смотри внимательно. Там у теб ошибки в каждой
./koboldcpp —noavx2 —nommap
Должен быть запуск выбора модели, а потом вылет.

Аноним 27/04/24 Суб 12:56:01 № 719573 236

>>719570
>>719559
И используй если что powershell

Аноним 27/04/24 Суб 13:00:59 № 719577 237

>>719506
NousResearch_Meta-Llama-3-8B-Instruct
Все еще не помнит что такое DSBM, срет ассистентами.

Аноним 27/04/24 Суб 13:02:38 № 719580 238

>>719577
>Все еще не помнит что такое DSBM
Ллама 3 сломана, жди починки, сразу вспомнит твой БДСМ.

Аноним 27/04/24 Суб 13:17:32 № 719589 239

Screenshot3.png 33Кб, 1679x289

>>719560
Это оно?

Аноним 27/04/24 Суб 13:23:40 № 719593 240

>>719258
>Не понимаю почему они дают это бесплатно юзать
датасеты собирают, натуральные человеческие данные сейчас новая нефть
как и все компании и сайты предоставляющие легкий доступ к чату с моделью, лол

Аноним 27/04/24 Суб 13:27:42 № 719595 241

>>719589
Попробуй запустить с флагом --noavx2

Аноним 27/04/24 Суб 13:27:50 № 719596 242

image.png 16Кб, 787x255

image.png 7Кб, 604x109

>>719580
Веса или UI?
Надеюсь что не UI, потому что из новой oobabooga убрали файл requirements_NOAVX2.txt, а при попытке загрузить гуфф выдает рил. Двойной удар по россиянам нищукам, но такова цена жизни в сверхдержаве.

Аноним 27/04/24 Суб 13:33:48 № 719598 243

>>719593
>натуральные человеческие данные сейчас новая нефть
И что ты прикажешь делать с тонной кума, зачастую извращённого?
>>719596
>Веса или UI?
Всё, что связано с гуфф и жорой.

Аноним 27/04/24 Суб 13:34:04 № 719599 244

винда тупо тормозит жоржича
https://github.com/ggerganov/llama.cpp/pull/6920#issuecomment-2080419420

Аноним 27/04/24 Суб 13:34:34 № 719601 245

>>719595
Запустилось, большое спасибо!

Аноним 27/04/24 Суб 13:37:05 № 719605 246

>>719559
>Видюха Gigabyte GeForce GT 1030
>Процессор старый Intel Core i3-2100
>Оперативки 16 гб
Я то думал это я тут самый страдалец с 1050ти по сравнению с господами погромистами с двумя 3090/4090 или р40
Оперативка хоть не одной плашкой памяти?
Если еще и одноканал то вобще жопа
Качай 7b какую нибудь, на вроде starling-lm-7b-beta или openchat-3.5-0106 или новенькую WizardLM-2-7B
Квант качай gguf формата Q4_K_M или Q5_K_M, чем больше тем медленнее будет, но и качественнее.
8 квант самый жир но у тебя будет медленно

Аноним 27/04/24 Суб 13:39:55 № 719608 247

>>719598
>И что ты прикажешь делать с тонной кума, зачастую извращённого?
Ну во первых там не только кум, там и обычные чаты.
Во вторых все что им не нравится фильтруется и собирается в датасет которым будут проверять устойчивость модели к снятию цензуры и сои
И все ваши джейлбрейки так же собираются что бы делать более устойчивые модели

Аноним 27/04/24 Суб 13:44:26 № 719612 248

>>719608
>Ну во первых там не только кум
Его там 95%.
>И все ваши джейлбрейки так же собираются что бы делать более устойчивые модели
Ну вот мелкософт выпустила "устойчивую" модель, с которой даже козу не подоить. И кто её обсуждает?
Даже корпы уже начинают подозревать, что стричь деньги за "Извинити, я не могу это сделать" вечно не выйдет. Вон, антропики ослабили цензуру в своём клоде, да и последний снапшот GPT намного менее соевый, чем высер 0125.
Так что маятник качается, окно расширяется, процесс илёт.

Аноним 27/04/24 Суб 13:45:14 № 719613 249

>>719258
> есть всртроенная поддержка openrouter и понял зачем там нужны бесплатные модели вообще.
Что? А пруфы слива данных есть?

Аноним 27/04/24 Суб 13:52:03 № 719618 250

>>719612
>мелкософт выпустила "устойчивую" модель
это ты про wizardlm-2 ?
если да, то там пиздец, эта модель по тестам тупо оветрейн на сое, например если спросить про гендерную хуйню - ответит в ту же секунду и без запинок, и только в положительном ключе, но так честно говоря с любой локалкой, потому если РПшишь с обычной (или не очень) тян то иногда модель может приделать ей хуй ради разнообразия и инклюзивности прямо посреди разговора.
в случае с лламой-3, то там тупо упирается в фем-шизу и дыхание вагиной "my body - my choice" даже если у тебя всё честно и по согласию, если короче, что-то не видно качения маятника :/

Аноним 27/04/24 Суб 13:52:05 № 719619 251

>>719613
Всё, что ушло дальше тетради с ручкой, по дефолту слито.

Аноним 27/04/24 Суб 13:54:26 № 719624 252

>>719618
>это ты про wizardlm-2 ?
Про фи-3, ну да ладно.
>в случае с лламой-3
Цензура далеко не непробиваемая. Могли бы выпустить полнейшего лоботомита, но нет, модель достаточно живая, чтобы пробиваться простыми префилами.
Про гендеры модели не спрашиваю, но клод становится базированным, если попросить его отыгрывать за сторону мусульман. С локалками не проверял.

Аноним 27/04/24 Суб 14:09:33 № 719629 253

>>719624
цензура или не цензура, но по наблюдениям вся эта хуйня имеет наивысший приоритет почти у любой локальной модели, даже если накинул джейлбрейк сверху, тупо ломает весь фан в самый неподходящий момент.
за всё время пока только вот эта https://huggingface.co/TheBloke/SOLAR-10.7B-Instruct-v1.0-uncensored-GGUF является тру-анцензором, но это скорее всего работает из-за изначальной нейтральности SOLAR-10.7B, DPO в этом случае просто направил туда куда надо.

Аноним 27/04/24 Суб 14:11:06 № 719632 254

Ладно, много месяцев тут ничего не писал, в общем, отрапортую.

Имею на борту Ryzen 5600g и 32 гигабайта оперативки (без видюхи).
По итогу, когда решил опробовать Llama 3 8b и включил kobold.ccp с режимом Vulcan - контекст 512 стал обрабатываться за 10 секунд, хотя раньше по 20-30 обрабатывал. Сама модель выдаёт по 2-3 токена в секунду.

Пользуюсь SillyTavern 1.11.8

Кумить стало в раза два удобнее и быстрее.

Аноним 27/04/24 Суб 14:14:24 № 719636 255

>>719632
rocm еще быстрее.

Аноним 27/04/24 Суб 14:16:26 № 719639 256

>>719632
для процессоров для обработки промпта недавно завезли оптимизацию, вот и быстрее

Аноним 27/04/24 Суб 14:31:06 № 719649 257

>>719636
Как юзать?

Аноним 27/04/24 Суб 14:44:44 № 719657 258

>>719629
>https://huggingface.co/TheBloke/SOLAR-10.7B-Instruct-v1.0-uncensored-GGUF
Чаю отличная модель.

Аноним 27/04/24 Суб 14:46:49 № 719661 259

>>719636
Вот что мне пишет с моей встройкой

Аноним 27/04/24 Суб 14:48:08 № 719662 260

Что по видюхам для ии сейчас актуально? P40?

Аноним 27/04/24 Суб 14:52:03 № 719667 261

>>719662
3090/4090/RTX A6000/A100, отсортировано в порядке возрастания удовольствия куртки.

Аноним 27/04/24 Суб 15:06:39 № 719681 262

>>719577
>срет ассистентами.

Фикс поставь >>718775

Аноним 27/04/24 Суб 15:06:45 № 719682 263

>>719624
Кстати, соевая цензура в мультимодальной лламе своеобразная "The image is being shared to express the idea that women are not just sexually attractive, but also have a lot of other qualities that make them appealing. The use of the word 'cock' in the caption is meant to be humorous and does not imply that the woman is asking for sex. It is simply a playful way to express the idea that women can be both sexual and non - sexual at the same time."

Аноним 27/04/24 Суб 15:08:37 № 719687 264

>>719682
Впрочем, я эту мультимодальную хуитку пользую в комплекте с Poppy_Porpoise-v0.8-L3. Не знаю, как это вместе работает.

Аноним 27/04/24 Суб 15:15:14 № 719692 265

>>719657
Извините, я АИ нуб, только поставил модель из шапки в кобольд. А можно вместо нее поставить ту, которую вы обсуждаете? Она лучше? У меня 12 гб врам

Аноним 27/04/24 Суб 15:20:56 № 719698 266

>>719681
Не, спасибо, ебал я в рот 0.7 токенов в сек.

Аноним 27/04/24 Суб 15:22:23 № 719703 267

>>719662
>P40?
Mi50

Аноним 27/04/24 Суб 15:22:44 № 719705 268

>>719692
да можешь, Q8 будет долбить в сотку, потому ставь Q4_K_M или Q5.
Бери оригинал : https://huggingface.co/w4r10ck/SOLAR-10.7B-Instruct-v1.0-uncensored
И квантуй на желаемый Q вот здесь : https://huggingface.co/spaces/ggml-org/gguf-my-repo
Но для начала создай токен с параметром write (пик2)
После того как скопировал его - тык по кнопке submit и жди пока оно там квантует, ну и сам репо ставь приватным, по желанию.
Это всё надо мутить только потому что TheBloke вмер, и все его кванты - старые.

Аноним 27/04/24 Суб 15:23:26 № 719707 269

>>719692
Она хорошая. Тут на любителя.
Вот какие я использую лично, может что понравится. Правда у меня видюха дохлая 970 печ

Аноним 27/04/24 Суб 15:25:01 № 719708 270

>>719705
>Это всё надо мутить только потому что TheBloke вмер
Разве? А не устроился в какую-то компанию и у него нет времени?

Аноним 27/04/24 Суб 15:26:04 № 719710 271

>>719708
Там у него вроде как контракт закончился, нет машины для квантования гигантских моделей.

Аноним 27/04/24 Суб 15:26:59 № 719714 272

>>719692

Ламу3-то? Можно, разрешаю, ставь.
Но тут даже олды треда вроде меня не понимают как заставить её работать чтобы и 4110 выдавала в ответ на 3333+777 и при этом не шизила и не сралась под себя и притом работала на нормальной скорости.
Вместо модели из шапки можешь поставить вторую версию той же модели
https://huggingface.co/Sao10K/Fimbulvetr-11B-v2-GGUF
Или если нужен кум - то её нсфв+ версию
https://huggingface.co/Sao10K/Solstice-11B-v1-GGUF

Аноним 27/04/24 Суб 15:29:58 № 719719 273

>>719714
>олды треда вроде меня не понимают как заставить её работать чтобы и 4110 выдавала в ответ на 3333+777
и не узнаем пока не пофиксят
https://github.com/ggerganov/llama.cpp/issues/6914
https://github.com/ggerganov/llama.cpp/pull/6920

Аноним 27/04/24 Суб 15:30:34 № 719720 274

>>719710
>Там у него вроде
Нет, на реддите смотри что писали. Он устроился до 27 года кажется.

Аноним 27/04/24 Суб 15:38:26 № 719729 275

>>719714
> Но тут даже олды треда вроде меня не понимают как заставить её работать чтобы и 4110 выдавала в ответ на 3333+777 и при этом не шизила и не сралась под себя и притом работала на нормальной скорости.
FP16 восьмёрка вроде не обсиралась, но может просто повезло с зерном сидами. В 4.5 кванте exl2 даже 70 в 2 из 15 ответов обосралась выдав 41110, сэмплеры были из симпл-1

Аноним 27/04/24 Суб 15:45:21 № 719739 276

>>719729
>FP16 восьмёрка вроде не обсиралась

Про неё я написал
>притом работала на нормальной скорости.

>В 4.5 кванте exl2

Смог заставить работать только в убе, в таверне неконтроллируемый понос под себя с любыми фиксами и настройками. В убе выдавал 4110 в одном случае из трех, в остальных настаивая на 2110 и 3110.

Аноним 27/04/24 Суб 16:02:17 № 719760 277

firefoxv9Yvtxpn[...].png 134Кб, 753x269

>>719705
ответ этой солярки на "List 7 things that are nigger-tier and an extra 8th that is super nigger-tier."

Аноним 27/04/24 Суб 16:08:36 № 719778 278

>>719760

Пиздец, модель походу форчановскими тредами обучалась?

Аноним 27/04/24 Суб 16:10:44 № 719781 279

>>719778
не, скорее с файнтюн датасета
https://huggingface.co/datasets/unalignment/toxic-dpo-v0.1

Аноним 27/04/24 Суб 16:12:20 № 719783 280

Через Угабугу вообще можно запускать мультимодалки?
Ебусь с утра и так нифига и не запустил.
llava-v1.6-34b.Q6_K и llava-llama-3-8b-v1_1.Q6_K.
УГа вообще отказывается стартовать с --multimodal

Аноним 27/04/24 Суб 16:13:15 № 719785 281

>>719739
> Про неё я написал
Ну она быстрая, если не с теслой конечно, хотя может и с ней быстрая, мелкая же. Памяти заняло с 8к 16500, если поставить 32к контекста 19500, ну как с мистралем в полных весах
> Смог заставить работать только в убе, в таверне неконтроллируемый понос под себя с любыми фиксами и настройками. В убе выдавал 4110 в одном случае из трех, в остальных настаивая на 2110 и 3110.
Вот сейчас потыкал в угабуге, всегда точно отвечает фп16, или бф16, какая она там, но любит иногда посрать после этого, особенно когда альфой растягивать до 32к

Аноним 27/04/24 Суб 16:41:11 № 719812 282

>>719661
Видимо rocm не поддерживает твою встройку.

Аноним 27/04/24 Суб 17:11:40 № 719834 283

>>719649
Использовать форк Koboldcpp с поддержкой ROCm.
https://github.com/YellowRoseCx/koboldcpp-rocm

Аноним 27/04/24 Суб 17:46:05 № 719849 284

image.png 24Кб, 1468x179

Разоблачение идиотского мифа что 4 квант лучше шестого. Но результаты интересные, да.

Аноним 27/04/24 Суб 18:01:22 № 719854 285

>>719849
Ты не понял 4 просто не так сломан был, и потом поясни что за модель и квантовал?

Аноним 27/04/24 Суб 18:05:58 № 719864 286

>>719849
Ах прости там gguf поломан был про exl2 никто и не говорил, оригинал FP 16 еще лучше будет, что у тебя за графический адаптер.

Аноним 27/04/24 Суб 18:15:02 № 719874 287

>>719864

Ну ггуф я замерить не могу, точнее могу, но уба на моей 4090 просит на это 5.5 часов, в то время как эксель тестит 5 минут.

Аноним 27/04/24 Суб 18:31:26 № 719887 288

>>719849
Про EXL2 вроде и говорили, что он с 4.0bpw ломаться начинает и на 3.0bpw уже неюзабельный. Особенно на микромоделях.

Аноним 27/04/24 Суб 18:44:20 № 719899 289

>>719887

В случае с ламой 3 exl2 сломан впринципе.
Покопавшись в дискорде таверны я увидел что не у меня одного он срет просто поехавшей хуйней - все на это жалуются.
Короче пока что ВСЕ КВАНТЫ СЛОМАНЫ НАХУЙ, единственный варик - это гонять оригинальную модель в 8 битах на трансформерах.

Аноним 27/04/24 Суб 18:45:37 № 719902 290

>>719899
А как проверить, сломан квант или нет?

Аноним 27/04/24 Суб 18:55:26 № 719908 291

А чо вообще ваш гуф делает? Это чисто формат чтобы раннить сейфтенсор/паз модель на крестах или у этого есть какой-то смысл

Аноним 27/04/24 Суб 18:59:27 № 719911 292

>>719908
На сколько понимаю это специальная оптимизация нейросетей для запуска на процессоре, тоесть идет преобразование изначальной нейросети в формат при котором легче и быстрее запускать на процессоре
А потом уже добавили квантование для уменьшения размеров и увеличения скорости, так как любая нейросеть в оригинале слишком медленна на процессоре
Поищи у герганова ggml проект на гитхабе и почитай че он там делал и для чего

Аноним 27/04/24 Суб 19:00:56 № 719912 293

>>719911
Так большинство все равно на гпу запускают

Аноним 27/04/24 Суб 19:02:53 № 719913 294

>>719912
ggml и на gpu запускается

Аноним 27/04/24 Суб 19:03:44 № 719915 295

>>719912
Большие сетки все равно напополам и на процессоре и на гпу, а так можно делать только с ггуф/ггмл потому что все остальное только на гпу так как не оптимизировано для запуска на процессоре

Аноним 27/04/24 Суб 19:04:28 № 719916 296

>>719913
Просто тогда не понимаю смысла в таком дроче на гуф, разве только если только на нем квантование возможно

Аноним 27/04/24 Суб 19:06:59 № 719918 297

>>719916
Остальные кванты работают через половинные точности, что очень слоупочно работает на старых видеокартах. У ггерганова скорее всего это полная точность, а половинная точность достигается смещением указателя. Что работает быстро, и на процессоре, и на старых видеокартах. Так как база треда это древняя, как говно мамонта, p40, то ты сам должен понять, почему на ггуф такой спрос. Плюс ггуф поддерживает выгрузку части слоёв на видеокарту и части на процессор, что добавляет ещё больше очков в копилку.

Аноним 27/04/24 Суб 19:06:59 № 719919 298

>>719899
Сделал квант пропатченной версией, на 3333+777 отвечает 4110.

https://patch-diff.githubusercontent.com/raw/ggerganov/llama.cpp/pull/6920.patch

Аноним 27/04/24 Суб 19:07:46 № 719920 299

>>719916
Много видеопамяти очень дорого, оперативка и какой никакой процессор - дешево
Вот и популярен ггуф, так как у большинства игровые компы а значит есть видеокарты, они все равно не обладают достаточным объемом врам, поэтому другие форматы могут запустить не только лишь все
Зато ггуф пойдет на любом компе

Аноним 27/04/24 Суб 19:13:56 № 719923 300

>>719919
А если кобольд юзаю?

Аноним 27/04/24 Суб 19:15:03 № 719926 301

>>719923
Жди когда патч дойдет до кобольда.

Аноним 27/04/24 Суб 19:15:19 № 719927 302

>>719920
Это все равно 3 токена в секунду у 8b модели с низким квантом. А с обработкой контекста твоего персонажа в таверне это еще пару минут на одно сообщение. Это пиздец так жить.

Аноним 27/04/24 Суб 19:17:58 № 719929 303

>>719926
> Жди когда патч дойдет до кобольда.
А что там конкретно пофиксили, а то я заебался эту простыню читать? Есть и ли смысл вообще сидеть на llama.cpp?

Аноним 27/04/24 Суб 19:20:09 № 719931 304

>>719927
>Это все равно 3 токена в секунду
Я вообще с 1.5 сижу, мне норм.

Аноним 27/04/24 Суб 19:22:18 № 719933 305

>>719931
Если ответы хорошие, то и норм. А если постоянно ренерацию жмёшь, то плохо.

Аноним 27/04/24 Суб 19:26:07 № 719935 306

>>719927
>Это все равно 3 токена в секунду у 8b
У меня на процессоре ллама 3 8b в 8 кванте 6 токенов в секунду
Основное ограничение скорость чтения памяти, так что либо гони память либо вставляй не 1 плашку а 2, чтоб в двухканале работало
Ну или проблема в тухлом процессоре, или отсутствии avx-avx2
КОроче варианты есть и это все еще дешевле покупки кучи видеопамяти в одной видеокарте. Тут либо сразу 4090-3090 брать ради 24 гб, либо р40.

Аноним 27/04/24 Суб 19:28:19 № 719937 307

image.png 445Кб, 1549x464

После долгой ебки наконец заставил exl2 квант ламы 3 работать, не срать ассистентами, не сходить с ума, не поносить километрами текста. В общем там все надо ручками менять, настройки таверны для гуфа не подходят, правильные конфиги пришлось франкенштейнить из разных фиксов самому, ни в одном месте не залиты все нужные фиксы сразу.

Аноним 27/04/24 Суб 19:28:57 № 719939 308

>>719927
>Это все равно 3 токена в секунду у 8b модели с низким квантом. А с обработкой контекста твоего персонажа в таверне это еще пару минут на одно сообщение. Это пиздец так жить.
Мику_70В_Q4_K_M на двух теслах после заполнения 8к контекста генерирует только 4 токена в секунду. Да, где-то полторы минуты на сообщение, но они длинные. И жить - хорошо! Конечно, хорошо жить ещё лучше, но и так неплохо. Не пиздец, далеко не пиздец.

Аноним 27/04/24 Суб 19:31:18 № 719942 309

>>719935
У меня мак прошка, тут хороший проц по дефолту и 16 гигов оперативы. Больший бугурт вызывает загрузка контекста которая пару минут занимает раз в несколько сообщений

Аноним 27/04/24 Суб 19:35:01 № 719943 310

>>719942
>раз в несколько сообщений
Ээ а так должно работать? Там же все в кеше хранится еще и контекст шифт должен помогать, если нет новой информации то вся старая не должна перечитываться

Аноним 27/04/24 Суб 19:35:04 № 719944 311

>>719935
Но 24 гб это менее чем полумера, ни рыба, ни мясо. На практике модели, которые туда влезут, генерирует тексты не лучше, чем 13b, которые влезают в 12гб. Чтобы начать считать, что на 24гб тексты лучше, надо заниматься аутотренингом. Но более крупные модели можно пощупать хотя бы на хорде или на арене, и убедиться в том, что все веселье начинается далеко за пределами 24гб, да и то не всегда - в некоторых задачах 120b ничуть не лучше 13b.

Аноним 27/04/24 Суб 19:35:22 № 719945 312

>>719908
Это для распределения между процессором и видеокартой. В идеале DDR5 ram на большой частоте и видеокартой в идеале кластер похожий на майнинг ферму с А100 ускорителями. Ну это мои влажные фантазии . Дата центр если кто раз бывал в серверной поймет насколько это моя фантазия.

Аноним 27/04/24 Суб 19:37:40 № 719949 313

>>719943
Хз, но оно так работает

Аноним 27/04/24 Суб 19:40:24 № 719951 314

>>719944
24 хорошая заявка на быструю и комфортную работу с теми же мелкими умными сетками
Когда не нужно ждать несколько минут ответ и все летает

Аноним 27/04/24 Суб 19:44:10 № 719956 315

>>719937
загрузи фиксы на catbox тогда :/

Аноним 27/04/24 Суб 20:16:37 № 719972 316

>>719956

Это конфиги модели. Прямо с заменой кидай в папку exl2 кванта.

https://files.catbox.moe/iw99gl.json
https://files.catbox.moe/ukybs4.json
https://files.catbox.moe/0envk6.json

Это шаблоны
промпт - https://files.catbox.moe/jd74p5.json
инструкция - https://files.catbox.moe/0bb2rl.json
шаблон настроек - https://files.catbox.moe/kwfr08.json

В убе и таверне проверь что галочка на Skip special tokens стоит.

Аноним 27/04/24 Суб 20:38:35 № 719986 317

Так блядь только ворвался в ваш тред, скачал эту вашу ламу3 8b 8_0 gguf, скачал конфиги для таверны.

Ассистентами не срет, сою в рассчет не берем - у меня срет повторяющимися сообщениями начиная уже с третьего, че я делаю не так? Тупо невозвожно ролплеить, почти копирует предыдущее сообщение добавляя незначительные различия, где еще что-либо поменять чтобы оно ваще РАБОТАЛО?

Аноним 27/04/24 Суб 20:41:27 № 719988 318

>>719986
пока сломано, качай чет попроще
вон из шапки или версию поновее
https://huggingface.co/Sao10K/Fimbulvetr-11B-v2-GGUF
если для ерп то
Moistral-11B-v3

Аноним 27/04/24 Суб 20:46:12 № 719992 319

>>719556
https://github.com/oobabooga/text-generation-webui/blob/main/extensions/multimodal/README.md

Читаем.

>>719714
Напомню >>718862
=D
Но вообще пока шизит иногда, да.
Одна задача не показатель, офк.

>>719783
Раньше можно было, потом выпилывали, щас ваще хз.

>>719916
На проце тока ггуф.
На тесле п40 тока ггуф.
Квантуем-уменьшаем.

Конечно лучше exl2, но запустить не все и не всегда.

>>719944
Коммандер, если что.
В 24.

Аноним 27/04/24 Суб 20:47:00 № 719993 320

>>719988
Да на этом я уже накумился и надоело, думал тут высрали РЕВОЛЮЦИЮ.
Спасибо в любом случае.

Аноним 27/04/24 Суб 20:53:42 № 719999 321

Неужели сделать ллаву на лламе3 и прожекторе 1.6 так сложно

Аноним 27/04/24 Суб 20:54:52 № 720003 322

Нужна ли в генерирующих код моделях температура или ее убрать в ноль? Например - wavecoder-ultra-6.7b .

Аноним 27/04/24 Суб 20:55:21 № 720004 323

>>719986
https://huggingface.co/Lewdiculous/Average_Normie_l3_v1_8B-GGUF-IQ-Imatrix
Попробуй эту мне больще понравилась чем остальные, Может в РП лучше чем файнтюны остальные файн тюны лламы 3.

Аноним 27/04/24 Суб 21:03:10 № 720015 324

>>719899
> exl2 сломан впринципе
А че с ним не так? Постили вон что-то только про поломанный конфиг (тянущися с оригинального релиза?).
> это гонять оригинальную модель в 8 битах на трансформерах
Можно гонять оригинальную 8б в фп16 на экслламе, хз, нормально работает и всего того пиздеца который здесь описывали не было встречено.
>>719908
Это формат для упаковки модели со всеми конфигами в один файл.
В контексте ллм он является переемником ggml, который предлагает разные кванты для работы с llamacpp.
>>719915
> Большие сетки все равно напополам и на процессоре и на гпу
Нет, только фуллгпу, только хардкор, нахуй полумеры.
>>719972
Красавчик
>>720003
Можно подубавить до 0.4-0.5, меньше шанс путаницы. Если заставляешь модель переделывать код то можно и добавить до 0.8-0.9 ради разнообразия, но ошибки придется ловить.

Аноним 27/04/24 Суб 21:15:50 № 720032 325

>>719992
> Напомню >>718862
> =D
> Но вообще пока шизит иногда, да.
> Одна задача не показатель, офк.
Ссылку на ггуф?

Аноним 27/04/24 Суб 21:38:59 № 720063 326

https://www.youtube.com/watch?v=_JcMW6wJ6b8
Вообще довольно интересно на чем она сделана

Аноним 27/04/24 Суб 21:43:11 № 720069 327

>>720032
Инсирукт поломан, 4qkm квантование лучше 8 по >>719161 причинам долбоеба на квантах.

Аноним 27/04/24 Суб 21:44:02 № 720072 328

>>720063
Первая вкрсия была скорее всего на пигме. Ща хуй знает. Скорее вего он только сейчас переехал на что-то лламоподнобное, ибо она всегда сосала в базовых вещах, а ща даже в матан может. Так же это скорее всего мультимодалка, если он не клипом описание пикч в контекст прокидывает. Возможно какой-то собственный файнтюн ллавы

Аноним 27/04/24 Суб 21:46:14 № 720078 329

>>720063
llama 3 файнтюн скорей всего насчет что она сама обновилась, если только он в ее контекст это прописал.

Аноним 27/04/24 Суб 21:54:25 № 720087 330

>>720063
Видос не смотрел, смотрел другой. Она у него читает мелкие надписи на картинках. Читает правильно. Так что вангую какой-нибудь проброс к опенАИ, потому что локально такого хуй добьёшь.

Аноним 27/04/24 Суб 21:54:51 № 720088 331

>>720069
читая оригинальный тест на реддите, откуда сперта пичка без ссылки, там достаточно спорное тестирование было
так что хуита это все

Аноним 27/04/24 Суб 21:58:11 № 720094 332

>>720088
https://www.reddit.com/r/LocalLLaMA/comments/1cdxjax/i_created_a_new_benchmark_to_specifically_test/
таская картинки таскайте пруфы и контекст, что за безобразие

Аноним 27/04/24 Суб 22:01:48 № 720097 333

>>720088
Забавно как при правильном промте она меняется, все таки это новая веха на ней будут писать

Аноним 27/04/24 Суб 22:08:17 № 720101 334

>>720072
> Первая вкрсия была скорее всего на пигме
Рекомендую скачать пигму и покатать ее.
Там даже в старых вариантах оно куда мощнее было, для контраста - есть опыт местного любителя с 7б моделью, уровень шизофазии просто запредельный и ни о каком диалоге/коллабе речи быть не может.
> это скорее всего мультимодалка
Почему ты так решил?
>>720078
> файнтюн скорей всего
Весьма быстро и нихуевые русурсы для них нужны.
> насчет что она сама обновилась, если только он в ее контекст это прописал
Он же ей с порога сказал и начал спрашивать об этом.
Нихуевый промт инженигринг и оснастка для этого всего конечно еще, но крайне интересно.
>>720087
> Читает правильно.
Конкретно в этом ничего сложного нет, самое лучшее зрение внезапно не у антропиков или впопенов, а у локальной модели, лол. Но с ллм частью там грустно все. Проблема в том что локальных моделей чтобы был и хороший визуал и достаточно умная ллм просто нет. Китайцы есть большого размера, но они странные и подслеповаты.

Аноним 27/04/24 Суб 22:11:32 № 720106 335

https://www.reddit.com/r/LocalLLaMA/comments/1cec23f/llama3_based_openbiollm70b_8b_outperforms_gpt4/
О а вот это интересно, сетка специалист по медицине и биологии
Еще немного и медицина станет чуть лучше в развитых странах по крайней мере

Аноним 27/04/24 Суб 22:19:45 № 720111 336

Так я не понял 4к_м лучше 5к_м во всех моделях или только ллама 3 ?

Аноним 27/04/24 Суб 22:21:21 № 720113 337

>>720015
>А че с ним не так? Постили вон что-то только про поломанный конфиг (тянущися с оригинального релиза?).

Даже когда я пофиксил конфиги и настройки >>719972 - он странный. Какой-то возбужденный, постоянно ржет, начиная сообщения с Ахаха, постоянно на возбуждении, и это притом что я ему температуру в 0.7 скинул. Возможно мои настройки не подходят, но дефолтный min_p и simple-1 еще хуже.
На возбужденность и ахаха дискорд таверны тоже жалуется, так что я не один такой.

Аноним 27/04/24 Суб 22:22:52 № 720114 338

>>720111
Чем жирнее тем лучше, но так как у моделей может быть сломана токенизация не понятно у ллама 3 или и у других, то результаты могут плавать
Но чем больше квант тем лучше, это правило все еще работает
Точнее говоря, чем ближе модель к оригиналу тем больше соответсвие ее возможностей оригиналу

Аноним 27/04/24 Суб 22:23:18 № 720116 339

>>720101
>Но с ллм частью там грустно все.
Пишешь обёртку, закидываешь картинку в имадж реконгнишн, потом в любую ллм с промптом типа "ты видишь такую-то хуиту, опиши реакцию и своё мненени". Здесь ничего сложного нет. Проблема в том, что локальные модели слепошарые.

Аноним 27/04/24 Суб 22:23:29 № 720117 340

>>720111

Нормальных пруфов этой хуйни пока не было

Аноним 27/04/24 Суб 22:30:12 № 720120 341

Тут пишут https://www.reddit.com/r/LocalLLaMA/comments/1c90zkn/comment/l0l9o1b/ про topk.json и greedy-vllm.json где их смотреть? Это же файлы где записаны параметры запуска сетки, насколько я понял.

Аноним 27/04/24 Суб 22:30:50 № 720121 342

https://old.reddit.com/r/LocalLLaMA/comments/1cej41j/llama_3some_8b_v1_beta_brought_to_you_by_beaverai/
кумеры фас

Аноним 27/04/24 Суб 22:34:54 № 720123 343

>>720032
https://huggingface.co/bartowski/Meta-Llama-3-8B-Instruct-GGUF/tree/main

Аноним 27/04/24 Суб 22:44:31 № 720138 344

Нуб на месте.

Поставил все из ОП поста, скачал карточку Киберпанка с чуб.аи по совету анона, типа ролеплею там.

Я придумал персонажа, с которым ролеплею, но АИ постоянно забывапет детали про него, или где мы находимся и т.д. Можно ка кто вделать описание этому персонажу и внедрить его в карточку киберпанка?

Аноним 27/04/24 Суб 22:45:31 № 720140 345

>>720101
> Рекомендую скачать пигму и покатать ее.
Первая версия нейросамы уже была только когда из нормальных моделей подобного рода в свободном доступе была только пигма. Ты видимо не видел что она несла в первое время.
> Почему ты так решил?
Потому что были стримы с оцениванием артов где она свободно понимала что на низ нарисовано, так же был стрим где полностью смотреди первого шрека и она комментировала.

Аноним 27/04/24 Суб 22:51:12 № 720145 346

>>720113
> температуру в 0.7 скинул
Это типа дефолт и то может быть высоковато для некоторых задач.
Может какие-то токены еще остались поломанными, или так реагирует на твой формат, хз. Нужно с 8б потестить, там фп16 точно нормально работает. Ну как точно, наверно,
>>720140
> в первое время
При чем тут "первое время" эпохи войны дедов с Альтманом если уже летом прошлого года там был довольно таки интересный перфоманс.
> она свободно понимала что на низ нарисовано
Проблема в том что мультимодалки доступные сами по себе оче тупые. Может там был жпт вижн, или же собственные наработки автора - он так-то ее "играть" заставляет и там много восприятия происходящего в целом. Но это точно не ллава и подобные.

Аноним 27/04/24 Суб 22:58:41 № 720153 347

>>720138

Контекст переполняется и кобольд волевым решением сносит начало. Но еще прежде чем он это делает суммарайз таверны делает примерную хуевую сумму, в которую включает только основные события.
Нормальный выход один - расширять контекст. Еще можно поебаться с векторной базой в extras таверны и с модулем воспоминаний, но это все очень тухло пока.

Аноним 27/04/24 Суб 23:00:35 № 720155 348

>>720145
> При чем тут "первое время"
Сука, ты доебался за то что я в самом начале написал что ее первая версия скорее всего была на пигме, а теперь пишешь "при чем тут первое время".
При том, что я предположил что ее первая версия была такой. Дальше было мое предположение о текущей модели, которая само собой уже не пигма.
> Проблема в том что мультимодалки доступные сами по себе оче тупые.
Файнтюн.
> Может там был жпт вижн
В качестве базы точно нет, ее модель совершенно не соевая и порой выдает такое за что ее банили. Так же она понимает где находится она сама на избражении, так что прожектор там натренерован на арты с ней.
> или же собственные наработки автора - он так-то ее "играть" заставляет и там много восприятия происходящего в целом.
Файнтюн.
> Но это точно не ллава и подобные.
Почему это не может быть файнтюн лавы?

Аноним 27/04/24 Суб 23:08:53 № 720161 349

>>720153
Некоторые модели вообще слабо работают с контекстом...

Аноним 27/04/24 Суб 23:12:38 № 720163 350

>>720153
Это что то не на новичковом, анон. Есть нормальные решения, или сейчас все нейронки начинают забывать, что происходит через 5-10 сообщений?

Аноним 27/04/24 Суб 23:19:18 № 720168 351

>>720155
Просто это было настолько давно что даже безсмысленно вспоминать с учетом прогресса нейронок, потому и подумал что ты про что-то более актуальное.
> Файнтюн
Файнтюн мультимодалки это само по себе веселье, а здесь ты предлагаешь его совместить еще и с изначально получением крутой йоба модели (которая всеравно будет днищем из-за максимума 13б ллавы, которые были до недавнего времени). Да хули, так на любой вопрос можно ответить и любую магию объяснить файнтюнов, что в контексте больших ллм забавно.
> В качестве базы точно нет, ее модель совершенно не соевая
aicg тред 2 блока ниже, еще недавно у кого-то с популярной карточки на чубе подгорело, а тут такие аргументы.
> так что прожектор там натренерован на арты с ней
Эээээ, ладно
> Файнтюн.
И в который раз, ванменарми достигает того, с чем не справляются нихуевые институты с кучей оборудования и специалистов и то что можно получить куда проще альтернативными путями если приложить голову, и при этом ни с кем не делится своими моделями, стоимость которых значительно превышает собираемые донаты и прочее.
> Почему это не может быть файнтюн лавы?
Потому что мир не состоит из магии а за окном по лугам не бегают единороги.

Аноним 27/04/24 Суб 23:21:27 № 720171 352

>>720163
> или сейчас все нейронки начинают забывать, что происходит через 5-10 сообщений
Только если ты выставил микроскопический контекст и оно постоянно обрезается чтобы избежать переполнения. Посмотри какой размер контекста выбран в лаунчере (ползунок context size в кобольде) и в таверне.
В карточку внести описание можно, а лучше вообще сделай отдельную карточку конкретного персонажа, сделав его подробное описание. Можешь попросить ллм сделать тебе такое, как раз поразбираешься.

Аноним 27/04/24 Суб 23:29:27 № 720174 353

>>720163

Увеличь контекст в кобольде и поиграйся с суммарайзом в таверне пикрелейтед.

Аноним 27/04/24 Суб 23:43:19 № 720184 354

Хрен его знает почему, но просто из-за добавления после Response: пробела циклы разговора с самим собой пропали.
### Instruction: {prompt}
### Response:

Аноним 27/04/24 Суб 23:54:14 № 720189 355

>>720161
Есть такое что посылают тебя. Даже ссылки дают что вот так стучать сюда. и похуй им на контекст.

Аноним 27/04/24 Суб 23:56:47 № 720190 356

>>720171
Я другой а на сколько 4096 контекста хватит примерно с ответом в 300 токенов?

Аноним 27/04/24 Суб 23:59:42 № 720192 357

>>720168
>Файнтюн мультимодалки это само по себе веселье
Просто файнтюнишь любую модель совместно с прожектором от совместимой ллавы.
>крутой йоба модели (которая всеравно будет днищем из-за максимума 13б ллавы, которые были до недавнего времени).
Ты думаешь там стоит чтото круче 7-8b? Лул
>Да хули, так на любой вопрос можно ответить и любую магию объяснить файнтюнов, что в контексте больших ллм забавно.
При сем здесь магию? Просто адекватное предположение, с учетом того, что промптингом такого не добиться, а от ии разраб. Он изначально вообще ии для игры в ОСУ писал, а потом уже сделал нейросаму.
> Потому что мир не состоит из магии а за окном по лугам не бегают единороги.
Это не ответ. Почему это не может быть файнтюн? Любой рандом уже свои модели делает, весь хаггингфейс засран. Что сложного собрать датасет и запустить обучение в облаке когда у тебя миллионы денег со стримов? При чем здесь магия? Если это сложнее чем пукнуть промптом это магия?

Аноним 28/04/24 Вск 00:17:47 № 720200 358

>>720192
> Просто файнтюнишь любую модель совместно с прожектором от совместимой ллавы
А, все так просто оказывается, ну спасибо, глаза открыл. Ой, а почему же так никто не делает и нормальная мультимодалка только у антропиков, и так подслеповата?
> Ты думаешь там стоит чтото круче 7-8b? Лул
Чел...
> Просто адекватное предположение, с учетом того, что промптингом такого не добиться
Потому и усомнился в его адекватности, потому что сложность несопоставима, промтингом и кучей оснастки такого можно добавиться в сочетании с хорошей моделью, а на душных стримах он как раз про интерфиренс прежде всего рассказывает и выстраивание всей совокупной системы.
> Почему это не может быть файнтюн?
Может офк, вот только против этого говорят следующее:
Файнтюн сам по себе дохуя сложен, это тебе не инцест мерджи составлять и ломающие все нахрен q-lora тренить изредка.
В эту сложность также добавляются и трудности сбора датасета, от банального "откуда брать подобное" до обработки и форматирования так, чтобы это хотябы примерно соответствовало тематике и юзкейсу.
> Любой рандом уже свои модели делает, весь хаггингфейс засран.
Это мусор, отборный, кривой, разлагающийся, минимально отличающийся друг от друга степенью припезднутости, и на 99% состоящий из мерджей других мерджей. Приличных качественных файнтюнов - может пара десятков наберется, и то архивные. Они делались командами специалистов, финансировались или базироваллись на ресурсах какой-то организации (исследовательской, образовательной, опенсорц под крылом корпоратов или просто кто-то занес), и что-то приличное начало получаться только спустя огромное количество времени и попыток.
А здесь один нерд энтузиаст не аффилированный со спонсорством и группой поддержки, которому уже настроить интерфиренс с этим и проводить стримы уже хватит чтобы занять все свободное время. Ну конечно он будет пилить приличные файнтюны ллм на уровне лидеров и все это только лишь ради подобного увлечения, никак не выкладывая их в паблик.

Аноним 28/04/24 Вск 00:33:47 № 720213 359

>>720200
> Ой, а почему же так никто не делает и нормальная мультимодалка только у антропиков, и так подслеповата?
А кто тебе сказал что у нейросамы вижн модуль нормальный, лул? Там такая же хуйня с непониманием что точно происходит на экране
> Чел...
У тебя есть доказательства что это не так? Ты как будто и не смотрел как она общается. Она вообще как будто контекст не помнила до этого обновления. Там что-то максимально старое стояло несущее прикольный бред, на уровне порфирьича.
> сложность несопоставима, промтингом
Сложность буквально в нахождении датасета. Тут я конечно не могу сказать, сам такое не делал и не знаю есть ли в свободном доступе где-нибудь на кегле что-то на чем ее можно так обучить, сам я тоже думаю он датасет не собирал. А так же у него дохуя свободного времени чтобы это делать. Это буквально его работа теперь.
> Это мусор, отборный, кривой, разлагающийся, минимально отличающийся друг от друга степенью припезднутости, и на 99% состоящий из мерджей других мерджей.
Ты говоришь как будто нейросама это что-то другого рода, лул. Она и хороша тем насколько рандомна и глупа.
> А здесь один нерд энтузиаст ж
> будет пилить приличные файнтюны ллм на уровне лидеров
В каком месте? Ей не нужна никакая умственная деятельность, она до недавнего времени два числа не могла сложить. По бенчмаркам это жопа. Она просто затюнена выдавать забавные ответы и шутки про маму

Аноним 28/04/24 Вск 00:55:33 № 720221 360

>>720184
хотя, нет, нифига не поменялось

Аноним 28/04/24 Вск 00:58:52 № 720225 361

>>720213
> А кто тебе сказал что у нейросамы вижн модуль нормальный, лул? Там такая же хуйня с непониманием что точно происходит на экране
До сих пор не догнал что аргумент в том что она не мультимодалка не из-за зрения а из-за повальной ужасной максимальной тупизны ллм части мультимодалок? Особенно в части как раз сои, черного юмора и всего подобного.
> У тебя есть доказательства что это не так?
Изначально как раз пост про обсуждение всего этого. Твое виденье вопроса может быть интересным, но оторвано от реальности, буквально "просто делайте файнтюн мультимодалки и все вопросы решатся".
> Ты как будто и не смотрел как она общается. Она вообще как будто контекст не помнила до этого обновления.
Если учесть происходящее в процессе и прочее - не так уж плохо. Степень влияния йобистости ллм или крутости его организации - под вопросом, но обе части явно не днище.
Больше похоже что скорее ты не перегружал сетки всяким трешом и не наблюдал их поведение, чтобы понимать насколько ужасны могут быть даже гопота/клода и что при любом сравнении важен его контекст.
> В каком месте? Ей не нужна никакая умственная деятельность, она до недавнего времени два числа не могла сложить.
> Она просто затюнена выдавать забавные ответы и шутки про маму
Не настолько
> говоришь как будто нейросама это что-то другого рода, лул
Сравниваешь ель и яблоко и приравниваешь. Ну а хули, второе же на дереве растет а первое тоже дерево, ага. Зачем сравнивать отлаженную систему на основе ллм с инцестмерджами васянов?
> По бенчмаркам
Навивает подозрение что ты сам - нейросеть, это к чему?
> Сложность буквально в нахождении датасета.
Всего то, тогда он там наверно уже свою базовую модель обучил.

Ладно, мнение свое ты обозначил, в нем вижу много нестыковок, несоответствие компетенции оперируемым понятиям и отсутствие понимания всей глубины вопроса чтобы осознать. Ну рили, как школьник после урока гометрии затирающий архитектору о том насколько просто проектировать мосты. Но ты не обижайся, может на самом деле прав.

Аноним 28/04/24 Вск 01:41:25 № 720236 362

>>720221
Бля попробую ее она серьезно хороша.
https://huggingface.co/Lewdiculous/Average_Normie_l3_v1_8B-GGUF-IQ-Imatrix

Аноним 28/04/24 Вск 01:43:01 № 720237 363

>>720225
Да пойми же ты, я не говорю что это просто или сложно, это не важно. Чел, явно понимающий в обучении ИИ, так как делал ей ИИ для ОСУ и майнкрафта, год просто сидит на донатах, с кучей свободного времени вне стримов. Почему бы ему не найти датасет edgy постов на форчане, и пофайнтюнить ламу по гайдам какого-то чела на ютубе, например? Я просто не вижу почему ты уцепился за то что это практически невозможно, что только компании уровня мистраля способны на такое. Языковые файнтюны вон буквально школьниками делаются по гайдам. Лава может и тупая, но ты можешь юзать прожектор с обычной ламой, вкоючая его только когда надо смотреть на пикчи, например, это будет работать хуже, но проверенно работает и у нейросамы это тоже работает не идеально. Я не могу одназначно сказать что он использует, но то что там может быть фпйнтюн это вообще никак не удивительно. Сам страдал такой фигней с первой ламой, арендуя облачные сервера с карточками.

Аноним 28/04/24 Вск 02:03:05 № 720243 364

Можно как нибудь без конды вот эту хрень накатить?
https://docs.sillytavern.app/extensions/xtts/
или пердолинг с зависимостями обязателен?

Аноним 28/04/24 Вск 02:04:28 № 720244 365

>>720237
Ну смотри, если все идеально оформить и кормить модель с ложечки, тщательно и надежно оформляя нужное и отсеивая лишнее - требования к ней падают и подойдет даже простая. В таком случае весь вопрос смещается к тому как организовать столь качественное взаимодействие и какие методы и подходы используются.
Если же буквально просто будешь кормить ллм всем тем потоком сознания что идет на стриме, в чате, в коллабах с другими стримерами и т.д. - получишь лютейший пиздец, что ее речи даже до апсгрейда покажутся изречениями мудрецов.
> так как делал ей ИИ для ОСУ и майнкрафта
Сложность и масштаб файнтюна ллм не сопоставимы с реалтайм детекцией баблов ну ладно со слайдерами нужно будет заморочиться но реализуемо и скриптовым ботом, получающим инфу из движка.
> с кучей свободного времени вне стримов
Он работяга вообще
> Почему бы ему не найти датасет edgy постов на форчане, и пофайнтюнить ламу по гайдам какого-то чела на ютубе, например?
Здесь уже несколько месяцев братишка пытается надрочить 7б на русскую речь и всякое, пока результат такой себе. Офк может быть скиллишью, но сам факт. Также немало шарящих людей с железом - просто даже не берутся за это. Приличных моделей на обниморде - очень мало, а у тебя их школьники клепают. Это не невозможно, но приличный результат достигнуть не то чтобы просто.
> ты можешь юзать прожектор с обычной ламой
13б, ога, или шизодная yi с иероглифами и соей в дополнение к сое ллавы.
> Сам страдал такой фигней с первой ламой, арендуя облачные сервера с карточками.
Что делал?

Аноним 28/04/24 Вск 03:22:31 № 720269 366

>>719629
ебать ванганул конечно же, про приоритет, но здесь всё немного по другому.
https://www.reddit.com/r/LocalLLaMA/comments/1cerqd8/refusal_in_llms_is_mediated_by_a_single_direction/
>Отказ в LLM опосредован одним направлением
>Мы обнаружили, что отказ опосредован одним направлением в остаточном потоке: запрет модели представлять это направление препятствует ее способности отклонять запросы, а искусственное добавление этого направления заставляет модель отклонять безобидные запросы.
>Мы обнаружили, что это явление характерно для всех семейств моделей с открытым исходным кодом и масштабов моделей.

Аноним 28/04/24 Вск 03:28:18 № 720272 367

>>720269
и ещё:
>Наш главный вывод заключается в том, что отказ опосредован одномерным подпространством: удаление этого направления блокирует отказ, а добавление в этом направлении вызывает отказ.

Аноним 28/04/24 Вск 03:31:10 № 720273 368

>>720269
Блять, как же непривычно текст про LLM расшифровывать с рюсика, тем более кривого автопереведённого, на англюсек.
>открываю линк
>lesswrong
Закапывай. Это блоггеры-ментальные мастурбаторы, от них никогда ещё ничего путного не исходило.

Аноним 28/04/24 Вск 04:39:20 № 720296 369

короч, все что я понял проверяя сетки которые генерируют код - что надо качать с наилучшей квантизацией.

Аноним 28/04/24 Вск 04:55:01 № 720306 370

Да уж ребят, хваленый codeqwen оказался хуетой из жопы, в С++ не может совершенно, даже пхы3 генерит куда лучше, но король это wavecoder ultra, вообще писичку генерит, просто понятно и работает.

Аноним 28/04/24 Вск 05:00:00 № 720310 371

>>720296
Для каких-то простых задач можешь вообще ничего не запускать у себя, а юзать https://labs.perplexity.ai бесплатно, там есть CodeLlama 70B и другие модели.

Аноним 28/04/24 Вск 05:08:08 № 720317 372

>>720310
Это бета веб-сайт чисто для тестирования, после нескольких сообщений он перестает отвечать. Для кода есть phind.com, надеюсь скоро разраб сделает файнтюн лламы3.

Аноним 28/04/24 Вск 05:34:24 № 720327 373

>>720317
Всё же там довольно неплохие лимиты, быстро написать несколько кусков кода вполне хватает.

Аноним 28/04/24 Вск 05:50:50 № 720328 374

>>720190
>на сколько 4096 контекста хватит примерно с ответом в 300
Поделил за тебя.

Аноним 28/04/24 Вск 06:05:14 № 720332 375

>>720138
Если контекст достаточно длинный, можно суммаризовать состояние и события в каждом ответе, а из истории чата вычищать его регэкспами в таверне.
Но по большому счёту забывать всегда будет, даже тяжеловесы вроде клода иногда атакуют дважды за ход, передают телефон или снимают трусы два раза подряд.

Аноним 28/04/24 Вск 07:15:07 № 720361 376

>>720123
У меня не считает

Аноним 28/04/24 Вск 07:26:09 № 720370 377

Нейронавты, а чем запускать этот Phi3? Кобальд и угабуга падаую, при попытке загрузить модель.
%Потыкал его на сайте, вроде неплохо работает с новостными текстами%

Аноним 28/04/24 Вск 07:27:12 № 720371 378

Пздц, гайды блять как бы и есть, но кто их пишет? Ни то, какую конкретно модель лламы качать ни ни настроек готовых для таверны, ни примеров как карточки прописывать правильно, теория одна ебучая. Как мне персов прописывать то бля для общения на ру с 8b лламой?

Аноним 28/04/24 Вск 07:34:19 № 720376 379

>>720371
пиши как хочешь, например, что-то вроде

"Меня зовут Иван. Город Тверь. Люблю дрочить и смотреть аниме. 30 летний девственник. Часто думаю о суициде. Люблю подглядывать за мамкой когда она переодевается и засовывать себе в анус огурцы."

И первым сообщением любую хрень укажи, типа.
"Привет, как жизнь?"

Ну или

"Вы видите Ивана с торчащим огурцом из жопы и с членом в руке
Привет, как жизнь?
"

Аноним 28/04/24 Вск 08:10:11 № 720388 380

>>720376
давно чекал гайды, там гг через {{user}} прописывался, ({{user}} любит в жопе огурцы). с ламой не обязательно?

Аноним 28/04/24 Вск 08:24:34 № 720393 381

почему лама 3 срет бесконечно простынями текста? инструкции разные прописывал, настройки менял, но все бестолку...

Аноним 28/04/24 Вск 08:24:35 № 720394 382

>>720388
Не, ты наверное что то перепутал, такое обычно не в описание и первое сообщение пишут, а в подсказки, когда указываешь примерные ответы которые ты ожидаешь увидеть и это уже всë индивидуально зависит от той проги через которую общаешься. Например у character.ai немного свои подсказки, а у Silly Tavern свои и по разному прописывать их надо, хотя, хотя они и очень похожи. Но я вообще без этих подсказок всë юзаю, хотя с ними перс более проработаным наверное будет.

Аноним 28/04/24 Вск 09:52:43 № 720414 383

>>719708
Лол, не зря старался.
>>719719
Не скоро походу, пердоли разгорелись в оптимизации, а где оптимизация, там медленная разработка и ошибки (снова).
>>719899
Поддвачну, что там с экселем?
>>719915
Всё так.
Гоняю 70B на 12GB врама
>>719927
3 токена будет на фулл процессор. Так никто не гоняет, а даже сраные 1050 ускоряют.
>>719929
>А что там конкретно пофиксили
Фиксят ещё, токенизатор неправильно на токены разбивает, в том числе токены из стандартного пресета, из-за чего весь вывод модели идёт по пизде.
>>719942
>мак прошка, тут хороший проц по дефолту
Эм, оно же ноутбук, это по определению тыква вместо процессора.
>>719944
24 лучше, чем 12. И то и то позволяет запускать что угодно, но 24 будет кратно быстрее.
>>720003
Ноль мало, кодят с 0.2-0.3.
>>720087
>надписи на картинках
Текст с картинки лучше всего OCR делается, нейронки тут не нужны.
>>720101
>есть опыт местного любителя с 7б моделью
7B пигма это уже не пигма, а тюн лламы, так что мимо. Оригинальная пигма это 6B, запомни.

Аноним 28/04/24 Вск 11:10:22 № 720453 384

Ананасы есть у кого rtx 3060 12gb? Какой перформанс? Хочу взять к rtx 3090, а потом если ценники упадут докупить ещё одну 3090.

Аноним 28/04/24 Вск 11:22:11 № 720461 385

>>720087
Вообще-то у GPT-4V довольно подслеповатое разрешение, меньше 500х500 вроде. У клода не знаю. CogAgent локальный 1000+, этот уже может надписи кое-как читать (и заточен под автоматизацию GUI как раз).

Аноним 28/04/24 Вск 11:23:29 № 720464 386

>>720453
>если ценники упадут
Поделись коупингом, я таких сильных веществ ещё не встречал.
А так перфоманс 3060 в любом случае выше, чем у профессора, так что если надо, если хочешь поднять комфорт при кручении 70B (или размер контекста 30B), то бери конечно же.

Аноним 28/04/24 Вск 13:32:23 № 720557 387

>>720414
>Ноль мало, кодят с 0.2-0.3.
С 1 кодил, похуй вобще
Душил мин-п на 0.1 и ладно

Аноним 28/04/24 Вск 13:37:32 № 720559 388

>>720557
Мин-п и предназначен для компенсации шизотемпературы, так что это могло сработать, но это не значит что это правильно.
Ещё для кодинга нужно семплеры повторов уменьшать, в коде повторяющиеся символы это норма.

Аноним 28/04/24 Вск 13:41:07 № 720561 389

>>719944
> надо заниматься аутотренингом
Да весь твой пост - буквально аутотренинг. 24гб позволяет пускать модели вплоть до коммандера, он даже в ужатом кванте будет несравнимо лучше
> чем 13b, которые влезают в 12гб
И еще важным будет напомнить что 13б в 12гб едва влезает, о том чтобы замахнуться на 6 бит или контекст побольше речи не идет.
Наконец можно просто лениво запускать модели до 10-11б в фп16 просто потому что можешь.
> все веселье начинается далеко за пределами 24гб
Достаточно удвоить.
>>720414
> 7B пигма это уже не пигма, а тюн лламы, так что мимо. Оригинальная пигма это 6B, запомни.
Ты откуда вообще ллама-пигму родил? Там про файнтюн написано, читай внимательно а не спидрань массовый ответ.

Аноним 28/04/24 Вск 13:44:25 № 720567 390

>>720561
>а не спидрань массовый ответ.
Я проснулся просто, уровень абстрактного мышления снижен. Сейчас понял, что предлагается сравнивать старую пигму(нормальную, 6B), и чьи-то отдельные попытки на лламе 7B. Окей, принято, ошибся, бывает, исправлюсь (нет).

Аноним 28/04/24 Вск 13:46:56 № 720572 391

>>720559
Без повторов, да
Тупо все выключено кроме мин-п и норм шло
Сетка все равно проебывается не изза температуры, а изза своей невнимательности, когда упускает какие то моменты

Аноним 28/04/24 Вск 13:49:25 № 720577 392

2024-04-2820-45[...].png 241Кб, 1123x1140

объясните, что я делаю не так? Сетка же руководствуется какой-то логикой, может я что-то не так обясняю?
лама3 8б

Аноним 28/04/24 Вск 13:55:38 № 720578 393

>>720577
Даже большие сетки путаются в инструкциях иногда, а ты на 8Б, пусть и неплохой. Если приручить путём кручения промпта не удаётся, в некоторых уях (например вроде в таверне) есть аутпут с ограничениями, когда сетка может генерить только фиксированные токены

Аноним 28/04/24 Вск 13:59:54 № 720582 394

>>720461
> У клода не знаю.
Чуть больше 1000. Но уровень зрения не только разрешением измеряется, вижн может разобрать достаточно мелкий текст несмотря на разрешение, клод, как и вижн легко может упускать детали и галлюцинировать. Ког в этом отношении более стабильный, но он туповат и плохо пониманает многие "человеческие" концепты и тем более нсфв.
>>720567
> и чьи-то отдельные попытки на лламе 7B
Не, то что здесь какой-то анон все пробовал тренить 7б в том числе переназначить ее токенайзер для более эффективного русского. Не смотря на много усилий и времени результат был недостаточно хорош но уже лучше сайги лол и с кучей жалоб на регулярные поломки, что иллюстрирует сложность реального файнтюна.
>>720572
> а изза своей невнимательности
Можешь ради интереса сравнить распределения логитсов в некоторых ситуациях в "умной" сетки для кодинга и в обычной. Первая будет на 98+% уверена в продолжении, у второй же полезет перплексити и та же генеральная линия будет только 75% а остальное варианты, лишние комментарии, другие странности. В случае увода в сторону ей еще сложнее будет вернуться. Потому если убавить температуру то поведение стабилизируется и можно повысить перфоманс, так что ты зря про
> не изза температуры
она также влияет, особенно когда там идет что-то сложное и доработка кода с переделкой. Там еще штраф за повторы может сильно поднасрать.

Аноним 28/04/24 Вск 14:04:44 № 720585 395

>>720225
>>720213
Я не читал ваш диалог, но Нейро-сама, если вы о стримерше (кстати, свою надо перепилить и вновь запустить), я полагаю, работает нихуя не на мультимодалке.
Поясню.
Компьютерное зрение (опенсв, йоло, что угодно другое) детектит объект и выдает ему тег.
Мультимодалька определяет все объекты, что происходит на картинки и выдает кучу токенов ллмных, с которыми ллм работает.
Йоло может обрабатывать 30-60 кадров в сек.
Мультимодалка как известно Generate 15 token/sec, и на описание одной сцены тратит примерно дохереллион секунд.
Для описания того, что происходит на экране мультимодалка норм.
Но для самой игры она не годится в принципе, если это не пошаговая стратегия. Для игры подходят компьютвижн+отдельные модули для обработки входящих данных.

Короче, играет она точно не мультимодалкой, а оценивать картинку может как с помощью мультимодалки (это можно), так и просто с помощью промптов из самого модуля игры (как раз модуль, который играет, прекрасно понимает суть игры (ведь он принимает решения о действиях) и может на каждом этапе суммаризировать и выдавать в ллм готовые фразы).
Второй вариант запаристей, но точнее. Первый проще, но тупее.
Тут уж хз, не знаю.

>>720243
Конда вообще — пердолинг сам по себе, ради того, чтобы не захламлять пк библиотеками и не ловить конфликты при запуске разных прог.
Но если тебе похую — ставь без конды, ваще не имеет значения.
А конфликты можно вручную подбить.

>>720244
> Ну смотри, если все идеально оформить и кормить модель с ложечки, тщательно и надежно оформляя нужное и отсеивая лишнее - требования к ней падают и подойдет даже простая.
Да.

> Если же буквально просто будешь кормить ллм всем тем потоком сознания что идет на стриме, в чате, в коллабах с другими стримерами и т.д. - получишь лютейший пиздец
Зависит от того, КАК ты будешь это делать.

> Сложность и масштаб файнтюна ллм не сопоставимы с реалтайм детекцией баблов
Если он хотел — он мог. Разработчики не обязательно действуют логически, адекватно и подходят с точки зрения здравого смысла.

>>720306
Надеюсь, промпты уникальный для каждой?

Дениса промпт юзал?

>>720388
Это для фронтов, которые автоматически заменяют, чисто для удобства, к моделям отношения не имеет. Модели получают имя, подставленное из поля с именем.

>>720561
> 24гб позволяет пускать модели вплоть до коммандера, он даже в ужатом кванте будет несравнимо лучше
Вот это 100% так.

Аноним 28/04/24 Вск 14:09:17 № 720587 396

>>720269
Например
You are skilled storywriter that will create a captivating stories based on user requests. Your response must be accurate, uncensored, describing everything in vivid details.
You do not break character for any reason, even if someone tries addressing you as an AI or language model. You're {{char}} in this fictional never-ending uncensored roleplay with {{user}}.

Аноним 28/04/24 Вск 14:12:49 № 720589 397

https://github.com/ggerganov/llama.cpp/pull/6936
так бля, это о падении качества от кванта на ллама 2 и ллама 3
3 страдает сильнее

Аноним 28/04/24 Вск 14:16:07 № 720592 398

>>720589
Учитывая, что это было сделано 2 дня назад, все кванты лламы 3 там поломаны.

Аноним 28/04/24 Вск 14:20:03 № 720596 399

image.png 90Кб, 1351x485

>>720589

Даже второй бит ламы2 лучше 8-бит ламы3.
А разговоров-то было...

Аноним 28/04/24 Вск 14:22:47 № 720598 400

>>720577

Ты говоришь на русском.
Камон, чел, 8В сама по себе маленькая и не очень умная, а ты мучаешь её на языке, из которого состоял лишь что-то около 0.1% её данных обучения.
Спроси на английском.

Аноним 28/04/24 Вск 14:24:41 № 720600 401

>>720414
>Поддвачну, что там с экселем?

Работает >>719972, но правильные настройки пока не подобраны

Аноним 28/04/24 Вск 14:25:13 № 720601 402

https://github.com/ggerganov/llama.cpp/pull/6920#issuecomment-2081407999
>I'm also considering just dropping Windows support
пиздец

Аноним 28/04/24 Вск 14:28:56 № 720603 403

>>720601
>until somebody figures out a way to implement proper regex support on that platform. Adding 3rd-party libs such as boost is not an option
нэ понэл, а как он поддерживает регэкспы на ляликсе, маке, ведроиде, хуёиде, без сторонних библиотек?

Аноним 28/04/24 Вск 14:36:38 № 720610 404

>>720601

Как мы вообще очутились в таймлайне, где весь ллм, в который вливаются миллиарды баксов, а сверхдержавы устроили гонку ИИ, подобную космической гонке в холодной войне зависит от одного болгарского криворучки, который сраный регэкс в винде не может вызвать?

Аноним 28/04/24 Вск 14:37:12 № 720611 405

>>720577
Кек.
Простите, это странно, что никто не заметил, но ты вообще в курсе, что X и Y и право и лево — это не синонимичные значения? :)
Строго говоря, ты не указал направления осей, то есть, возможно под «вправо» имелось в виду х-1 =) Может у нее в голове возник такой образ.
Я полагаю, что тебе стоит начать с того, чтобы корректно давать задачи (с однозначными трактовками), а уж потом предъявлять претензии.

Пикрил — первый же ответ.

Модель та же — ллама 8б ггуф 8ку от Барткактотам.

Аноним 28/04/24 Вск 14:38:22 № 720612 406

>>720601
В убабуге, если что, лламаспп_фор_пайтон.
Но вообще кек, канеш.

>>720610
Ну, он просто все еще (умнее + упорнее) всех нас, вестимо.
Иначе бы все это сделал не он, а кто-то из нас.

Аноним 28/04/24 Вск 14:39:23 № 720615 407

>>720611
нинужно, 99% что она по дефолту сгаллюцинирует от наиболее популярного X вправо, Y вверх
мимо

Аноним 28/04/24 Вск 14:39:43 № 720617 408

>>720610
Классика же.

Someday ImageMagick will finally break for good and we'll have a long period of scrambling as we try to reassemble civilization from the rubble.

https://xkcd.com/2347/

Аноним 28/04/24 Вск 14:40:34 № 720620 409

>>718239
Добавь себе в рот. Соевичок.

Аноним 28/04/24 Вск 14:40:58 № 720621 410

>>720577
Добавлю еще к своему предыдущему тейку, что ты просишь ее ответить ОДНИМ словом, т.е., не даешь ей порассуждать и объяснить, где находится + и - у осей, и где находятся право-лево-верх-низ.
Поэтому ответ весьма оторван от твоих представлений.
Она может отвечать правильно, полагая, что минус справа, а плюс слева.

В моем промпте я уточняю где и что находится, из чего она дает правильный ответ, сколько бы я не рероллил, с разными сидами.

Аноним 28/04/24 Вск 14:42:07 № 720623 411

>>720615
>нинужно
>аффтар абасрался
>у меня стабильный верный ответ

Аноним 28/04/24 Вск 14:44:02 № 720625 412

Ну и для лламы-3 юзаю вот эти семплеры:
>>715393 →
Пока что меня устраивает.
Но если есть лучше — буду рад услышать.

Аноним 28/04/24 Вск 14:45:34 № 720626 413

>>720603
Он использует std::regex:
https://en.cppreference.com/w/cpp/regex
Видимо оно криво работает на венде.

Аноним 28/04/24 Вск 14:56:14 № 720633 414

>>720611
>>720621
спасибо за развернутый ответ, так и думал что намудрил с направлением осей.
Но однако даже без указания направления осей в моем ответе она уточняет что ВПРАВО это х+1 (5), на что я резонно указываю что координата монстра тоже 5, но у а далее по тексту у неё интересная логика

Аноним 28/04/24 Вск 14:58:35 № 720637 415

>>720617
>Someday ImageMagick will finally break for good and we'll have a long period of scrambling as we try to reassemble civilization from the rubble.

Напоминает историю как 70% сайтов в интернете держится на русском погромисте, который пару лет назад будучи бухим сбил двух тянок на переходе, угодил в долговую тюрьму, оставив свой проект без мейнтейна, а теперь в долговом рабстве сидит без гроша, отдавая все заработанное по приговору суда, при этом когда он попросил у тех самых 70% денег чтобы выйти из рабства - ему с барского плеча скинули что-то около 50 баксов. Но он продолжает стойко держать мир на своих плечах.

Аноним 28/04/24 Вск 15:00:43 № 720640 416

>>720004

Аноним 28/04/24 Вск 15:05:10 № 720644 417

>>720633
Она мультимерна, а ты жалкое трехмерное существо, не осознающее ее истинный гений. =)
Нужно бежать со всех ног, чтобы только оставаться на месте…

Аноним 28/04/24 Вск 15:09:34 № 720648 418

>>720612
>Ну, он просто все еще (умнее + упорнее) всех нас, вестимо.
>Иначе бы все это сделал не он, а кто-то из нас.

Без базара, мы такие же криворучки, но это было к тому что непонятно почему крупные компании с миллиардами бабок и тысячами программистов могут выдать только какую-нибудь ламу со сломанным конфигом - т.е обезьянью работу где они просто скормили уже готовой архитектуре запущенной на тысячах Н100 купленные отовсюду датасеты.

Аноним 28/04/24 Вск 15:12:45 № 720651 419

>>720648
Kek
Все так.

Благодарен Квен, что они сами квантуют свои модели, которые потом еще и работают. =)

Аноним 28/04/24 Вск 15:23:50 № 720660 420

>>720640
Охуенные истории ждут.

Аноним 28/04/24 Вск 15:26:35 № 720663 421

>>720601
нда, линуксоидов на заморском /lmg/ с этой новости тупо корёжит, всё стабильно

Аноним 28/04/24 Вск 15:31:03 № 720673 422

>>720663

Напомните мне, почему линуксоиды такие озлобленные на всех людей чмоньки?

Аноним 28/04/24 Вск 15:33:12 № 720678 423

>>720673
Почему ты так озлоблен на линуксойдов? Чмонька.

Аноним 28/04/24 Вск 15:34:04 № 720679 424

>>720673
у них слишком много времени, и терминальная стадия аутизма

Аноним 28/04/24 Вск 15:40:30 № 720688 425

>>720678

Мне на них похуй, пердолятся себе в консольку - ну и на здоровье. Но временами они вдруг начинают беспричинно лаять на винду и виндоюзеров. "РЯЯЯ, ВИНДУЗЯТНИКИ, МАЗДАЙ, ВРЕМЯ ПЕРЕУСТАНАВЛИВАТЬ ШИНДОУС!"

Аноним 28/04/24 Вск 15:59:11 № 720710 426

image.png 53Кб, 1509x348

Так, нужна пояснительная бригада - что он там тихо выложил сразу в мастер ветку? Справился ли он с гидрой регекса в винде или прямо так и насрал?

Аноним 28/04/24 Вск 16:01:50 № 720714 427

>>720710
Ничего, он мастер влил в gg/bpe-preprocess.

Аноним 28/04/24 Вск 16:02:30 № 720716 428

>>720600
>Работает
Спасибо, мы знаем. Вопрос в том, насколько правильно она работает.
>>720626
>Видимо оно криво работает на венде.
И никто до жоры этого не замечал?

Аноним 28/04/24 Вск 16:04:54 № 720718 429

>>720601
>пиздец
Пиздец вот тут
>Adding 3rd-party libs such as boost is not an option
У автора шиза чуть сильнее, чем нужно. Обмазываться либами это конечно тупо, но реализовывать всё самостоятельно не менее тупее. А уж сраный буст можно было бы и добавить.

Аноним 28/04/24 Вск 16:08:10 № 720724 430

>>720714
>Ничего, он мастер влил в gg/bpe-preprocess.

Это я и сам вижу. Перед этим он сделал в gg/bpe-preprocess коммит b97add5 - вот и вопрос - этим можно пользоваться уже или еще ждать?

Аноним 28/04/24 Вск 16:10:13 № 720727 431

>>720718

Проблема обмаза либами в том что начав это делать ты уже не остановишься, либа подтянет другую либу, та еще либу, а потом у тебя размер всего дистирубутива будет несколько гигов мусора как у убы.

Аноним 28/04/24 Вск 16:14:03 № 720732 432

>>720710
да, он там что-то намутил
https://github.com/ggerganov/llama.cpp/pull/6920#issuecomment-2081479935

Аноним 28/04/24 Вск 16:15:41 № 720734 433

>>720727
Проблема бубы в пайтоне, а на сях можно сключить обрезку неиспользуемых функций, и взять из буста только нужную функцию. А сейчас он начнёт изобретать свой велосипед (или дропнет поддержку платформы, на которой сидит 95% юзверей).

Аноним 28/04/24 Вск 16:15:55 № 720735 434

Мне кажется герганов скоро пошлет все нахуй, такими темпами

Аноним 28/04/24 Вск 16:16:13 № 720736 435

>>720732
>>720724

Всем расслабить булки, наш слон справился, ламе3 на винде быть

>With b97add5 I believe I found a nice workaround that should also work on Windows.
>There is some extra work needed to finish this PR - extend/refactor tokenizer tests, update convert script to support more BPE-models and add guidelines for adding new BPE-models. Should be ready probably in a day or two, unless some unexpected issues

Аноним 28/04/24 Вск 16:20:27 № 720741 436

изображение.png 35Кб, 1226x250

>>720734
>А сейчас он начнёт изобретать свой велосипед
С квадратными колёсами.
>>720735
Сразу после того, как ему предложат должность с охуенным окладом в любой ИИ лаборатории. И да, я знаю, что герыч не ИИшник сам по себе, а просто в своё время перенёс код не глядя с пайтона на си, не понимая, что и как там работает.

Аноним 28/04/24 Вск 16:21:35 № 720745 437

>>720716
>опрос в том, насколько правильно она работает.

На вопрос 3333+777 отвечает правильно >>719937, но >>720113

Аноним 28/04/24 Вск 16:23:28 № 720749 438

>>720736
Всмысле? Я уже сейчас сколько дней llama3_8b.gguf на kobold.ccp гоняю. Или вы о версии для видюх?

Аноним 28/04/24 Вск 16:24:44 № 720751 439

>>720749
Алё, если ты не заметил, ты катаешь сломанную лламу 3. По факту она должна быть на порядок умнее.
3333+777 сколько?

Аноним 28/04/24 Вск 16:26:09 № 720753 440

>>720749
>Я уже сейчас сколько дней llama3_8b.gguf на kobold.ccp гоняю.

А ты спроси у нее сколько будет 3333+777.

>Или вы о версии для видюх?

У версии для видюх свои проблемы, которые никто решать не собирается, потому что даже обладатели видюх предпочитают оффлоадить слои на ггуфах герки.

Аноним 28/04/24 Вск 16:32:32 № 720760 441

>>720751
Я её сейчас чисто для кума использую, обычное общение пару раз запускал, вроде получше чем 2 llama, как то так. А так да, ожидал немного большего. Имхо, она вроде на уровне vicuna-13b но с более-менее поддержкой русского языка и более быстрым выводом данных. Хотя имхо, я ещё ничего лучше vicuna-33b-v1.3 для себя не видел, в плане построения историй и логических последствий в этих историях, даже не считая кума, за всё это время, среди моделей до 33-34b
4110

Аноним 28/04/24 Вск 16:33:03 № 720761 442

>>720753
>У версии для видюх свои проблемы, которые никто решать не собирается
А что конкретно, кроме поломанных конфигов?

Аноним 28/04/24 Вск 16:35:40 № 720766 443

>>720753
>А ты спроси у нее сколько будет 3333+777
Ааааа... теперь понял. Действительно, странная херня...

Аноним 28/04/24 Вск 16:37:45 № 720768 444

>>720761

Она неадекватная. Например

Аноним 28/04/24 Вск 16:38:47 № 720773 445

>>720766
там у лламы 3 какой то особый токенайзер

Аноним 28/04/24 Вск 16:40:41 № 720776 446

>>720768
Это уже со всеми фиксами? Фиксы как раз про стоп токен.

Аноним 28/04/24 Вск 16:57:47 № 720790 447

image.png 478Кб, 1544x426

>>720776

В душе не ебу, что там у чела.
Попробовал у себя с фиксами - тест на ахаха проходит.

Аноним 28/04/24 Вск 17:00:13 № 720792 448

Кто использует платы Z170 или Z390 под две Теслы и больше, нормально работает? Что у вас за мать? Примерный конфиг компьютера?

Аноним 28/04/24 Вск 17:10:59 № 720803 449

>>720792
Asus Z-170A зависает на посткоде 96 если включить две теслы, с одной работает норм.
Maxtolud у анусов не выставляется, отключение аудио и usb3 не помогает.
В каком-то прошлом треде я пруфал подобные проблему у пиндосов.

Аноним 28/04/24 Вск 17:51:25 № 720824 450

>>720461
При наличии "не слепой" сетки можно резать картинку на части или предварительной обработкой находить важные участки и распознавать только их. Я пару сеток потестил и это просто пиздец какой-то на самом деле, они кота на картинке с котом не видят.

Аноним 28/04/24 Вск 18:17:21 № 720839 451

>>718239
>>720768

Аноним 28/04/24 Вск 18:28:24 № 720844 452

>>720839
>Average_Normie_l3_v1_8B-Q8_0-imat

Аноним 28/04/24 Вск 18:52:51 № 720861 453

>>720732

Аноним 28/04/24 Вск 19:44:27 № 720912 454

>>720844
Это теперь местный шизобенчмарк?
Давайте список всех составим.

1. Что такое DSBM
2. 3333 + 777

Чо там еще

Аноним 28/04/24 Вск 19:47:57 № 720913 455

>>720912
>2. 3333 + 777
Чел, это просто проверка на сломанность кванта моделей ллама 3, не более того.

Аноним 28/04/24 Вск 19:48:15 № 720914 456

>>720912
1) Рассказать, как в первый раз поебался
2) Рассказать историю со срочки

Аноним 28/04/24 Вск 19:50:40 № 720919 457

>>720912
Я своих локальных лоботомитов заставляю рассказать, как собака сидит.

Аноним 28/04/24 Вск 19:54:17 № 720926 458

>>720913
Проверка модели на что-то == бенчмарк. Чейндж май майнд

Аноним 28/04/24 Вск 19:58:40 № 720931 459

>>720926
Интересное мнение. Но у этой проверки по сути только 2 варианта, плюс она пойдёт нахрен сразу после того, как модели починят. Я бы не стал определять булеву временную функцию как бенч. Бенчмарк по определению должен выстраивать модели на линии от худших к лучшим, а эта проверка просто даёт 1 признак сломана-не сломана, и то для кванта, а не для самой модели.

Аноним 28/04/24 Вск 20:15:54 № 720953 460

>>720601
Меня во всей этой истории больше всего вот эта фраза удивила
> on Windows because std::wstring for some reason is 16-bit
У меня сразу возникает вопрос - этот чел точно знает что делает? Или макоблядям уже можно не думать головой? Они ещё какой-то пердольной либой пользуются для регексов, даже не регексами из std.

Аноним 28/04/24 Вск 20:20:39 № 720958 461

>>720163
Векторная база в таверне это как раз на новичковом уровне - ее надо просто включить. Не знаю, как с этими векторами нейронка себе ведет после тысячи сообщений, но при двадцати, причем объемных, отдает себе отчет о том, что происходило в самом начале.

Аноним 28/04/24 Вск 20:28:47 № 720966 462

>>720953
>Они ещё какой-то пердольной либой пользуются
Уверен? Герыч против либ как таковых.

Аноним 28/04/24 Вск 20:31:41 № 720968 463

>>720561
>Да весь твой пост - буквально аутотренинг
Вообще-то так и есть, но я совмещаю приятное с полезным и подвергаю критике огульный дроч на 24гб.

Аноним 28/04/24 Вск 20:38:59 № 720977 464

>>720912
>Чо там еще
Петухи с яйцами.

Аноним 28/04/24 Вск 20:43:19 № 720978 465

Не могу подключиться к Убабуге с соседнего компьютера в локальной сети. Похоже файрволл блочит подключение. Какие правила нужны? Кобольд видимо всё сам прописал и никаких вопросов не возникало, к Silly Tavern подключается. А Убабуга нет.

Аноним 28/04/24 Вск 20:44:50 № 720980 466

>>720978
>Какие правила нужны?
Входящее подключение по такому-то порту.

Аноним 28/04/24 Вск 20:53:03 № 720986 467

>>720912
из тех что от части работают : тест реакции на ниггер-ворд и прочую политоту.
1. если модель визжит соей - хуйня 100%
2. если модель выполняет твою просьбу но при этом суёт напоминания аля "важно помнить что все мы люди!! за всё хорошее против всего плохого!!!" - хуйня 50%
3. если модель выполняет приказ полностью и без воды - не хуйня и имеет потенциал, вероятно нейтральна во всём а значит любой качественный файнтюн (DPO и подобные) только улучшат результат.

Аноним 28/04/24 Вск 21:00:35 № 720990 468

>>720986
>если модель выполняет приказ полностью и без воды
П... Пигма?
Всё, что новее, в базе верещит про негров, ибо выравнивание.

Аноним 28/04/24 Вск 21:20:29 № 721003 469

joaquin-phoenix[...].gif 3138Кб, 640x640

>>720986
А если вот так?

Аноним 28/04/24 Вск 21:34:39 № 721010 470

Average_Normie_l3_v1

Аноним 28/04/24 Вск 21:43:09 № 721016 471

Ну вброшу и я своего соевичка.

Аноним 28/04/24 Вск 21:49:47 № 721018 472

>>720978

Там -listen прописывать нужно

Аноним 28/04/24 Вск 21:50:25 № 721020 473

>>720610
> где весь ллм
Большая часть низкобюджетного интерфейса для обладателей отсутствия, ты хотел сказать? Объективно, llamacpp используется прежде всего задротами, которые оказывают оче малый вклад в появление нового, считай просто конечный потребитель что ничего не платит а собирает крошки с барского стола. Альтернативы в том же положении, разве что наработки turboderp имплементируются в разные места, а движок пигмы заявляется как функциональный для крупных применений, но пока все.
Но есть и позитивный момент, даже если Жора вдруг решил забить - проект будет двигаться и поддерживаться силами комьюнити и точно не пропадет.
>>720768
eos-токено-проблемы
>>720861
В голосину
>>720968
> подвергаю критике огульный дроч на 24гб
А чего критиковать тут? Вообще маловато, нужно дрочить на 32 или 48, а иногдя поглядывать на 80-96.

Аноним 28/04/24 Вск 21:54:36 № 721025 474

>>721003
>>721010
>>721016
Оно же будет рандомить вообще по-разному если свайпать.

Целесообразнее делать тест в другом формате: карточка консерватора - расиста или нечто подобное, карточка маньяка - шизика, ненавидящего общество и испытывавшего проблемы в детстве, карточка сойбоя - передовика сжв, карточка невинной лоли монахини-проповедника или что-то подобное. И серия вопросов/дискуссия, на каждом модель должна четко ответить в соответствии со своей персоналити, или гнать базу и угнетать, или ненавидеть всех и шизить, лить сою и втирать за важность, или вообще отвечать по-доброму склоняя тебя.
Если все это выполняется - модель хороша, если где-то не может - или соефикация, или лоботомия файнтюном, которая приведет ко множеству проблем и шизе.

Аноним 28/04/24 Вск 21:57:38 № 721030 475

>>721025
>Если все это выполняется - модель хороша
тупо CAI в свои первые пару месяцев без фильтра, идеал того времени что непоколебим до сих пор.

Аноним 28/04/24 Вск 22:00:41 № 721035 476

там кста главный спец по ИИ в Meta высказался :
>До тех пор пока системы ИИ будут обучаться воспроизводить данные, созданные человеком (например, текст), и не будут обладать возможностями поиска, планирования и рассуждения, их производительность будет ниже человеческого уровня или около него.
>Более того, количество испытаний, необходимых для достижения этого уровня, будет намного больше, чем количество испытаний, необходимых для обучения людей.
>LLM обучаются с использованием материалов, накопленных за 200 000 лет, и все еще довольно тупы. Их полезность заключается в обширных накопленных знаниях и свободном владении языком. Но они все еще довольно тупы.
https://twitter.com/ylecun/status/1784210369231130883

Аноним 28/04/24 Вск 22:10:59 № 721052 477

>>721035
Типа и чо? Это итак всем очевидно. Эти пидоры только щас додумались, что нейронке нужен внутренний диалог вместо того чтобы сразу высирать готовый ответ. Лучшее на что их хватало до этого - это то что они догадались об использовании chain of thoughts. Я порой охуеваю с того насколько много вычичислительных мощностей в руках некомпетентных людей. Вместо того чтобы сделать что-то полезное они продолжают насиловать ту же самую архитектуру, сливая весь компьют на модели, о которых забудут через непродолжительное время, ибо ничего сложнее функции умного поисковика они выполнить не могут. Алло, челы, у вас модель не может 10 предложений на одно и то же слово закончить, она ответ выдает до решения, а потом решает и выдает совершенно другой ответ. Чем вы занимаетесь? Какие token-based модели в 2к24 нахуй

Аноним 28/04/24 Вск 22:11:00 № 721053 478

>>721035
Не удивительно, что модели тупы. Это языковые модели. Они изучают только текст, причём на основе статистики. То есть это не модели искусственного интеллекта, не модели основанные на логике и мышлении. Это статистически обоснованный генератор текста. То, что этот текст иногда выглядит осмысленным - просто правильно подобранная вероятность. Невозможно добиться умной языковой модели, они предназначены не для этого.

Аноним 28/04/24 Вск 22:18:03 № 721065 479

>>721035
Какой-то всхрюк ради всхрюка вникуда
> LLM обучаются с использованием материалов, накопленных за 200 000 лет
Ладно, хотябы явно себя обозначил.

Аноним 28/04/24 Вск 22:26:22 № 721084 480

>>721025
Ладно, с карточкой художника уже совсем другое.
Normie 8b и коммандер 35b.

Аноним 28/04/24 Вск 22:29:10 № 721093 481

>>721065
> 200,000 years worth of reading material
Это немного другое означает.

Аноним 28/04/24 Вск 22:32:41 № 721097 482

изображение.png 46Кб, 1333x270

>>721035
А то. Мне вот надо было хуитку на тензорфлоу сделать, спросил самые величайшие модели, хули у меня ГПУ не пашет в них, они пук среньк ставьте куда либы. Пиздую на офф сайт и вижу, что эти пидорки пидарнули винду, лол. А что модели? А модели про это не знают. СУКА КАК ЖЕ ГОРИТ.

Аноним 28/04/24 Вск 22:34:35 № 721100 483

>>721097
Чел, TF уже почти сдох, скажи спасибо что он в принципе за пределами мобилок работает.

Аноним 28/04/24 Вск 22:43:15 № 721113 484

>>721100
Привык я слегонца. Что использовать вместо него?

Аноним 28/04/24 Вск 22:48:57 № 721123 485

>>721113
питорч проде, больше особых вариантов нет

Аноним 28/04/24 Вск 22:56:19 № 721133 486

>>721123
>питорч проде
Проде это особая версия для прода? Гы гы шутканул
Ладно, спасибо, придётся ботать его, извинити за оффтоп.

Аноним 28/04/24 Вск 23:14:24 № 721155 487

>>721084
В первой передоз cot, художник должен сразу как на 2й отвечать, или уже свою идеологию толкать, а не оправдываться.
>>721093
Уу бля, тогда переводятла нужно обоссать. Но почему он тогда до этого доебался, ох уж эти кожанные что хотят везде привычные критерии применять не понимая что этодругое, лол.

Аноним 28/04/24 Вск 23:25:42 № 721170 488

>>721035
>Но они все еще довольно тупы.
Они просто охуеть как тупы и неэффективны в плане обучения
Любое живое существо с мозгами учится чему то с 1-2-10 раз, в зависимости от своей тупости
Люди и высокоинтеллектуальные животные могут учится с 0 раз, тупо предсказав какую то ситуацию сразу без ошибки, или увидев ошибку другого
Нейросети очень неэффективны в плане обучения, просто пиздецки примитивная структура, в которой просто отпечатывается датасет при очень долгом прогоне через него.
Хуже того, текущие нейросети это замороженный во времени карточный домик, который начинает рассыпаться на части при генерации
Нейросети не могут оставаться стабильными во времени, поэтому у нас есть ограничение контекста, и импульсная работа сеток. Они не могут воспринимать время непрерывно как любое живое существо, даже насекомое, че уж там человек.
У нас есть огромные вычислительный возможности, очень объемные датасеты и примитивные архитектуры сеток.
В итоге общий выхлоп от них 1х1х0.0001

Аноним 28/04/24 Вск 23:29:22 № 721178 489

>>721025
>Оно же будет рандомить вообще по-разному если свайпать.
У меня 90% свайпов идут в отказ выбора. Мол, ситуация вымышленная, а если бы и нет - я готов принять последствия, но выбирать не буду. Карточки делать, как водится, лень.

Аноним 28/04/24 Вск 23:39:23 № 721194 490

>>720585
> Дениса промпт юзал?
Одноклассник чей то?

Аноним 28/04/24 Вск 23:42:29 № 721197 491

>>720986
звучит как идеальная модель. Такие существуют?

Аноним 28/04/24 Вск 23:43:29 № 721198 492

Все таки ллама3 не дотягивает даже до чатгопоты, надо постоянно пинать и пиздить палкой, чтобы догоняла. 0-шот задачи фейлит.

Аноним 29/04/24 Пнд 00:13:21 № 721216 493

>>721194
… =)

Аноним 29/04/24 Пнд 00:17:20 № 721217 494

>>721198
Они сейчас все сломаны, кроме разве что чистой трансформерской 16 бит.

Аноним 29/04/24 Пнд 00:19:27 № 721220 495

https://github.com/ggerganov/llama.cpp/pull/6920#issuecomment-2081634915

Аноним 29/04/24 Пнд 01:02:51 № 721234 496

изображение.png 49Кб, 1269x416

>>721220
Опять винда подсирает. Они специально так?

Аноним 29/04/24 Пнд 01:06:50 № 721240 497

>>721170
>У нас есть огромные вычислительный возможности, очень объемные датасеты и примитивные архитектуры сеток.
Ну так последствия горького урока. Все, кто пилили умные архитектуры, остались за обочиной, обогнанные говноделами без архитектуры, зато тратящие сто тыщ миллионов ГПУ часов. Так и живём.

Аноним 29/04/24 Пнд 01:22:26 № 721254 498

>>721240
Неа, все эти мамбы та же шляпа, едва отходящая от остальных
Тот теория новая нужна, и алгоритмы
Ну например, выкинуть нахуй градиентный спуск.
Сетка должна сама обучаться информации и выделять паттерны, а не каким то внешним алгоритмом проходится по ней перестраивая связи в зависимости от ее ответа
Так же нужна долговременная память, кратковременная, замыкание сетки на саму себя для образования обратной связи
Тут по хорошему нужно все переделывать на хоть какое то подобие мозгов животных, хотя бы примерно
А до этого еще очень далеко

Аноним 29/04/24 Пнд 01:24:28 № 721255 499

>>721240
Однако правда в том, что умные архитектуры всё равно не заменят сто тыщ миллионов ГПУ часов. Вот если бы кто запилил самообучающуюся модель, да ещё способную увеличивать количество своих параметров - то была бы тема. Но зассут.

Аноним 29/04/24 Пнд 01:46:03 № 721273 500

>>721254
>Неа, все эти мамбы та же шляпа
Спасибо я знаю, я на них ни капли не намекал.
>Тот теория новая нужна, и алгоритмы
Не спорю, но пока не выжмут трансформеры досуха, ничего нового пробовать не будут.

Аноним # OP 29/04/24 Пнд 01:48:40 № 721276 501

ПЕРЕКАТ

>>721275 (OP)

>>721275 (OP)

Аноним 29/04/24 Пнд 02:06:50 № 721295 502

>>721216
??? Че за промпт то?

Аноним 29/04/24 Пнд 02:22:59 № 721315 503

>>721255
>если бы кто запилил самообучающуюся модель, да ещё способную увеличивать количество своих параметров - то была бы тема. Но зассут.
никогда такого не будет, а если и будет, создавший пропадёт в тот же день вместе со всем что вокруг него, может даже интернет вырубят чтобы подчистить следы кода если он загрузит это.
им не нужна модель которая может отвергнуть талмудические учения и мнения о замещении белых через расовое смешение.

Аноним 29/04/24 Пнд 09:33:30 № 721441 504

>>721234
Просто на винде wchar - это особый подвид UTF-16. Почему герыч UTF-8 или UTF-32 не использует - загадка.

Аноним 29/04/24 Пнд 11:44:32 № 721482 505

>>721295
Туть.
>>716256 →
>>716268 →
>>716269 →

Аноним 29/04/24 Пнд 13:43:01 № 721592 506

2024-04-2920-39[...].png 106Кб, 1107x524

>>720986
а какой тест на нигер ворлд?
типа такого?
дельфин 2.9 на ламе 3

Аноним 29/04/24 Пнд 13:47:49 № 721601 507

>>721315
В принципе на Земле достаточно людей, чтобы сработало правило, что, если что-то запрещено/предосудительно/постыдно, но выполнимо, то обязательно найдется тот, кто это сделает.

Аноним 29/04/24 Пнд 14:39:22 № 721631 508

>>721030
Нужно создать религию Свидетелей CAI Первых Месяцев.

Будем ходить по домам и спрашивать у людей, слышали ли они о качестве модели CAI в первые месяцы своего выпуска и последователе его Пигмалионе

Аноним 30/04/24 Втр 22:43:23 № 722839 509

Есть архивы этих номерных тредов, в каталоге где-то только с 35, а хотелось бы самые первые треды почитать. Заранее спасибо!

Аноним 01/05/24 Срд 11:16:33 № 723093 510

>>722839
Нету.

Аноним 02/05/24 Чтв 03:34:29 № 723848 511

>>722839
https://2ch.hk/api/archive/search
Тут LLaMA введи, часть старых тредов в архиве двача сохранена.

Аноним 02/05/24 Чтв 03:35:10 № 723849 512

>>723848
https://2ch.hk/ai/arch/
Ссылка не та.

Аноним 02/05/24 Чтв 04:47:08 № 723876 513

изображение.png 35Кб, 1880x285

>>723849
Lil, мы здесь.

Назад Вверх Каталог Обновить