Главная Юзердоски Каталог Трекер NSFW Настройки

Искусственный интеллект

Ответить в тред Ответить в тред
Check this out!
<<
Назад | Вниз | Каталог | Обновить | Автообновление | 506 125 99
LLaMA тред №11 /llama/ Аноним 19/06/23 Пнд 17:12:35 362380 1
16854861312250.png 818Кб, 630x900
630x900
В этом треде обсуждаем семейство моделей от фейсбука под названием LLaMA, делимся рецептами запуска, настроек и годных промтов, и бугуртим с кривейшего тормозного говна, что сейчас наспех выпустили, а отладить забыли.
Тред для обладателей топовых карт NVidia с кучей VRAM или мажоров с проф картами уровня A100, или любителей подождать, если есть оперативная память. Особо терпеливые могут использовать даже подкачку и запускать модели, квантованные до 5 4 3 2-х бит, на кофеварке с подкачкой на микроволновку.

LLaMA это генеративные текстовые модели размерами от 7B до 65B, притом младшие версии моделей превосходят во многих тестах обходит GTP3, в которой 175B параметров (по утверждению самого фейсбука). От неё быстро ответвилась Alpaca, Vicuna и прочая живность из Южной Америки, те же модели, но с файнтюном под выполнение инструкций в стиле ChatGPT, американские студенты рады, в треде же пишут про мусор с тегами в выводе, что запускать, решать вам.

Сейчас существует несколько версий весов, не совместимых между собой, смотри не перепутай!
0) Оригинальные .pth файлы, работают только с оригинальным репозиторием. Формат имени consolidated.00.pth
1) Веса, сконвертированные в формат Hugging Face. Формат имени pytorch_model-00001-of-00033.bin
2) Веса, квантизированные в ggml. Работают со сборками на процессорах. Имеют несколько подформатов, совместимость поддерживает только koboldcpp, Герганов меняет форматы каждый месяц и дропает поддержку предыдущих, так что лучше качать последние. Формат имени ggml-model-q4_0.bin. Суффикс q4_0 означает квантование, в данном случае в 4 бита, версия 0. Чем больше число бит, тем выше точность и расход памяти. Чем новее версия, тем лучше (не всегда).
3) Веса, квантизированные в GPTQ. Работают на видеокарте и с оффлоадом на процессор в вебуи. Новые модели имеют имя типа llama-7b-4bit.safetensors (более безопасные файлы, содержат только веса), старые llama-7b-4bit.pt

В комплекте с хуитками для запуска обычно есть скрипты конвертации из оригинальных файлов или из формата Hugging Face. Для некоторых типов весов нужны дополнительные файлы типа params.json, короче качаем всё что видим, авось пригодится. Оригинальную llama.cpp сейчас трясёт, и веса придётся конвертировать ещё раз.

Гайд для ретардов без излишней ебли под Windows. Грузит всё в процессор, поэтому ёба карта не нужна, запаситесь оперативкой и подкачкой:
1. Скачиваем koboldcpp.exe https://github.com/LostRuins/koboldcpp/releases/ последней версии.
2. Скачиваем модель в ggml формате. Например вот эту
https://huggingface.co/Pi3141/alpaca-lora-30B-ggml/tree/main
Можно просто вбить в huggingace в поиске "ggml" и скачать любую, охуеть, да? Главное, скачай файл с расширением .bin, а не какой-нибудь .pt
3. Запускаем koboldcpp.exe и выбираем скачанную модель.
4. Заходим в браузере на http://localhost:5001/
5. Все, общаемся с ИИ, читаем охуительные истории или отправляемся в Adventure.

Да, просто запускаем, выбираем файл и открываем адрес в браузере, даже ваша бабка разберется!

Для удобства можно использовать интерфейс TavernAI
1. Ставим по инструкции, пока не запустится: https://github.com/TavernAI/TavernAI (на выбор https://github.com/Cohee1207/SillyTavern , умеет больше, но заморочнее)
2. Запускаем всё добро
3. Ставим в настройках KoboldAI везде, и адрес сервера http://127.0.0.1:5001
4. Радуемся

Ссылки:
https://rentry.co/llama-tard-v2 общая ссылка со всеми гайдами от иностранных коллег, порядком устарела
https://rentry.org/TESFT-LLaMa Свежие гайды на ангельском
https://github.com/oobabooga/text-generation-webui/wiki/LLaMA-model Удобный вебгуй для запуска
https://github.com/ggerganov/llama.cpp репозиторий с реализацией на плюсах и запуском на процессоре, в 10 раз медленнее видеокарт, зато не нужна карта с десятком гигабайт VRAM.
https://github.com/tloen/alpaca-lora Та самая альпака.
https://github.com/antimatter15/alpaca.cpp тоже самое, только на плюсах и проце.
https://pastebin.com/vWKhETWS Промт для АИ собеседника
https://pastebin.com/f9HZWiAy Промт для Мику
https://rentry.co/vsu4n Инструкция GPTQ
https://ivonblog.com/en-us/posts/alpaca-cpp-termux-android/ Запуск на телефоне
https://rentry.org/lmg_models Самый полный список годных моделей
https://github.com/oobabooga/text-generation-webui/files/11069779/LLaMA-HF-4bit.zip не самые новые торренты
https://huggingface.co/lmsys Викуня, хороша для программирования, но соевая
https://huggingface.co/anon8231489123/gpt4-x-alpaca-13b-native-4bit-128g
https://huggingface.co/camelids/llama-65b-ggml-q2_0 65B, квантованные в 2 бита.
https://huggingface.co/reeducator/bluemoonrp-30b Единственная модель с размером контекста в 4к токенов

Факультатив:
https://rentry.org/Jarted Почитать, как трансгендеры пидарасы пытаются пиздить код белых господинов, но обсираются и получают заслуженную порцию мочи

Предыдущие треды тонут здесь:
>>320577 (OP)
>>302097 (OP)
Аноним 19/06/23 Пнд 17:19:11 362393 2
>>362380 (OP)
О, мой пик в оп посте, я знал что собакашизику понравится. Сыканул ему в ебло кста.
Аноним 19/06/23 Пнд 17:26:28 362405 3
>>362380 (OP)
Ты заголовок треда проебал, звони модератору.
Аноним 19/06/23 Пнд 17:39:18 362423 4
>>362393
> Сыканул ему в ебло кста.
Присоединяюсь, не дадим ему просохнуть.
Аноним 19/06/23 Пнд 17:40:46 362425 5
>>362393
>собакашизику
О, уже я, ОП, собакошиз? Тут вообще аноны кроме собакошиза есть?
>>362405
Уже, ждём неделю.
Аноним 19/06/23 Пнд 17:41:31 362426 6
>>362405
> заголовок треда проебал
Ну всё, это бан, я уже позвонил в конфу.
Аноним 19/06/23 Пнд 17:42:58 362429 7
Аноним # OP 19/06/23 Пнд 17:55:31 362450 8
Да бля, каждые пару тредов просираю эти заголовки и теги, могли бы привыкнуть.
Аноним 19/06/23 Пнд 17:58:00 362453 9
>>362425
>ему
Значение знаешь?
Аноним 19/06/23 Пнд 19:14:35 362520 10
Анон, поясни. Есть один компьютер на работе с 16гб оперативки и затычкой вместо видюхи. Еще есть некоторое количество свободного времени и желания подергать текстовые модельки (а не свой анус). Получится ли у меня что-то, и если получится, то какую модельку стоит подергать, если меня не то чтобы очень интересует ролеплей, прон и гуро, а больше интересует возможность модельки не забывать после трех шагов диалога о чем шла речь и вообще связность диалога?
Аноним 19/06/23 Пнд 20:02:35 362586 11
>>362520
7B твой предел, ссылка на модель с 4к контестом в шапке, там рядом поищи версию с меньшим числом параметров.
Аноним 19/06/23 Пнд 20:16:42 362617 12
>>362380 (OP)
Тем временем даже на турбе 16к контекста
Аноним 19/06/23 Пнд 20:29:41 362639 13
>>362617
Дай 10 лярдов инвестиций, я тебе 32к сделою.
Аноним 20/06/23 Втр 01:33:49 363054 14
Аноним 20/06/23 Втр 01:48:06 363068 15
Я тут ржача ради потыкал 2-битные модели, Блок наквантовал. Это угарно, они даже не такие тупые, как я думал (хотя 7B тупые все же), но быстрые ппц. --threads 6 дарит 9 токенов на 7B и 4-5 токенов на 13B (один раз на 8 т/сек фартануло).
При этом весят от 3 гигов (5,5 развернутая) до 6 (9 развернутая). Думаю (но не проверял), что даже в 8 гигов озу можно впихнуть 13B, и сидеть относительно быстро.
Аноним 20/06/23 Втр 02:07:29 363086 16
>>363068
А большие модели там есть? Интересно сравнить какую-нибудь 65б зарезанную с полноценной или легко квантованной 7-13б.
>>363054
> airoboros-13b-gpt4-GGML
К ней кстати заявлялась работа на 4к контексте, но по факту более 2.5к уже начинает шизу. Алсо семейство этих моделей использует кто? Интересен рецепт хороших длинных реплик для рп.
Аноним 20/06/23 Втр 02:57:51 363129 17
Тем временем Гусев Сайгу лору на 65 сделал https://huggingface.co/IlyaGusev/saiga_65b_lora
теперь бы ещё с моделью объединил, но что-то не спешит, наверное нужно попросить. Жаль Блок Сайгу не квантует.
Аноним 20/06/23 Втр 09:30:20 363229 18
image.png 279Кб, 1102x678
1102x678
>>362380 (OP)
Где можно посмотреть инструкции которые понимает ллама/wizardLM? А то я уже не знаю.
Аноним 20/06/23 Втр 13:03:10 363492 19
>>363129
Я Гусева тогда попросил 65B сделать, он сказал «хорошая идея». Думаю, он и ее квантанет, просто, мб, нужно время? Еще пару дней подождать. А там уж можно начать ломиться в дискашн к лоре.

>>363086
https://huggingface.co/TheBloke — да, все latest модельки 65b он в 2 бита квантует.
https://huggingface.co/TheBloke/VicUnlocked-alpaca-65B-QLoRA-GGML/tree/main — лучшая, на мой вкус, кстати, адекватные ответы в работе.
Аноним 20/06/23 Втр 13:32:49 363522 20
1681535892832.png 185Кб, 1559x1038
1559x1038
>>363492
> 2 бита
Мало смысла в них. Скорость такая же как у q3, зато скор падает прилично, а экономия памяти хуйня. q3 с оффлоадом - самое нормальное.
Аноним 20/06/23 Втр 13:52:03 363535 21
>>363522
Да сам-то я на 5_1 или 6_K сижу. =) Но табличка хороша, спс, еще тройку тоже погоняю.

Мне интересно теперь запустить это на старом ноуте с 8 гигами озу. Там еще 920M видяха, вроде дно, но вдруг получится офлоднуть на нее часть. Закинуть его на антресоль и пусть радует быстрыми перлами.
ЗЫ 1 слот, анон, 16 не впихну.
Аноним 20/06/23 Втр 14:53:57 363603 22
>>363522
математически самая оптимальная битность - это e ≈ 2.718.
Аноним 20/06/23 Втр 19:23:14 363794 23
>>363229
Подписался на пост.
Аноним 20/06/23 Втр 19:25:22 363795 24
>>363229
Последний вопрос меня заинтересовал, можно ответ?
Аноним 20/06/23 Втр 19:33:23 363804 25
>>363054
Попробую последнюю, спасибо. Пока что скачал какую-то модельку на 7B и засунул ее в кобольд.ццп. Ощущаю что толи нифига не понял, толи нифига не понял.
Аноним 20/06/23 Втр 20:50:19 363879 26
>>362380 (OP)
Я ньюфаг, разбираюсь в теме второй вечер. Даже хз, в этот ли тред постить

Поставил себе модельку через koboldcpp и подключился к ней в SillyTavern. Проблема была в том, что персонажи писали действия за меня, я погуглил и сделал как тут написано https://rentry.org/better-llama-roleplay
Просто захардкодил предложенный system note в скрипты таверны

РП стало лучше, но теперь бывает бот (Персонажей брал с chub если это важно) выдает сообщение типа
нормальный ответ в персонаже
пустая строка
System note: blah blah blah
Вроде фиксится уменьшением токенов на ответ и регенерацией сообщения

Еще бывает ответ вида имя персонажа: текст, хотя предыдущие сообщения были нормально форматированы

Пытаюсь понять куда копать :( Обнаружил в таверне в Advanced formatting Instruct mode и под ним поле для system prompt, может туда нужно было вставлять инструкции для нейросетки?
Аноним 20/06/23 Втр 21:01:25 363889 27
>>363879
> System note: blah blah blah
Похоже на взорванную модель, какую используешь? Замени на другую, покрути настройки. Если все остальное нравится а это никак не побеждается - смирись и редактируй или регенерейт, лол.
> писали действия за меня
В настройках таверны есть фраза отсечки, по умолчанию там как раз you: Также это передается в бек энд для остановки вовремя, но работает нормально не всегда.
Аноним 20/06/23 Втр 21:02:56 363894 28
OpenCL llama.cpp как, норм работает на gpu?
Сильно быстрее чем avx-вариант? До cuda дотягивает?
Аноним 20/06/23 Втр 21:10:04 363904 29
>>363889
Модель использовал airoboros-13b-gpt4.ggmlv3.q4_0

А вот насчет фраз еще - бот генерит законченные сообщения в пределах токенов для ответа, но иногда доходит до максимума и получается ответ с незаконченным предложением. Это возможно пофиксить?
Аноним 20/06/23 Втр 21:12:25 363912 30
>>363904
Отправь пустое сообщение или прикажи продолжить (continue)
Аноним 21/06/23 Срд 14:01:11 364686 31
1.jpg 23Кб, 765x169
765x169
2.jpg 59Кб, 770x312
770x312
Не покидает ощущение, что она обучена на форумах нулевых. Ладно хоть ссылку на гугл не кидает.
Аноним 21/06/23 Срд 15:16:49 364799 32
изображение.png 38Кб, 370x70
370x70
изображение.png 6Кб, 65x67
65x67
>>364686
По твоему в 30 гигах сохранены все знания мира?
Аноним 21/06/23 Срд 15:30:04 364813 33
>>364799
У меня был диск 600 мб где была вся мировая литература на 2006 год.
Аноним 21/06/23 Срд 16:32:57 364844 34
1628375844209.png 62Кб, 2437x234
2437x234
Аноним 21/06/23 Срд 17:02:31 364887 35
>>364844
Нет, после 2006 видимо много макулатуры насрали.
Аноним 21/06/23 Срд 17:23:14 364919 36
>>364813
>вся мировая литература
Разве что школьная программа.
Аноним 21/06/23 Срд 17:23:21 364920 37
>>364813
Такой же диск был
По приколу каждый раз выбирал для чтения рандомную книжку
Аноним 21/06/23 Срд 19:16:32 365038 38
>>364813
Если что, сейчас архив Флибусты весит 1,04 Тб, http://rutor.info/torrent/703146/biblioteka-flibusta-na-01.05.2023-multilib-2023-fb2-usr-oficialnaja , а там далеко не вся литература мира, и уж точно нет большей части технической, так что эта фигня про диск со всей литературой мира просто влажный маркетинг нулевых, сам тогда дисками занимался.
Аноним 21/06/23 Срд 19:17:02 365039 39
>>364919
Не гони, школьная программа это книг 100 если не меньше.
Аноним 21/06/23 Срд 19:19:36 365041 40
>>365038
За 20 лет тупа насрали макулатурой больше чем за всю остальную историю человечества. Это как с играми, которых выходит в год больше чем всего вышло игр на нинтендо.
Аноним 21/06/23 Срд 19:25:23 365044 41
>>365041
Прочитал там всю фантастику. Всего Лема, Азимова, Филипа Дика и величайшего писателя современности ЛУКЬЯНЕНКО.
Аноним 21/06/23 Срд 19:45:47 365077 42
>>365044
>величайшего писателя современности
Жид он, а не писатель. Самый ярый копиразд.
Аноним 21/06/23 Срд 19:56:09 365085 43
>>365077
И что, ну жид, Азимов тоже жид, и Лем и Дик и остальные 99% писателей.
Аноним 21/06/23 Срд 20:04:45 365094 44
>>365085
Азимов не тёр книги со всего интернета.
Аноним 21/06/23 Срд 20:11:09 365100 45
>>365094
У него просто не было интернетов.
Аноним 21/06/23 Срд 20:22:49 365115 46
>>365100
У тысяч сорвеменных писак интернеты есть, но они не носятся с горящей жопой при каждом появлении своих произведений в открытом доступе.
Аноним 21/06/23 Срд 20:30:44 365125 47
>>365115
Да ладно, ТЫСКОЗАЛ?
Аноним 21/06/23 Срд 21:57:58 365203 48
1600612958866.png 115Кб, 2539x644
2539x644
Жора какие-то оптимизации привёз для куды? Раза в два стало быстрее. 30В теперь 25 т/с, 7В вообще под 50 т/с, 15 мс на токен.
Аноним 21/06/23 Срд 22:49:36 365272 49
1612744709616.png 256Кб, 1241x1451
1241x1451
Пикрилейтед Лазарус 30В, промпт - дефолтный ассистент. Уберите от экранов детей и собакошизов.
Аноним 22/06/23 Чтв 00:42:07 365419 50
>>365203
Распиши как ставил убабугу. С ванклик инсталлерами подобной производительности не добиться, оно по дефолту использует старую куду и все сопутствующее, 1.65 ллама на ней вообще не собирается а 1.64 костыльно. Если версии в скрипте поднять то оно подсасывает, сборка компонентов работает, но если посмотреть в логах - оно всеравно тащит старые версии для многих компонентов и устраивает анальный цирк с откатом на старые версии пакетов для компиляции некоторых. Тем не менее корень проблемы очевиден и даже так производительность бустится значительно, но не достигает значений что у тебя, тдп поднимается со сотни до 200-300вт. Нужно ставить нормально со всеми последними версиями, была бы еще нормальная инструкция.
Хотя уже 13b q5 ~30 т/с довольно неплохо, ggml моделька полностью на видеокарте крутится выходит.
Аноним 22/06/23 Чтв 01:38:05 365503 51
Screenshot1.png 97Кб, 1384x834
1384x834
Аноним 22/06/23 Чтв 04:38:38 365626 52
Screenshot1.png 368Кб, 557x889
557x889
Обнаружены две охуенные ggml модели :
https://huggingface.co/TheBloke/guanaco-7B-GGML
https://huggingface.co/TheBloke/guanaco-13B-GGML
Обе хороши и отлично следуют формату W++ если вы любите текстовые потрахушки.
Но есть обязательное условие, из "Examples of dialogue" уберите все <START> затычки, ибо они юзаются только в pygmalion моделях, и портят прикол для всех остальных llama-подобных моделей.
работает отлично с дефолт пресетом (на пике) :
Аноним 22/06/23 Чтв 09:40:22 365678 53
>>365203
Эт на какой видяхе?
Аноним 22/06/23 Чтв 09:41:50 365679 54
Аноним 22/06/23 Чтв 09:46:52 365683 55
Короче, че-т у меня фигня.
На 3060 ноутбучной 7B-моделька выдает 25 токенов в секунду. На 4070 ti десктопной 7B-моделька выдает 18 токенов в секунду, 13B —15 токенов в секунду. Чзнх. 3060 грузится на 65%-70%, десктопная на 35%-40%.
На ноуте винда 11, на компе —10. Может в этом дело?
Хотя на десктопе 0.1.65 с force_cmake=1 собираться отказалась нафиг, копировал собранные dll-ки с ноута, может дело в этом, непонятная фигня.
Может кто что подскажет?
Build Tools 22 одинаковый, ван-клик с нуля, дрова одинаковые, последние, что не так-то йопта…
Аноним 22/06/23 Чтв 09:49:07 365684 56
>>365503
Это ж фалькон, он такое всегда выдает, но я не ебу почему. Какая-то переоцененная хуйня, побеждает в тестах старые 30B-модели, нормальные просто отсутствуют в топе, как бы и лесом пусть идет, мне лень разбираться с таким маркетингом с их стороны. =)
Аноним 22/06/23 Чтв 09:53:05 365685 57
4 ответа сверху —ето я насрал, не ждите, что я сам себе отвечу, делитесь знаниями. (=
Аноним 22/06/23 Чтв 11:50:19 365747 58
>>365419
Я просто вчера обновил llama-cpp-python с перекомпиляцией и стало быстрее. Но похоже 7В уже боттлнечит что-то, только на 13В и 30В стало быстрее в два раза. 13В выдаёт 40 т/с. На 65В всё так же около 3 т/с.
>>365678
4090
>>365503
У Фалкона другая архитектура, это не лама. Надо форк использовать, на основной ветке пока нет поддержки.
Аноним 22/06/23 Чтв 12:28:53 365769 59
image.png 131Кб, 1173x954
1173x954
>>365747
У меня чето вроде начало получаться, но вообще я хочу какой-то гайд или источник того, какие параметры за что отвечают, как промпт сформулировать, контекст дать там, и что-то еще чего я вообще не знаю что оно мне нужно.
Есть такой классный гайд или страничка с гайдами или что?
Аноним 22/06/23 Чтв 13:47:19 365834 60
На русском моделек ещё не завезли? Думал для родителей приколюху сделать, но на инглише оно им точно не упёрлось. Вариант с переводом думаю лютую шизу будет гонять.
Аноним 22/06/23 Чтв 13:51:57 365842 61
>>365834
Давно завезли
С разморозкой кстати
Аноним 22/06/23 Чтв 13:56:12 365846 62
>>365842
Как зовутся, насколько хуйню несут? Спасибо, разморозился вовремя, как раз время появилось опять оперативку себе засирать
Аноним 22/06/23 Чтв 14:19:49 365879 63
Screenshot 2023[...].png 142Кб, 910x971
910x971
У кобольда новый апдейт, теперь ещё быстрее в OpenCL.
Аноним 22/06/23 Чтв 14:34:50 365886 64
>>365679
Ты же вроде понимаешь о чем речь и что этот этап и так пройден, если нет то перечитай пост.
>>365747
Оно по дефолту с окружением что ванкликом подсасывается последнюю версию лламы с кудой не ставит в принципе, а для сборки 0.1.64 необходимо доп флаги куды указывать чтобы не было ошибки, на гите лама-питона есть несколько топиков. С кудой 118 уже все работает нормально и быстрее, но 3т/с на 65б также не хочет.
Ладно раз у тебя ванклик и 4090 то буду еще раскуривать что не так.
Аноним 22/06/23 Чтв 14:52:01 365903 65
>>365769
Выкинь кобольд или жди пока обновят, он не очень свежий.
>>365886
> ванкликом
Не, у меня просто git clone и pip install -r requirements.txt. llama.cpp ставил тремя командами из справки убабуги, обновлял удалением и установкой без кэша.
Аноним 22/06/23 Чтв 15:32:29 365954 66
>>365626
> из "Examples of dialogue" уберите все <START> затычки
Каво? Это где?
Аноним 22/06/23 Чтв 15:35:49 365958 67
Screenshot2.png 15Кб, 304x91
304x91
>>365954
вот здесь жмакай на книжку и там будет "Examples of dialogue"
Аноним 22/06/23 Чтв 15:36:05 365959 68
image.png 153Кб, 549x323
549x323
>>365626
Генитальные диалоги. Какой прест для нее нужон?
Аноним 22/06/23 Чтв 15:36:46 365963 69
Аноним 22/06/23 Чтв 15:37:22 365964 70
>>365959
*пресет

быстрофикс
Аноним 22/06/23 Чтв 15:39:56 365967 71
Что там, дегенераты на авторах моделей всё игнорируют расширение контекста из Bluemoon? Как называется эта болезнь?
Аноним 22/06/23 Чтв 16:05:46 366009 72
>>365967
Возьми да запили сам.
Аноним 22/06/23 Чтв 16:11:12 366016 73
>>366009

Подгони мне А40 - запилю, без вопросов.
Аноним 22/06/23 Чтв 16:32:58 366061 74
>>366016
А код тебе написать, датасет собрать? Сопельки подтереть?
Аноним 22/06/23 Чтв 16:33:04 366062 75
image.png 1Кб, 281x57
281x57
>>365903
>Выкинь кобольд или жди пока обновят
Так что по поводу параметров генерации промптов и вообще того, как потыкать в модельку?
Аноним 22/06/23 Чтв 16:38:51 366074 76
image.png 1Кб, 281x57
281x57
>>366062
> он не очень свежий
Что насчет параметров генерации и всего остального? Есть же какие-то гайды или статьи или что?
Аноним 22/06/23 Чтв 18:19:16 366349 77
Аноним 22/06/23 Чтв 18:52:10 366435 78
>>365846
Глянь сайгу например
Аноним 22/06/23 Чтв 18:53:13 366438 79
>>365846
В llama.cpp добавили OpenCL - теперь оперативку можно экономить, gpu память суммируется с оперативкой
Аноним 22/06/23 Чтв 19:16:49 366489 80
>>366435
Ох, слушай, точно ведь, помню в этом треде на неё натыкался, спасибо что напомнил.
>>366438
Если видеокарта древняя нвидия или новая амд, то не сработает, так как обязательно CUDA ядра нужны?
Аноним 22/06/23 Чтв 19:25:55 366524 81
>>366349
Спасибо. Нихуя не понятно, но очень интересно.
Аноним 22/06/23 Чтв 19:31:07 366537 82
Аноним 22/06/23 Чтв 19:32:59 366548 83
>>365967
Да не, есть живые обсуждения, васяны пытаются лорой зафантюнить на больший контекст, но пока хороших результатов более 2.5к не заявлено. Выдвигаются утверждения о том что самой модели то в целом без разницы сколько обрабатывать, а причина плохой работы с большим контекстом - обучение базовой модели и нормальным файнтюном это можно починить. Хз насколько соотносится с реальностью, у блумун же токенайзер еще другой, не?
Вообще, луну кто-то на эти самые 4к контекста тестировал полноценно?
Аноним 22/06/23 Чтв 19:42:30 366571 84
>>366537
Ух бля, первая отличная новость за последний месяц.
Аноним 22/06/23 Чтв 19:45:01 366578 85
>>366548
>у блумун же токенайзер еще другой

Разве?

>луну кто-то на эти самые 4к контекста тестировал полноценно?

Я тестировал, работает. С ума не сходит при превышении 2к и реально помнит все 4к токенов.
Аноним 22/06/23 Чтв 19:45:16 366579 86
>>366548
>самой модели то в целом без разницы сколько обрабатывать
Количество голов внимания таки ограничено.
Аноним 22/06/23 Чтв 19:48:59 366588 87
>>366537

Прорыв был в начале мая, когда говномодель на 65к контекста выпустили и параллельно вышел bluemoon на 4к контекста.
Аноним 22/06/23 Чтв 19:50:50 366593 88
>>366489
Нет, только OpenCL - оно почти везде работает
На радеонах неплохо так шпарит например
Аноним 22/06/23 Чтв 19:56:05 366602 89
Пацаны, видел на форчке 8к контекста модель высрали. Тестил кто? Как тама?
Аноним 22/06/23 Чтв 20:01:32 366622 90
>>366593
Ох, тогда благодарю, буду чекать что как, если оно заведётся и будет шустро бегать, то отлично прям.
Аноним 22/06/23 Чтв 20:03:05 366630 91
>>366588
>говномодель на 65к контекста выпустили
Хоть кто-то получил от неё связные результаты свыше 2к токенов?
>>366602
Там надо патчить и компелять, ждём пердолей, скоро небось параметр добавят.
Аноним 22/06/23 Чтв 20:10:59 366656 92
>>366630
> Там надо патчить и компелять, ждём пердолей, скоро небось параметр добавят.
Ясно, ждём. Ух бля, прорыв. Ещё бы не 13Б юзлес говно. Кто-нибудь тестил кстати как суперкот в рп? А то я по сути только для рп юзаю
Аноним 22/06/23 Чтв 20:22:12 366693 93
>>366656
>как суперкот в рп
Западные каллеги долгое время считали его лучшим для ЕРП, лол.
Аноним 22/06/23 Чтв 21:13:17 366796 94
>>366693
Заебися, отлично. Прям 10 на 10, ждём ебучих пердоликов.
Аноним 22/06/23 Чтв 23:46:10 367207 95
Warhammer-40000[...].jpeg 241Кб, 1047x1022
1047x1022
https://github.com/ggerganov/llama.cpp/tree/master/examples/train-text-from-scratch
объясните дегенератору как этим пользоваться. типа я просто кормлю пустой модели какой-то ссанный неструктурированный файл с непонятно чем и непонятно на каком языке и гоняю так 3к раз чтобы получить чатжпт на минималках? правильно?
Аноним 22/06/23 Чтв 23:59:13 367249 96
>>367207
Сначала осиль скомпилить бинарник.
Аноним 23/06/23 Птн 00:09:41 367270 97
>>367207
Так фишка таких моделей не понимание структурированного текста, а выявление закономерностей в любом тексте
Именно поэтому они и взлетели: им можно скармливать источники информации любого качества, они сами их усреднят и извлекут закономерности
Они не понимают текст и смысл, они лишь знают какая буква наиболее вероятна в этой строке следующей
То есть это не ИИ, никакого интеллекта там нет, это просто некий нечеткий поисковик с сильно пожатой базой, из-за чего он и способен врать: в любой строке вероятна следующая не одна буква, а сразу много, и вероятности довольно близкие, легко выбрать не ту букву
И именно из-за того что на вероятность каждой буквы влияет вся предыдущая строка, возможно эти модели профилировать с помощью промтов: промт задает контекст, от которого и начинается поиск следующих букв
Такая вот хуйня. Но результат вызывает вау-эффект конечно, причем настолько, что некоторые топы всерьез рассматривают возможность поручить этим моделькам какие-то серьезные вопросы, что смешно
Аноним 23/06/23 Птн 00:46:52 367352 98
>>367207
Охтыж, таки запилили тренировку с нуля. Интересно, сколько по времени.
>>367270
Вербальные операнты у человека - распределение вероятностей над последовательностями морфем. Языковые модели а-ля лама - распределение вероятностей над последовательностями токенов. Вся разница в том, что у трансформеров нет возможности менять веса в реальном времени, только в процессе претрейна и файнтюнинга.
Аноним 23/06/23 Птн 00:50:50 367359 99
>>365038
А есть ещё подобные архивы?
Аноним 23/06/23 Птн 04:06:13 367525 100
>>367359

Есть архив Либрусека, но там плюс-минус то же самое. Сам я пользуюсь им, кстати.
И есть Library Genenis - самый монструозный архив с 4 млн книг весом 32 тб - такой вес из-за того что библиотека в pdf формате. Есть текстовая версия, она весит всего 500 гб, но технические и научные книги скорее всего будут нечитаемы.
Аноним 23/06/23 Птн 09:28:41 367615 101
>>367352
Ну, альтернативой смены весов является контекст, так что тут не совсем корректно, если ориентироваться на результат.
Аноним 23/06/23 Птн 10:16:55 367638 102
hd.png 694Кб, 1002x748
1002x748
>>366438
лол, а ведь реально экономит оперативку
Аноним 23/06/23 Птн 12:19:55 367749 103
>>367615
>альтернативой смены весов является контекст,
Не является. Сравнение языковых моделей на основе трансформеров с функциональной организацией языка у человека можно считать корректным, так как хотя морфемы и токены это не одно и то же, но они и не насколько радикально отличаются, чтобы одно нельзя было представить в виде второго. Собственно, поэтому трансформеры и нормально моделируют языковое поведение человека. Контекст же не меняет оригинальные веса модели, тогда как нормальное вербальное поведение человека меняет связи в ЦНС. Поэтому здесь разница очень серьезная, хотя результаты в краткосроке и выглядят одинаково. Контекст не оказывает глобального влияния на трансформер, поэтому его вербальное поведение можно сравнить скорее с тем, что на оп пике, чем с таковым нормального человека.
Аноним 23/06/23 Птн 16:26:45 368024 104
>>367638
Нихуя, это ты как сделал такую cmd?
Аноним 23/06/23 Птн 16:28:48 368025 105
>>367749
То есть — является.
Я сразу и сказал про краткосрок.
Тейк был в том, что в рамках одно диалога мы получаем схожий результат.
Извиняюсь, если не очевидно уточнил.
Аноним 23/06/23 Птн 16:33:41 368033 106
Не дрочил локальные месяца два. Правильно понимаю, что теперь gptq нинужна? Cpp приблизилась к ней? 3090 на борту, интересуют 13-30B модельки
Аноним 23/06/23 Птн 16:48:51 368041 107
Ibm5151-1.jpg 215Кб, 1431x1002
1431x1002
Аноним 23/06/23 Птн 16:58:11 368051 108
5g58ekro68py.png 2132Кб, 1549x1278
1549x1278
51852dda-dc53-4[...].png 943Кб, 1044x823
1044x823
68747470733a2f2[...].jpeg 123Кб, 1024x805
1024x805
cool-retro-map.webp 122Кб, 1319x908
1319x908
Аноним 23/06/23 Птн 16:58:40 368053 109
largedisplayimg[...].webp 190Кб, 1280x960
1280x960
Аноним 23/06/23 Птн 18:51:48 368246 110
1657928035770.webm 2826Кб, 640x360
640x360
>>368051
Отвратительно. Из разряда "пиксельарта".
Аноним 23/06/23 Птн 19:23:52 368290 111
>>368033
Вот ты попробуй завести 30b ggml 4 битную на скоростях что у анона выше, как раз будет ответ.
Аноним 23/06/23 Птн 19:26:17 368294 112
>>368246
Когда машины были медленнее мониторов
Аноним 23/06/23 Птн 22:14:13 368532 113
Аноним 24/06/23 Суб 03:38:06 368722 114
эксперементирую с bluemoonrp 30b 4k на таверне через koboldcpp, и такая проблема, ближе к 4к контекста сетка становится тупой и начинает отвечать однотипно и не особо опираясь на мои фразы. Как такое лечить?
И вторая проблема, опять же при достижении 4к, кобольд каждый раз начинает все 4к токенов "пересчитывать", с этим что-то можносделать?
Аноним 24/06/23 Суб 08:19:32 368795 115
>>368722
>ближе к 4к контекста сетка становится тупой и начинает отвечать однотипно и не особо опираясь на мои фразы.
Залочь контекст на 3-3.5к, там между этими значениями она ебу дает. Возможно это лечится настройками температуры и семплов, но там надо в ручную подбирать, а у меня лапки.

>опять же при достижении 4к, кобольд каждый раз начинает все 4к токенов "пересчитывать", с этим что-то можносделать?
--smartcontext будет пересчитывать не каждый раз и не все 4к.
Аноним 24/06/23 Суб 09:17:11 368812 116
>>368722
> сетка становится тупой и начинает отвечать однотипно и не особо опираясь на мои фразы
Блумун сама по себе специфична и может так делать с малым контекстом. Или все таки речь о значительной разнице а заметной деградации?
Аноним 24/06/23 Суб 14:55:17 368952 117
2023-06-2416-54.png 1037Кб, 2530x768
2530x768
Как вообще koboldcpp правильно запускать? Я евроде скачал и скомпилил как у них на странице в гите написано, а при запуске пишет
Warning: OpenBLAS library file not found. Non-BLAS library will be used.
При этом оперативку он у меня вообще не использует как будто. Зато мой ССДшник гоняет только в путь. Чзх?
Проц он занимает, оперативку типа выделяет, а по факту нихуя оперативку не использует.
Аноним 24/06/23 Суб 16:08:07 368985 118
>>368952
По новой всё перехуячил, OpenBLAS заработал.
Аноним 24/06/23 Суб 16:36:28 368999 119
>>368952

Вот так.

--smartcontext --useclblast 0 0 --highpriority --gpulayers 15 --unbantokens --contextsize 4096

Дополнительно можешь говноядра отключить через --threads если у тебя свежий интол
Аноним 24/06/23 Суб 17:06:31 369021 120
Локалки вообще могут отвечать за пару секунд? Я не хочу ждать 300 на один простой ответ.
Аноним 24/06/23 Суб 18:13:46 369068 121
>>369021
7B на видяхе, но результат тебя не устроит.
Аноним 24/06/23 Суб 18:55:36 369104 122
>>369021
Если буквально про пару секунд - тебе ответили, ~7 секунд для 13б сетей, 30б ~15. Офк это относительно длинный пост в рп, односложные-короткие на любой сети с ускорением на gpu будут оче быстро.
Аноним 24/06/23 Суб 20:02:35 369147 123
>>369021
Если есть 4090, то 100 токенов на 13В будешь получать за пару секунд.
Аноним 24/06/23 Суб 20:53:40 369187 124
>>368795
спасибо, попробую смарт контекст. а какие при его использование минусы?

>>368812
да, конечно бывает что невпопад отвечает. Но вот именно в те моменты когда дошел до 4к, и кобольд начинает все 4к токенов пересчитывать, тогда начинается заметная деградация. такое чувство что промпт кобольдом обрезается в начале, чтобы в 4к влезать, а в начале как раз основные инструкции
Аноним 24/06/23 Суб 21:33:16 369237 125
>>369187
>а какие при его использование минусы?
Никаких.
>>369187
>такое чувство что промпт кобольдом обрезается в начале
Оно не так работает. Посмотри в консоли что приходит, то и обрабатывается.
А то что 4к полноценно не работают это да, давно известно. Идеально вообще до 2.7к контекста пашет, остальное уже хуже.
Аноним 24/06/23 Суб 22:29:56 369313 126
>>368999
Спасибо. Так лучше стало, правда оперативку всё равно не жрёт. А gpuшную фигню не смог подключить, вроде ставил с гита clblast, но не могу установить coboldcpp с ним, не находи его почему-то. Да в принципе и так норм.
Аноним 24/06/23 Суб 23:19:06 369358 127
>>369187
> такое чувство что промпт кобольдом обрезается в начале, чтобы в 4к влезать, а в начале как раз основные инструкции
Ты через таверну сидишь? Тут вообще она сама должна обрезать, сохраняя главный промт и обрезая уже прошлые диалоги. Другое дело что если она настроена неверно то тогда уже сам кобольд будет срезать и срежется то что идет первым, проверь настройки.
Ну и действительно выстави 3500-3800, раз проявляется в самом конце.
Раз такое дело - реквестирую настройки которые ты используешь и нюансы промта/диалогописания для получения хороших результатов с блумун.

Алсо для затравки - https://huggingface.co/mosaicml/mpt-30b базовая модель с 8к контекста из коробки, уже есть квантованные версии но без файнтюна для пользования малопригодна + работает только на одном релизе кобольда.
Аноним 24/06/23 Суб 23:50:36 369378 128
>>369358
>базовая модель с 8к контекста из коробки
>To build 8k support into MPT-30B efficiently, we first pre-trained on 1T tokens using sequences that were 2k tokens long, and then trained for an additional 50B tokens using sequences that were 8k tokens long.
мимо
Аноним 24/06/23 Суб 23:53:17 369380 129
>>369358
>базовая модель с 8к контекста
Ебучая экспонента.
Кстати, включать инфу про mpt в шапку?
>>369378
Нормально на самом деле, чатгопоту примерно так же до 16к контекста небось растягивали.
Аноним 24/06/23 Суб 23:59:49 369388 130
>>369378
Чому бы и нет, постепенная тренировка эффективна, если судить по выходящим статьям.
>>369380
Хз, надо посмотреть до чего оно дойдет и не повлияет ли квантование на работу с контекстом. Ну и файнтюны, если они будут проходить также на 2к то не повлияет ли это на изначальные "умения", ждем в общем.

Господа, таки интересует тема производительности в GGML с оффлоадом на куду, отмечался только один анон, неужели больше никто не пробовал?
Аноним 25/06/23 Вск 00:34:35 369422 131
>>369358

Наконец-то, опенсорсная лама подъехала и сразу и сразу с 8к контекстом! Вот это подгон.
Аноним 25/06/23 Вск 00:40:09 369430 132
Друзья, скачал 65Б модель, соответственно чтобы затестить надо в кобольдсрр оффлоаднуть 51 слой, у меня 3090. Вопрос - как таверну прикрутить? У меня она бесконечно генерит и нихуя не выводит, я уже даже респонс поставил 30 токенов нахуй, лол.
Запустил сам кобольд с параметрами выше, чисто слои поменял. Что поставить в таверне?
Аноним 25/06/23 Вск 00:47:16 369440 133
>>369430
Забейте, это blas ебучий на 900 токенов грузит литералли 10 минут. Надо было брать амуде, а не 12900к
Аноним 25/06/23 Вск 00:51:09 369444 134
>>369440
Бля, как же медленно, пизда. Что раньше по токену в секунду 65Б генерило на лламасрр, что сейчас. Чем хуесос на разрабе занимался?
Аноним 25/06/23 Вск 00:51:36 369445 135
>>369430
>>369440
Скачай с поддержкой куды, или лламуцпп (можно из убабуги), обработка промта будет почти мгновенная а основные расчеты на генерацию токенов.
> 51 слой
Многовато, ты точно за объем врам не вышел? С новыми дровами так можно но производительность тыквится нещадно.
Например, 33б модель без выгрузки когда контекст накапливается до полного начинает проседать до 5т/с, тогда как с выгрузкой ниже 10 почти не бывает.
Аноним 25/06/23 Вск 00:52:42 369446 136
>>369388
> Господа, таки интересует тема производительности в GGML с оффлоадом на куду, отмечался только один анон, неужели больше никто не пробовал?
Вот по этому ридми поставил >>365679 последнюю ламуцпп, попробовал с визардом 30б q5_1 55 слоёв в гпу. Тухлорузен без АВХ512
Output generated in 30.25 seconds (6.61 tokens/s, 200 tokens, context 32, seed 1268343899)
Во время установки ванкликом алсо заменил в webui.py 11.7 куду на 11.8
Аноним 25/06/23 Вск 00:57:32 369449 137
>>369445
А поподробнее можно? Где брать с поддержкой куды? Я из релизов скачал.
Лламасрр кублас скачивать?
Аноним 25/06/23 Вск 01:15:56 369464 138
>>369449
В релизах есть, убабугу с норм ламой - постом выше.
>>369446
Попердолился тут немного значит.
Лазарус 30b q5 K, линукс, установка всего вручную, также 55 слоев, драйвер 525, 3090(!)
> Output generated in 21.40 seconds (9.35 tokens/s, 200 tokens, context 81, seed 1377741753)
Та же модель, винда, поправленный ну 118 куду ванклик, драйвер 536, 4090, драйвер 536
> Output generated in 32.18 seconds (6.22 tokens/s, 200 tokens, context 94, seed 964343213)
Правда в этом тесте на карточке много мониторов и выгрузить можно только 51 слой, далее идет переполнение врам и скорость падает менее 1-2 т/с.
Какбы заставляет задуматься, надо также по-человечески установить и посмотреть что портит, корявый/старый энвайромент или замечательные новые дрова, ось - маловероятно.
Аноним 25/06/23 Вск 01:33:22 369475 139
>>369422
>опенсорсная лама подъехала
MPT модели выпустили пару месяцев назад, но тогда они были на 7B параметров и народ не впечатлили.
Аноним 25/06/23 Вск 01:38:43 369479 140
>>369464
> Правда в этом тесте на карточке много мониторов и выгрузить можно только 51 слой, далее идет переполнение врам и скорость падает менее 1-2 т/с
Условия тестов совсем какие то разные, слишком много всего может повлиять. Но я тоже с 4090 на винде соснул по скорости, как видишь. А менее 1 т/с у меня бывает тоже падает, если обычная рам заканчивается. У тебя видимо из-за драйвера без оомов.
Аноним 25/06/23 Вск 01:46:05 369485 141
>>369479
Как займусь повторю, переключив все на встройку. Все равно, ну 1 токен в секунду на это еще можно списать, разница в производительности (раза в 1.5+ при должной оптимизации) должна компенсировать, а так карточка большую часть времени ниже 100вт потребления чиллит. Даже допустить что оно починится - будет условные 14т/с что чуть медленнее gppt, это даже не близко 25 как тут >>365203
Аноним 25/06/23 Вск 01:58:19 369496 142
>>369464
Так, я всё сделал по гайду. Для 65B скорость 1.59 токенов в секунду. Нормас?
Аноним 25/06/23 Вск 02:05:04 369501 143
>>369496
Ну вроде как да, от железа уже зависит. На шинде более 2.4 т/с не выжималось, даже специально только 2 плашки рам оставил для максимальной частоты, не сказать чтобы особо скейлилось от нее. Были результаты выше, но пока их никто не повторил, вот ищем путь.
Аноним 25/06/23 Вск 02:07:45 369503 144
>>369501
Хуево чот тогда получается. Ну ладно, спасибо. Может поделишься ещё какая нынче лучшая для ЕРП модель, но уже тогда 30B
Аноним 25/06/23 Вск 02:21:27 369508 145
А тут победили то, что когда переключаешь фокус с лламасрр на инцелах новых, она начинает генериться только на тухлоядрах?
Аноним 25/06/23 Вск 02:27:30 369510 146
>>369508

Ограничить число ядер количеством норм ядер через --threads в кобольде.
Аноним 25/06/23 Вск 02:33:01 369511 147
Аноним 25/06/23 Вск 02:39:11 369513 148
1574065786218.png 177Кб, 945x332
945x332
1641548339850.png 177Кб, 931x275
931x275
>>369503
> ЕРП
Тут весьма индивидуально, вкусовщина, может твои хотелки только чатжпт/клоуд удовлетворят если не сломаются.
Очень зашел хронос 13б и 33б. Первый может ломаться c SYSTEM MESSAGE но с высокой долей вероятностью генерирует именно то что хочешь с приличным описанием (пикрелы) и делает это моментально. Второй от раза к разу, иногда божественно, иногда фейлит и зацикливается. С ним пример файтбека и пассивных генераций на акве в прошлом треде. Пресет pleasant results для начала попробуй.
Также они неплохи тем что если персонаж не с пиздецовым промтом - без твоего желания инициативничать к левду не будет (привет клода), только намекает. бонусом (write a good ending) только лимит токкенов поднять
>>369511
> Охуенные истории.
Там же соя отборная в датасетах и сам автор об этом указывает, нормальных ждать надо. Или ты уже затестил и модель понравилась в чем-то?
Аноним 25/06/23 Вск 02:45:08 369514 149
>>369513
>Там же соя отборная в датасетах

Там же тот же датасет что у ламы дефолтной, там сои умеренно. У чата есть викуня в данных файнтьюна, но вроде как отфильтрованная от цензуры.

>Или ты уже затестил и модель понравилась в чем-то?

Пока качаю.
Аноним 25/06/23 Вск 02:49:39 369516 150
>>369513
А ты в таверне настройки какие ставишь? Instruct mode включаешь?
Аноним 25/06/23 Вск 02:52:12 369517 151
>>369514
Ну так с дефолтной лламой особо и не порпшить, а на просьбу код написать помню она лютый треш выдала, в отличии уже от файнтюнов. Офк учитывая прогресс и разницу во времени сравнивать некорректно, так и тут может быть отличная база но в стоке слабовата. Отпиши по впечатлениям, ну и по тому как ее запустить удалось.
>>369516
"from kobold gui", сами настройки в webui, главное сразу выставить а то может не примениться. Пробовал и в таверне выставлять - вроде также.
Аноним 25/06/23 Вск 04:14:51 369541 152
Ну я в общем переставил на глинукс.
>>369496
При отключенном стриминге 2.94 токенов/с на 65B. 45 слоёв
Аноним 25/06/23 Вск 04:17:31 369543 153
>>369541
2.26 с наполнением контекста 1600
Аноним 25/06/23 Вск 06:09:30 369561 154
>>369517
>Отпиши по впечатлениям

Chat mpt попробовал. РПшит с дефолтным промптом нормально. Запускается на последнем кобольде. Суммарное время генерации на 4-ех битной mpt в два раза выше(!) чем на 5-ти битной Bluemoon из-за катастрофически медленного preprocessing - то ли сама модель кривое говно, толи кобольд криво грузит mpt модели. Т.е. 8к контекст использовать считай невозможно, потому что уже на 1к контекста там ответа ждешь пару минут. Пока откатываюсь на bluemoon.
Аноним 25/06/23 Вск 07:39:05 369569 155
>>369388
>постепенная тренировка
По сути тот же самый файнтюн на расширение контекста.
Аноним 25/06/23 Вск 13:18:03 369703 156
Пысаны, давно не заходил к вам. Какая сейчас лучшая модель для кума?
Аноним 25/06/23 Вск 14:29:47 369750 157
>>369561
А скормить ему уже готовый чат и спросить про то что было условных 4к токенов назад не пробовал? Вот это интересно.
>>369703
>>369513 выше еще отзыв про super-hot
Аноним 25/06/23 Вск 15:48:51 369808 158
>>369508
Приоритет высокий поставь, ну или и/или ставь норм ядра в диспетчере задач.
Аноним 25/06/23 Вск 16:36:42 369843 159
А на русском что нибудь приличное есть? Насколько та же Saiga хороша в РП? Или все ерунда и английские модели через переводчик будут лучше?
Аноним 25/06/23 Вск 17:06:58 369874 160
>>369843

Сайга сойдет. Там недавно 64В версию выпустили.
Но пора вообще забыть по 2к модели уже.
Аноним 25/06/23 Вск 18:03:55 369923 161
Что по контексту сейчас у моделей. Сколько знаков примерно помнят?
Аноним 25/06/23 Вск 18:04:46 369924 162
Перепост с соседнего треда, думаю, здесь спросить правильнее.

Анон, у меня 6600к в качестве ЦП, есть смысл вкатываться в генерацию на проце? Или буду по 15 минут ждать два предложения?
Аноним 25/06/23 Вск 18:57:25 369994 163
>>369924

Можно, но модели выше 13В тебе лучше не пробовать.
Аноним 25/06/23 Вск 18:57:33 369996 164
>>369923
Ждём пердолей на свежие методы по растягиванию контекста до 8к. Заходи через месяц.
>>369924
У тебя там 3060 с 12GB врама, разгружай на неё часть слоёв, будет вмеяемо.
Аноним 25/06/23 Вск 18:58:51 369999 165
>>369923

4к.
Модель с 8к слишком медленная.
Модель с 64к говно.
Аноним 25/06/23 Вск 19:21:49 370042 166
>>369313
Всё таки захотелось побыстрее.

Кто как koboldcpp с clblast'ом ставил? Хз где они там в арче clblast взяли, в репозитории такого пакета нет. Я просто отсюда https://github.com/CNugteren/CLBlast устанвил системно, но koboldcpp похоже не подтягивает его, не видит. Говорит либа не найдена.
Аноним 25/06/23 Вск 19:32:49 370059 167
>>370042

Чел... Особенность кобольда что там все в .exe уже вшито.
Аноним 25/06/23 Вск 19:47:33 370094 168
>>370059
Чел... У меня линупс.
Аноним 25/06/23 Вск 19:51:58 370102 169
Аноним 25/06/23 Вск 20:34:52 370136 170
изображение.png 63Кб, 968x438
968x438
Посоны, отправили к вам. Скачал убабугу. Вроде всё окей установилось. Запустил. Через вкладку моделей скачал блумунрп потому что сказали, что чем больше токенов, тем круче. Выбрал блумун для загрузки. Вроде даже загрузилось и напечаталось сообщение от бота. Пытаюсь писать, а мне в консоле "модель не выбрана" хотя выбрана. "Ну может перезупустить надо после свежих то скачек и изменений". Запускаю, а мне пикрил. ЧЯНТД?
Аноним 25/06/23 Вск 20:58:06 370170 171
>>370136
Окей, кажись нужно было выбрать модель лоадер не лама.спп

Выбрал трансформер, но какого хуя он РАМ и раздел подкачки засирает, если у меня ВРАМ свободна? Можно на ВРАМ запустить, а то у меня всего 16 рам.
Аноним 25/06/23 Вск 22:31:44 370367 172
>>370170
> почему засирает рам, когда врам свободна?
llama.cpp так точно умеет: >>367638
про другие движки не скажу
Аноним 25/06/23 Вск 22:47:44 370423 173
>>370367
Я не знаю и ничего не понимаю. Я чё-то запустил, у меня съело всю оперативку, выдало ошибку и я продолжил делать что-то. Вроде 30б требует 32 оперативы, у меня 16 только, решил другую модель взять

Скачал 13б https://huggingface.co/TheBloke/chronos-13B-GGML уже руками файлы 4_0, 4_1, 5_0
Но всё равно при ллама.цпп получаю
>AttributeError: 'LlamaCppModel' object has no attribute 'model'.
Меняю модель лоадер на трасформерс
>OSError: models\chronos-13b-GGML-1 does not appear to have a file named config.json. Checkout 'https://huggingface.co/models\chronos-13b-GGML-1/None' for available files.
Только в https://huggingface.co/TheBloke/chronos-13B-GGML никаких конфигов не предоставляется.

Как вы это запускаете то? Чего делать то?
Аноним 25/06/23 Вск 23:26:23 370524 174
>>370423
>Как вы это запускаете то?
Мы все на koboldcpp сидим.
Аноним 25/06/23 Вск 23:28:52 370535 175
>>370524
Не пизди, никто на нём не сидит. У него слишком хуёвая CUDA.
Аноним 25/06/23 Вск 23:29:05 370536 176
>>370423
Если ты про lama.cpp, то запускается она просто
main --help выдает все параметры
На гитхабе и в папке examples есть примеры аргументов под разные случаи
Так что просто кидаем ggml в какую-нибудь папку или диск, и на основе гитхаба, examples и main --help собираем строку запуска, которую записываем в батник или баш-скрипт
Параметров и возможностей там много
Самые интересные из них:
- сохранение декодированного контекста между перезапусками: нужно указать путь к файлу кеша, дальше оно само. В теории ускоряет запуск
- выгрузка части модели в vram - так называемый оффлоадинг, экономит память, позволит подключить gpu к вычислениям
- блокировка памяти, защищает модельку от попыток выгрузить в своп во время работы, со стороны системы

Но с модельками нужно аккуратнее быть: llama.cpp поддерживает только новые версии ggml, а модельки могут быть старой версии

В общем поиграйся с examples, и оно почти само заработает
Но examples в архиве с релизом может и не быть, наверное отсюда у новичков проблемы. Нужно скопировать архив кода с гитхаб, а в него уже распаковать архив с релизом, тогда у тебя будет и main.exe и examples
Аноним 25/06/23 Вск 23:32:27 370557 177
>>370423
GGLM модели - загрузчик llama.cpp нужен. Трансформерс для обычных не квантованных моделей.
В вебуе одна модель - одна папка, галочку автолоад модель сними перед выборов, выбери модель, настрой параметры и уже нажимай лоад, все будет.
Аноним 25/06/23 Вск 23:35:19 370569 178
>>370536
У меня вообще под модельки отдельный диск отведён, очень они большие и их много
Хочется все попробовать
Какие-то работают лучше, какие-то хуже
Мне понравились викуня, сайга, альпака-лора и oasst
По весам интересны 30b, вполне адекватные результаты. 65b тоже держу - они вдвое медленнее, но у них ответы гораздо глубже, иногда это нужно.
Аноним 25/06/23 Вск 23:38:35 370578 179
27-278412946235[...].png 17Кб, 509x411
509x411
изображение.png 162Кб, 1711x922
1711x922
>>370536
Я просто скачал https://github.com/oobabooga/text-generation-webui однокнопочную установку. Я ничего не понимаю.
>>370557
>В вебуе одна модель - одна папка, галочку автолоад модель сними перед выборов, выбери модель, настрой параметры и уже нажимай лоад, все будет.
Снял, выбрал, настроил, нажал лоад и AttributeError: 'LlamaCppModel' object has no attribute 'model'.
Аноним 25/06/23 Вск 23:44:29 370598 180
>>370578
> Я ничего не понимаю.
Дебил, блять. Прочитай хоть инструкцию по установке.
Аноним 25/06/23 Вск 23:45:28 370601 181
Аноним 26/06/23 Пнд 00:00:13 370633 182
>>370535
Срал я на куду, сижу чисто на проце.
Аноним 26/06/23 Пнд 00:07:27 370640 183
>>370598
Из шапки? Какую из? Есть таверна, есть кобольд, есть просто инструкции в шапке.
На гитхабе убунги? Я ставил по инструкции, даже llama.cpp with GPU acceleration
>>370601
Гуглил. Отзывает на проблему с устаревшим ГГМЛ что у меня не так, потому что все v3, посоветывали скачать 5_1, скачал, не работает.
>Только вместо версий там ставь сразу ласт лламу-питон с кудой.
Через cmd_windows.bat
>pip install llama-cpp-python

>Requirement already satisfied: llama-cpp-python in x:\tavern\oobabooga_windows\installer_files\env\lib\site-packages (0.1.65)
>Requirement already satisfied: typing-extensions>=4.5.0 in x:\tavern\oobabooga_windows\installer_files\env\lib\site-packages (from llama-cpp-python) (4.6.3)
>Requirement already satisfied: numpy>=1.20.0 in x:\tavern\oobabooga_windows\installer_files\env\lib\site-packages (from llama-cpp-python) (1.24.3)
>Requirement already satisfied: diskcache>=5.6.1 in x:\tavern\oobabooga_windows\installer_files\env\lib\site-packages (from llama-cpp-python) (5.6.1)
Аноним 26/06/23 Пнд 00:20:45 370665 184
Аноним 26/06/23 Пнд 00:27:52 370678 185
изображение.png 9Кб, 625x103
625x103
изображение.png 72Кб, 964x575
964x575
изображение.png 64Кб, 949x490
949x490
>>370665
Так уже ввел братан. Но специально для тебя сделаю ещё раз. И всё равно всё то же самое.
Аноним 26/06/23 Пнд 00:36:28 370693 186
>>370678
Про гпу слои из параметров запуска лучше убрать, наследие старых коммитов.
Оче похоже на беды с окружением, которого нехватает лламе, хз. А другую модель пробовал? Ну и переименовать, заменив - на _. Хотя
> chronos-13b.ggmlv3.q5_1.bin
с дефисом и загружается, в пути у тебя никакого криминала тоже не видно.
Аноним 26/06/23 Пнд 10:49:05 371137 187
>>370578
Вопрос намба ван, ты всю модель сразу в видеопамять пихаешь — так и задумано?
Может для начала попробовать запустить ее в оперативе?

Вопрос намба ту, заскринь, че у тебя там пишется при запуске.
Предположу, что bitsandbytes compile without CUDA или что-то подобное.
Аноним 26/06/23 Пнд 14:43:45 371407 188
16863757571370.jpg 107Кб, 1024x815
1024x815
Когда ждать локальную модель уровня GPT4 со 100к контекста, разве я так много прошу?
Аноним 26/06/23 Пнд 14:54:20 371428 189
>>371407
Хоть сейчас - готовь железо.
Аноним 26/06/23 Пнд 15:24:04 371478 190
алюминий.png 312Кб, 604x468
604x468
>>371428
Алюминий пойдет?
Аноним 26/06/23 Пнд 16:24:57 371537 191
image.png 682Кб, 810x1040
810x1040
>>371407

Пользовательское железо ГПТ4 не потянет, там блядь восемь 220В моделей. У нас даже на 4090 с нормальной скоростью 30В максимум работают и те квантованные.
Но уровень CAI уже достигнут и контекст понемногу растет.
Приходи к концу года, аналоговнетная версия ГПТ4 уже будет, изобретут очередное хитрое квантование, например.
Аноним 26/06/23 Пнд 16:32:25 371542 192
>>370640
>устаревшим ГГМЛ

Влезу в ваш спор, все равно тот ананий что тебе помогает не понимет ни бельмеса.

Короче - вонючка Герыч каждым апдейтом ЛОМАЕТ старые ггмл. Сейчас с его говнокодом работают только k-quants. Их можно найти по названиям типа q4_0, q5_1, если буквы q нет - это старая модель.
Старые модели запускает ТОЛЬКО кобольд, хоть усрись.
Аноним 26/06/23 Пнд 16:41:05 371544 193
>>371542
Старые не нужны, скор там говно. А вообще надо брать свежие v3 с буквой K.
Аноним 26/06/23 Пнд 16:50:59 371550 194
ВСЁ.mp4 2993Кб, 1280x720, 00:00:11
1280x720
Всё. Всё ребята, всё.
Лучшая кум-модель теперь с 8к контекста.

GGML Wizard Superhot 33B
https://huggingface.co/ycros/WizardLM-33B-V1.0-Uncensored-SuperHOT-8k-GGML

GPTQ Guanaco Superhot 30B
https://huggingface.co/TheBloke/Guanaco-33B-SuperHOT-8K-GPTQ

GGML Superhot 13B 8К
https://huggingface.co/tmpupload/superhot-13b-8k-no-rlhf-test-GGML

СУПЕМЕГАЙОБА 16К КОНТЕКСТ ДЛЯ ЕБАНУТЫХ
GGML Superhot 13B 16К
https://huggingface.co/tmpupload/superhot-13b-16k-no-rlhf-test-GGML
Аноним 26/06/23 Пнд 17:00:16 371564 195
>>371550
>superhot
Это типа специально для кумеров? Я просто пробовал всякие uncensored викуни и визарды. Справлялось оно хуже чем просто llama.
Аноним 26/06/23 Пнд 17:03:35 371572 196
>>371564
>Это типа специально для кумеров?

Да.

> пробовал всякие uncensored викуни и визарды. Справлялось оно хуже чем просто llama.

Викуня только в погромирование и может, в остальном её намеренно портили цензурой. Uncensored версия часть цензуры вычистила, но не всю.
Аноним 26/06/23 Пнд 17:40:22 371602 197
>>371537
Будет модель что можно запустить - появится и железо плюс ее порезанные версии и оптимизации.
>>371550
Опа, расчехляем. Уже кто попробовал?
Аноним 26/06/23 Пнд 18:08:38 371649 198
screenshot-1687[...] 361Кб, 1658x245
1658x245
screenshot-1687[...] 1337Кб, 2486x629
2486x629
>>369485
Линукс короче реально тащит, никогда такой удвоенной скорости не видел на шинде, 12 по праздникам с гптку. Первая автогпт 30, вторая ггмл 13, чтобы гарантированно влезла. Терминал кстати тоже годнота.
Аноним 26/06/23 Пнд 18:11:04 371655 199
image.png 159Кб, 434x436
434x436
Анон, помоги сохранить настройки в угабуге. Скачал, нихуя не понимаю как с ней обращаться. В yaml файле не сохраняются настройки из блока Chat parameters, и вообще непонятно, применились они или нет. В доках тоже никакой информации не нашёл.
Вот в автоматике всё понятно: список настроек и сверху большая жирная кнопка "Применить", а тут что-то странное.
Аноним 26/06/23 Пнд 18:29:30 371710 200
image.png 83Кб, 934x482
934x482
>>371602

Запустил, 8к модель при контексте 5312 токенов выдала пикрелейтед.
Аноним 26/06/23 Пнд 18:38:31 371735 201
>>371537
Нет, у gpt другая приколюха: там свой сильно оптимизированный движок и вся моделька в vram на нескольких параллельных gpu.
Отсюда настолько высокая скорость генерации, что груду такого дорогого железа стало коммерчески оправдано сдавать в аренду - оно сразу множество людей обслуживает, за копейки, и не крякает от потока запросов.
С ggml и llama.cpp такое не прокатит - даже на маленьких модельках тут скорости смешные, даже на 4090, потому что расчеты почти влоб идут.
Запилить такие же оптимизации можно. Другое дело, никто движок gpt на посмотреть не даст, и в чем конкретно оптимизации не подскажет - это коммерческая тайна. А самим до этого доходить сложно и долго: нужны люди, нужны ресурсы, с чем у попенсорс-проектов вечная засада, с коммерческой командой тягаться очень сложно.
Аноним 26/06/23 Пнд 18:40:39 371739 202
1546820014488.png 56Кб, 1577x615
1577x615
>>371649
> вторая ггмл 13
Это на какой карте? У меня под виндой даже с забитым контекстом 25 мс на токен с 13В.
>>371710
Я с кудой на ggml вообще не смог запустить. Либо не отвечает, либо генерит рандомные символы. На GPTQ выдаёт ошибку выходного тензора NaN. Говно какое-то.
Аноним 26/06/23 Пнд 18:55:40 371765 203
>>371739
> Это на какой карте?
NVIDIA 0c:00.0 NVIDIA Corporation Device 2684
Лул, дрова кривовато встали походу сразу с кудой. Как оно вообще работает то и ещё в два раза успешнее винды.
Аноним 26/06/23 Пнд 19:15:01 371806 204
изображение.png 90Кб, 942x686
942x686
изображение.png 15Кб, 562x294
562x294
>>370678
ШОШ ПРОДОЛЖИМ ПЫТАТЬСЯ
>>370693
> А другую модель пробовал? Ну и переименовать, заменив - на _. Хотя
> chronos-13b.ggmlv3.q5_1.bin
Пикрил, все выдают одно и тоже
>>371137
>Вопрос намба ван, ты всю модель сразу в видеопамять пихаешь — так и задумано?
Ну во-первых, хотелось бы, у меня заместо процессора i5-3470, а оперативы всего 16 зато врам все 24. Во-вторых, я никуда ничего не пихаю, у меня даже модель выгрузить не получается.
>Вопрос намба ту, заскринь, че у тебя там пишется при запуске.
>>371542
Так у нас тут не спор, я ньюфаг-второй-день пытаюсь запустить... хоть что нибудь
Аноним 26/06/23 Пнд 19:19:22 371812 205
>>371806
>хоть что нибудь

Нахуй ты говнокод герыча трогаешь, еще и в связке с хубабубой?
Аноним 26/06/23 Пнд 19:20:45 371815 206
>>371735
> потому что расчеты почти влоб идут
Чивобля?
>>371806
> оперативы всего 16
Хм, размер файла подкачки у тебя сколько? Иди выстави гигов 150 (столько правда только для нарезки крупной gptq нужно но чего мелочиться) и попробуй запустить. Другую модель ggml стандарта скачай и с ней проверь.
Аноним 26/06/23 Пнд 19:24:34 371820 207
>>371812
Ну чё посоветовали то и трогаю. А что мне трогать, чтобы работало на гпу и можно было переводчик накатить?
>>371815
>Другую модель ggml стандарта скачай и с ней проверь.
У меня их
блумун 30б
хронос 13б 4_0, 4_1, 5_1
викуна 13б

из всего этого пытается загрузится только блумун 30б, и то потому что это дополнительно случайно селфтенсорс скачался
Аноним 26/06/23 Пнд 19:24:37 371821 208
1646667304536.png 113Кб, 1927x639
1927x639
Попердолился с ExLlama, говно ещё кривее чем китайский GPTQ, но скорость почти в два раза выше Жоры. 13В около 75 т/с, 30В около 35-38 т/с скачет. 7В пикрилейтед. Хотя в табличке заявляют больше, наверное опять надо пердолиться.
Аноним 26/06/23 Пнд 19:36:20 371840 209
image.png 49Кб, 1209x319
1209x319
Как вашу ламу использовать в качестве написания текста по запросу. Эта хрень только передразнивает меня при использовании любых из сценариев.
Хочу как в гпт, написал запрос, тебе выдало. Как это сделать?
Аноним 26/06/23 Пнд 19:44:27 371847 210
>>371428
А софт? Где мягкость?
>>371537
>Но уровень CAI уже достигнут
Просто чай деградировал до уровня пигмы.
>>371544
>скор там говно
Последние улучшения дают 0,00001% скоры.
>>371550
>теперь с 8к контекста
А патченные версии запускаторов где брать?
>>371649
>Терминал кстати тоже годнота.
В Ctrl+C не умеет сижу из-за этого на шинде.
>>371840
>Как это сделать?
Обучи свою модель.
Аноним 26/06/23 Пнд 19:48:18 371854 211
1584794728539.png 17Кб, 828x347
828x347
1649971576407.png 92Кб, 972x691
972x691
>>371710
>>371739
Мм хорошая модель, опять беды с совместимостью (пик1)
>>371840
Так оно и работает (пик2). Ты если в кобольде пишешь то выбери пресет kobold-gpt чтоли или вообще пустой без контекста
Аноним 26/06/23 Пнд 19:52:24 371856 212
>>371854
>Мм хорошая модель, опять беды с совместимостью (пик1)
Алё народ, софт даже не в альфе, что вы там запускаете? Без патчей модель работать не будет.
Аноним 26/06/23 Пнд 19:53:56 371859 213
>>371856
> патчей
Каких, блять, патчей. Поддержка большого контекста уже пару месяцев как есть везде.
Аноним 26/06/23 Пнд 19:55:51 371861 214
image.png 33Кб, 1216x274
1216x274
>>371854
Что за модель для пика2 ?
Я уже все перебровал сценарии и кобольдгпт и пустой, выдает ерунду какую-то.
Аноним 26/06/23 Пнд 19:56:00 371862 215
>>371847
> В Ctrl+C не умеет
Надеюсь ты не про копирование? Прерывания идентично работают.
>>371856
У нас нет цели есть только путь. Модель скачать можно? Можно, запустить можно? Можно, какая разница?!
А патчи в условие сделки не входили, должно и так работать.
Аноним 26/06/23 Пнд 19:56:20 371863 216
>>371847
>В Ctrl+C не умеет
Типа в копированиее имеешь в виду? Эмуляторы терминалов бывают разные. В оболчке KDE по умолчанию работает ctrl+shift+c/v, я этой хуйнёй не пользуюсь, у себя в urxvt настрои ctrl+alt+c/v. А к ctrl+c это базовая команда на остановку выполнения.
>>371649
Я так понимаю ты не koboldcpp гоняешь, а llamacpp?
Аноним 26/06/23 Пнд 19:57:24 371867 217
>>371856

Голубая луна работает как часы без всяких патчей. МРТ тоже работает, но там скорость пиздец - ебанешься ждать ответа.
Аноним 26/06/23 Пнд 20:00:20 371868 218
>>371820
>А что мне трогать, чтобы работало на гпу и можно было переводчик накатить?

Кобольд + таверна с extras.
В кобольде тупо все слои ебашишь на ГПУ.
Аноним 26/06/23 Пнд 20:01:52 371871 219
>>371847
> В Ctrl+C не умеет сижу из-за этого на шинде.
Wut? Ctrl+shift+c если копировать собрался
>>371863
> Я так понимаю ты не koboldcpp гоняешь, а llamacpp?
Да, вручную скомпиленный для угабуги.
Аноним 26/06/23 Пнд 20:07:12 371879 220
>>371859
Наркоман, это размер контекста, а модели выше его особым образом расстягивает.
>>371862
>Надеюсь ты не про копирование?
Про него конечно же. Удобно очень.
>>371863
>ctrl+shift+c
>ctrl+alt+c/
Мне пальцы нужны.
>А к ctrl+c это базовая команда на остановку выполнения.
Не учи отца ебаться, я прерывал так ещё когда ты в школу ходил. Ах да, шинда умеет в контекст команды, и копирует только когда выделен текст.
>>371867
Там метод увеличения контекста другой.
>>371871
>Ctrl+shift+c если копировать собрался
В поезду трёхклавшиные сочетания для базовых команд. ctrl+c и ниибёт.
>Processing Prompt [BLAS] (1024 / 1793 tokens)
Охуенно удобно.
Аноним 26/06/23 Пнд 20:11:17 371883 221
>>371879
> Ах да, шинда умеет в контекст команды, и копирует только когда выделен текст.
Мне кажется в линухе, если с конфигом поебаться, тоже так можно настроить, дед.
Аноним 26/06/23 Пнд 20:12:20 371884 222
>>371883
>>371879
>Мне пальцы нужны.
К слову, я так понмаю к emacs ты не прикасался, хех.
Аноним 26/06/23 Пнд 20:13:12 371885 223
>>371879
> Удобно очень.
А как прерывать? crtl/shift+insert это же база вообще, в шинде также правой кнопкой в любом месте.
Аноним 26/06/23 Пнд 20:17:56 371892 224
>>371655
Анон, почему ты меня игноришь? Я правда не понимаю.

Обычно я использую Кобальд + Таверну, но ничего выше Пигмалиона 6В на таком сочетании не запускается. А у угабуги скудная документация и с ней трудно разбираться.
Аноним 26/06/23 Пнд 20:23:34 371902 225
>>371883
>если с конфигом поебаться
Ну вот у меня не вышло.
>>371884
>к emacs ты не прикасался, хех.
Я даже из вима не могу выйти без ребута сарказм, но близок к правде.
>>371885
Так же. Говорю же- контекст.
Аноним 26/06/23 Пнд 20:48:12 371932 226
Вы не устали этой хуйней заниматься? Давайте будем честны, LLAMA не может заменить полноценный переводчик, даже словарь, не может в проверку грамматики, перефразирование, не может вообще нихуя кроме куминга для дегенератов.
Аноним 26/06/23 Пнд 20:52:24 371937 227
>>371932
>кроме куминга для дегенератов.
Да и то не может
Кумер-дегенерат
Аноним 26/06/23 Пнд 20:56:39 371939 228
>>371932
Причина подрыва? Художников еще понять можно, а у тебя?
Аноним 26/06/23 Пнд 21:26:43 371984 229
>>371806
Ну, братан, n-gpu-layers буквально значит, что ты приказываешь грузить ее в видеопамять. =)
Но судя по новому скрину, видяху он у тебя все-таки видит.
Ну давай так, для начала запусти с n-gpu-layers 0 с помощью движка llama.cpp и посмотрим, че получится.
Аноним 26/06/23 Пнд 21:33:27 371997 230
изображение.png 101Кб, 1689x606
1689x606
>>371984
Таким образом? Всё от 0, до 56 дальше лень показывает одну и ту же ошибку

>2023-06-26 23:31:46 INFO:Loading chronos_13b_GGML...
>2023-06-26 23:31:46 INFO:llama.cpp weights detected: models\chronos_13b_GGML\chronos-13b.ggmlv3.q5_0.bin
>
>2023-06-26 23:31:46 INFO:Cache capacity is 0 bytes
>llama.cpp: loading model from models\chronos_13b_GGML\chronos-13b.ggmlv3.q5_0.bin
>2023-06-26 23:31:46 ERROR:Failed to load the model.
>Traceback (most recent call last):
> File "X:\tavern\oobabooga_windows\text-generation-webui\server.py", line 67, in load_model_wrapper
> shared.model, shared.tokenizer = load_model(shared.model_name, loader)
> File "X:\tavern\oobabooga_windows\text-generation-webui\modules\models.py", line 74, in load_model
> output = load_func_map[loader](model_name)
> File "X:\tavern\oobabooga_windows\text-generation-webui\modules\models.py", line 255, in llamacpp_loader
> model, tokenizer = LlamaCppModel.from_pretrained(model_file)
> File "X:\tavern\oobabooga_windows\text-generation-webui\modules\llamacpp_model.py", line 55, in from_pretrained
> result.model = Llama(params)
> File "X:\tavern\oobabooga_windows\installer_files\env\lib\site-packages\llama_cpp\llama.py", line 285, in __init__
> self.ctx = llama_cpp.llama_init_from_file(
> File "X:\tavern\oobabooga_windows\installer_files\env\lib\site-packages\llama_cpp\llama_cpp.py", line 317, in llama_init_from_file
> return _lib.llama_init_from_file(path_model, params)
>OSError: [WinError -1073741795] Windows Error 0xc000001d
>
>Exception ignored in: <function Llama.__del__ at 0x0000020A095A04C0>
>Traceback (most recent call last):
> File "X:\tavern\oobabooga_windows\installer_files\env\lib\site-packages\llama_cpp\llama.py", line 1435, in __del__
> if self.ctx is not None:
>AttributeError: 'Llama' object has no attribute 'ctx'
>Exception ignored in: <function LlamaCppModel.__del__ at 0x0000020A080481F0>
>Traceback (most recent call last):
> File "X:\tavern\oobabooga_windows\text-generation-webui\modules\llamacpp_model.py", line 29, in __del__
> self.model.__del__()
>AttributeError: 'LlamaCppModel' object has no attribute 'model'
Аноним 26/06/23 Пнд 21:46:16 372016 231
изображение.png 27Кб, 545x378
545x378
>>371868
Хмм... походу ТОЖЕ САМОЕ. Вот так вот.

Могу запустить с --noavx2, но это походу CPU версия. Меньше токена в секунду.
Аноним 26/06/23 Пнд 21:54:30 372035 232
А есть где-нибудь гайд какая модель вкратце заточена под что конкретно?
Аноним 26/06/23 Пнд 22:04:36 372048 233
>>372035
Пигма для матана и программирования все остальное для задротов дрочащих бенчмарки
Аноним 26/06/23 Пнд 23:33:36 372148 234
>>371997
суля по всему, модель старая для убабуги.
Могу предложить следующее:
1. Скачай KoboldCPP https://github.com/LostRuins/koboldcpp/releases/ и грузани модель там.
2. Скачай точно актуальненькое что-нибудь, проверь ее.
https://huggingface.co/TheBloke/vicuna-13b-v1.3.0-GGML/tree/main Например vicuna-13b-v1.3.0.ggmlv3.q4_K_S.bin какую-нибудь, чисто для теста.
Завтра могу подобрать че-нить рпшное тебе.
Аноним 26/06/23 Пнд 23:50:28 372167 235
аноны, уже придумали что-то лучше голубой луны?
Аноним 26/06/23 Пнд 23:52:01 372169 236
изображение.png 76Кб, 937x592
937x592
>>372148
>1. Скачай KoboldCPP
>>372016 уже проверил неудачно
>2. Скачай точно актуальненькое что-нибудь, проверь ее.
Так же OSError: [WinError -1073741795] Windows Error 0xc000001d и 'LlamaCppModel' object has no attribute 'model'
Аноним 26/06/23 Пнд 23:59:21 372173 237
>>372169
Ну тебя не смущает что там все та же ошибка, хотя бинарник собран и готов к работе? Отсутствуют дефолтные c-либы, беда с дровами, не хватает оперативки чтобы загрузить, ось порвалась и т.п.
> Windows Error 0xc000001d
Гугли и чини
Аноним 27/06/23 Втр 00:08:13 372185 238
1687813692234.png 248Кб, 1211x743
1211x743
Пошёл тестить chronos-33b-superhot-8k.
Пиздец блять, я думал локальные модели бондов лишены. Сука, я аж дёрнулся, думал на четвёрке генерить начал - нихуя, локальная.
Вы же обещали без сои!!! Сука, наёбщики!
Аноним 27/06/23 Втр 00:12:47 372188 239
1687813964842.png 247Кб, 1191x670
1191x670
Аноним 27/06/23 Втр 00:51:11 372230 240
1687816271379.png 38Кб, 1256x524
1256x524
>>372185
Потестил wizardlm-33b-1.0-uncensored-superhot-8k. Уже лучше. А ГЛАВНОЕ - отвечает на лучший тест логики LLM, сделанный легендой этого треда, правильно.
Аноним 27/06/23 Втр 00:57:07 372237 241
>>372167
Скоро все модели растянут на 8-16к контекста, ждём пердолей, файнтюнов и прочих Гергановых.
>>372169
Так, а что у тебя там за допотопный хлам? Я чую зион. А, у тебя проц старьё, хули ты нам мозги ебёшь? Купи компьютер.
>>372185
Не, ну все просили GPT4, вот и получили Одни бонды от неё.
Кстати, кинь карточку
Аноним 27/06/23 Втр 00:59:39 372244 242
Аноним 27/06/23 Втр 01:07:44 372253 243
Пысаны, а какая сечас самая оптимизированная команда для запуска кобольта?
Я запускаю так
koboldcpp_CUDA_only.exe --smartcontext --launch --threads 8 --useclblast 0 0 --gpulayers 21

Ничего изменить в лучшую сторону нельзя? Может чет еще запилили, а я и не заметил...
Аноним 27/06/23 Втр 01:58:41 372298 244
>>372016
>Могу запустить с --noavx2

Короче, ясно, у тебя говнопроц без инструкций. Потому у тебя llama.cpp и не заработает - она на проце работает, даже когда слои в гпу грузит.
Запускай gptq на чистой хубабубе - так будет полностью на гпу.
Аноним 27/06/23 Втр 02:01:34 372300 245
>>372230
>wizardlm-33b-1.0-uncensored-superhot-8k

Как ты добился что он не генерирует хуйню? На 2к контексте запускал?
Аноним 27/06/23 Втр 07:47:25 372428 246
>>372230
> отвечает на лучший тест логики LLM, сделанный легендой этого треда, правильно
В этом плане Лазарус самый лучший.
Аноним 27/06/23 Втр 11:14:16 372587 247
>>372300
ggml сломана пока, но GPTQ работают. Правда из-за большого контекста не влезает в 24 гига, но можно 3-битную или там уже куча миксов 13В.
Аноним 27/06/23 Втр 11:51:15 372666 248
Что-то говно ваш 8К-контекст. Сейчас взял несколько 13В моделей и начал пытаться спрашивать у них про начало разговора при 4К+ контексте - выдумывают сами содержание контекста. Викуня ещё извиняется в стиле "My apologies for any confusion caused by my previous response. Upon reviewing our conversation, I realized that there was indeed some inconsistency", но продолжает бредить.
Аноним 27/06/23 Втр 11:57:17 372671 249
>>372666
Чел, он ещё не работает нормально.
Аноним 27/06/23 Втр 12:01:01 372674 250
>>372671
Я и говорю модели говно, надо ждать нормальных файнтюнов.
Аноним 27/06/23 Втр 12:39:59 372701 251
>>372674
Ты компилил лламацпп?
Аноним 27/06/23 Втр 14:05:34 372792 252
>>372701
Я с ExLlama, зачем нам Жора, когда у него в 2-3 раза медленнее работают модели на GPU.
Аноним 27/06/23 Втр 14:17:55 372803 253
изображение.png 4Кб, 368x149
368x149
изображение.png 23Кб, 240x473
240x473
>>372792
>ExLlama
А может в пизду такие приключения?
Аноним 27/06/23 Втр 14:30:36 372829 254
>>372666
>>372674
Стоит действительно дождаться нормальных файнтюнов, но в первую очередь разобраться с совместимостью. В репе автора указано что необходим патч и настройки, как это работает и работает ли нормально в gptq - хз. Вообще стабильные 4к+ в сочетании с нормальной моделью (привет блумун) это уже хорошо, простор для кумерства сразу расширяется.
>>372803
Оно изкоробки в убабуге. Производительность действительно впечатляет литерали 75-80т/с в 13б.
>>371649
У тебя в ggml 30b сколько в итоге получилось там? В шинде сделал нормально окружение с последними совсместимыми версиями, llama-cpp-python 0.1.66, встроечка, оффлоад 55 слоев - 10т/с потолок на лазарусе 30б q5KM, карточка при этом 130-140вт тдп. На производительность таки влияют e-ядра, со стримингом и открытым мониторингом наглядно видна корреляция между распределением загрузки и скоростью. Числом потоков кстати улучшить не получается, выставить аффинити - производительность падает радикально.
В общем, остается ось и дрова, ну и модель другую скачать на всякий для теста.
Аноним 27/06/23 Втр 15:22:45 372954 255
>>372803
Да, есть некоторый пердолинг. Хотели сделать всё автоматически, но в итоге если что-то идёт не так оно даже вменяемую ошибку не пишет. Но пердолинг стоит того, оно сильно лучше китайского GPTQ - буквально все проблемы пофикшены, 30В без проблем лезет в 24 гига, скорость космос, поддержка лор/большого контекста, совместимость со старыми китайскими моделями. На 13В ответы по 1-2 секунды, короткие вообще мгновенно.
Аноним 27/06/23 Втр 15:23:21 372956 256
>>372666
Не сиди на ебучем копробольд/ллама цпп
ExLlama лучшая, врамлеты не нужны
Аноним 27/06/23 Втр 15:30:28 372970 257
>>372956
> ExLlama
Так вот на ней и есть проблемы с контекстом. Оригинальный 30В суперкот на 4к+ пукает, мерджи и 13В уже на 3000 ломаются. Надо ждать когда сделают хороший файнтюн на большом датасете. Они бы сначала сделали базовую модель файнтюном на RedPajama, а потом уже все эти инструкции/ролеплеи/чаты тюнили.
Аноним 27/06/23 Втр 15:31:55 372972 258
>>372970
А, ну я 4к и тестил, ибо выше - ООМ. 4к влезает спокойно в 24
Аноним 27/06/23 Втр 15:55:36 373007 259
>>372803
Например у меня и так все это стоит.
Кстати, подтверждаю, в пизду такие приключения. =)
Аноним 27/06/23 Втр 17:58:44 373242 260
изображение.png 25Кб, 932x386
932x386
изображение.png 8Кб, 1000x85
1000x85
>>372829
>в убабуге
Оно ж пиздец какое кривое.
>>372954
>Хотели сделать всё автоматически, но в итоге если что-то идёт не так оно даже вменяемую ошибку не пишет.
Скажу больше - если тупо следовать инструкции, то он хуй что поставит, ибо пип идёт раньше репы. Долбоёбы бля.
>>373007
Кстати вопрос всем пользователям ExLlama - там есть норм бекенд интерфейс для таверны? Или только с убогобугой?
Так то их встроенный вебгуй запустил, и оно действительно весьма быстро пашет (13B на сраной 3080Ti), но их веб панель не впечатляет.
Аноним 27/06/23 Втр 18:19:22 373286 261
>>373242
> пип идёт раньше репы
Не, всё верно, зависимости ExLlama в requirements.txt убабуги. Мне только пришлось поебаться с выставлением одинаковой версии куды у торча и в CUDA_PATH.
> интерфейс для таверны
А что мешает поставить убабугу только для api? Других вариантов особо нет, пользуемся калом.
Аноним 27/06/23 Втр 18:23:22 373290 262
>>363522

7B f16 - perplexity 5.9 - filesize 13.0G
13B q2 - perplexity 5.8 - filesize 5.13G
Аноним 27/06/23 Втр 18:24:37 373292 263
изображение.png 60Кб, 1591x436
1591x436
>>373286
>Не, всё верно, зависимости ExLlama в requirements.txt убабуги
Что они курят?
>>373286
>А что мешает поставить убабугу только для api?
Да ничего, кроме того, что эта параша не пашет. В первый раз запускает свой интерфейс, но после выбора модели умирает и при последующих запусках пытается её загрузить.
При этом напрямую, как я уже заметил, но работает.
Аноним 27/06/23 Втр 18:27:03 373302 264
>>373242
> Оно ж пиздец какое кривое.
Та про эксламу там или сам вебуй? Первая работает, от второго только и надо что модель загрузить и параметры выставить, можно вообще в аргументах все выставить и даже браузер не открывать.
Аноним 27/06/23 Втр 18:41:35 373326 265
изображение.png 58Кб, 1591x481
1591x481
>>373302
>от второго только и надо что модель загрузить
Про второе конечно же. Прописал лоадер, так он не может найти репозиторий, хотя он точно лежит в нужном месте.
Аноним 27/06/23 Втр 18:46:18 373340 266
>>373326
Возможно он у тебя он просто не установлен в окружении, pip show exllama что выдает?
Гитпулл, потом что ванклик, что ручная установка все подсасывают, так не так давно реквайрментсы переделали.
Аноним 27/06/23 Втр 18:56:46 373358 267
изображение.png 13Кб, 776x59
776x59
>>373340
Всё, понял. эта пидорня с виртуальными окружениями и прочим говном поставила мне CPUшный торч. Въебал ему по хардкору
pip3 install torch==2.0.1+cu117 --index-url https://download.pytorch.org/whl/cu117
И всё поехало.
Аноним 27/06/23 Втр 19:37:04 373486 268
1604397501638.png 41Кб, 1515x701
1515x701
>>373292
> не пашет
Так ты выбери чем модели грузить.
Аноним 27/06/23 Втр 19:42:23 373504 269
>>373292
питонисты на варны забивают хуй если все работает
Аноним 27/06/23 Втр 19:44:15 373510 270
>>373292
>>373358
Чел, это вообще bitsandbytes пиздит на куду, можешь нахуй удалить это дерьмо из venv, он перестанет срать этим.
Аноним 27/06/23 Втр 19:53:00 373555 271
screenshot-1687[...] 157Кб, 1901x783
1901x783
>>372829
> У тебя в ggml 30b сколько в итоге получилось там?
55 слоёв из 63, версия ggmlv3.q5_1 визардлм, ну на винде у меня вообще типо 2-3 т/с с таким было, так что для меня даже такое импрессив на скрине. Что примечательно тут не нужно свопа на 150 гигабайт чтобы загружать модели, почему то 48 гб рама и совсем маленький своп в 4гб работают, в него даже вроде модель не залезает при загрузке, я его забыл поменять и походу не зря. Попробую ещё полностью загрузить 4битную в гпу пожалуй.
В сд тоже прирост производительности с 22-23 ит/с до 28-29 бтв, да что за хуйня с этой виндой.
Аноним 27/06/23 Втр 19:56:14 373570 272
>>373555
> В сд тоже прирост производительности с 22-23 ит/с до 28-29 бтв, да что за хуйня с этой виндой.
Скорее с руками. В SD с октября прошлого года, как пришили xformers, было всегда 30-32 ит/с.
Аноним 27/06/23 Втр 20:02:07 373585 273
>>373555
Погоди, своп нужен для gptq при нарезке, а ggml лламой-цпп по дефолту вообще не загружается в память до запроса, если не выбран параметр. Попозже и с 4090 на прыщах попробую чтобы все варианты закрыты были, очень хочется 25 но уже начинаю сомневаться в достоверности/корректности заявлений.
> 22-23 ит/с
Погоди, это совсем мало, норма на актуальных версиях 30+, 28-29 с частичными нохалфами. Кстати то же самое было на зворванной шинде с другим железом. С большими батчами и/или разрешениями норм работает?
Аноним 27/06/23 Втр 20:04:51 373589 274
изображение.png 223Кб, 2536x753
2536x753
>>373486
>>373510
Я ж уже написал, что починил.
У кого есть бот для перевода? Я тут пытаюсь приспособить его для дела, а он ролеплеить начинает.
Аноним 27/06/23 Втр 20:21:08 373619 275
screenshot-1687[...] 59Кб, 1887x265
1887x265
>>373570
Для 13 гена штеуда? Ну походу я винду реально поломал пока выпиливал компоненты, которые отправляли какую то хуйню на непонятные хосты, ну или она просто слишком старая, вроде 20h2
>>373585
> Погоди, своп нужен для gptq при нарезке, а ggml лламой-цпп по дефолту вообще не загружается в память до запроса, если не выбран параметр. Попозже и с 4090 на прыщах попробую чтобы все варианты закрыты были, очень хочется 25 но уже начинаю сомневаться в достоверности/корректности заявлений.
swapoff -a пикрил потребление в хтопе во время загрузки автогпт, я прямо следил за этой хуйнёй во время загрузки модели. Синии палки это вроде кэшшед, но тем не менее тут нету никаких вылетов, если кэширование не влезает, на винде там за 110гб переваливало.
> Погоди, это совсем мало, норма на актуальных версиях 30+, 28-29 с частичными нохалфами. Кстати то же самое было на зворванной шинде с другим железом. С большими батчами и/или разрешениями норм работает?
У меня рузен 5900ч, для него такая скорость вполне норм. Да, с большим батчем всё в порядке, как и огромным шизоапскейлами и тайлами в 4к, на мартовском коммите было 25-26 бтв, что там у тебя было на ворованной шинде говоришь?
Аноним 27/06/23 Втр 22:09:23 373817 276
>>373589
> У кого есть бот для перевода?
Не надо переводить нейросетью. Она будет придумывать слова. Переводи онлайн переводчиком. Бинг API рулит.
Аноним 27/06/23 Втр 22:39:59 373949 277
screenshot-1687[...] 117Кб, 1855x969
1855x969
screenshot-1687[...] 139Кб, 1859x444
1859x444
>>371821
4090? Ты её пересобирал как то, чтобы 11.8 куда была, или просто юзал из коробки? У меня примерно такие же результаты, только скорость с контекстом падает, потребление хотя бы уже похоже на что то вменяемое. 30б со скрипом, один раз оомнуло при загрузке, но влезает.
Аноним 27/06/23 Втр 23:02:15 374039 278
Попробовал по вашему совету ExLlama с Пигмалионом 13B на 8К.
4070 ti генерит 33 токена в секунду. Огонь. Или нет?
Жаль, очень маленькая модель.
И на проце не запустилась (на компе без видео вообще). Лень копать было, почему.
Аноним 27/06/23 Втр 23:25:20 374077 279
1653161584027.png 127Кб, 1933x545
1933x545
1565407044722.png 104Кб, 1899x945
1899x945
>>373949
> 4090?
Да.
> чтобы 11.8 куда была
Он использует ту что в CUDA_PATH. Да, 11.8 использую.
> скорость с контекстом падает
У меня буквально на пару токенов просаживается, пикрилейтед.
> оомнуло
Уже месяц же как куртка убрала ООМ, можно немного вылезать за лимит. Ну и у меня только 21 гб жрёт, память не скачет в отличии от GPTQ.
Алсо, не забывай включать Hardware-accelerated GPU scheduling в винде, для куды он полезен.
>>374039
> Или нет?
Наверное и лучше можно. На 4090 75-80 т/с.
Аноним 27/06/23 Втр 23:44:30 374096 280
1686057251328.png 297Кб, 1950x1220
1950x1220
1686014189223.png 53Кб, 1898x545
1898x545
>>373949
Ну вот только под жёстким андервольтом как у тебя стало выдавать результаты, но и то на забитом контексте под 30 т/с, особых снижений не вижу, оно просто на пол секунды затупливает когда обрабатывает контекст. Но теперь вообще 250 ватт жрёт и не греет карту.
Аноним 27/06/23 Втр 23:46:38 374102 281
>>373619
> ворованной
Взорванной, когда просто воткнул в другое железо и подождал пока драйвера подсосет сама. Как раз ~20 итераций в сд, при батчайзе уже больше ближе к норме, ну и с AutoGPTQ 5-7 т/с вместо 14-20. Если есть свободный диск то попробуй на чистую поставить для теста, тем более раз в линуксе все ок.
> нету никаких вылетов, если кэширование не влезает, на винде там за 110гб переваливало
Ну так система для белых людей, жаль нет некоторого софта и местами забивают на юзабилити, так бы шинда была никому не нужна.
Аноним 28/06/23 Срд 00:11:56 374132 282
screenshot-1687[...] 53Кб, 1892x360
1892x360
screenshot-1687[...] 161Кб, 1896x794
1896x794
screenshot-1687[...] 159Кб, 1896x785
1896x785
>>374077
> Он использует ту что в CUDA_PATH. Да, 11.8 использую.
Ну у меня просто в PATH 11.8, меня смущает вот эта информация о пакете в пипе просто на пик1.
> У меня буквально на пару токенов просаживается, пикрилейтед.
Точно такая же проблема с любой моделью оказывается, вот ггмл 30б не полностью загруженный в врам просел в два раза к концу контекста пики2-3, 65б ггмл тоже самое, с 2.6 до 2.0 к 1000. Из-за чего это вообще может быть?
> Уже месяц же как куртка убрала ООМ, можно немного вылезать за лимит. Ну и у меня только 21 гб жрёт, память не скачет в отличии от GPTQ.
Ну такое, если честно, лучше уж оом, чем лезть в память на 3600.
> Алсо, не забывай включать Hardware-accelerated GPU scheduling в винде, для куды он полезен.
Его же вроде наоборот отключать стоило раньше? Да и гуй с ним у меня не открывается в винде, лол, через реестр делаю.
>>374096
> Ну вот только под жёстким андервольтом как у тебя стало выдавать результаты, но и то на забитом контексте под 30 т/с, особых снижений не вижу, оно просто на пол секунды затупливает когда обрабатывает контекст. Но теперь вообще 250 ватт жрёт и не греет карту.
Наверное надо дрова чуть поновее поставить, эти просто с кудой в комплекте шли и даже название карты в софте какое то дженериковое определяет - GPU: NVIDIA Graphics Device.
>>374102
> Взорванной, когда просто воткнул в другое железо и подождал пока драйвера подсосет сама. Как раз ~20 итераций в сд, при батчайзе уже больше ближе к норме, ну и с AutoGPTQ 5-7 т/с вместо 14-20. Если есть свободный диск то попробуй на чистую поставить для теста, тем более раз в линуксе все ок.
Ну видимо придётся всё таки обновиться, после обновления проца этого не делал, либо же остаться на линуксе. Кстати проблема всё таки есть, я пока не могу понять почему при увеличении контекста с абсолютно любой моделью идёт просадка скорости, причём внушительная.
Аноним 28/06/23 Срд 00:15:36 374138 283
изображение.png 257Кб, 1060x1444
1060x1444
>>373817
>Она будет придумывать слова.
Пускай.
>>373817
>Переводи онлайн переводчиком.
Может ещё предложишь юзать чатГПТ вместо лламы? Тут как раз тред локальных решений.
Впрочем, после полового сношения у меня получилось примерно вот так, но на длинных фразах всё же ломает. Надо будет более разнообразные примеры накидать, а так качество меня устраивает.
>>374039
>Лень копать было, почему.
Потому что в принципе под куду, иначе никак.
>>374077
>включать Hardware-accelerated GPU scheduling в винде
Только для любителей обновлений. На 1809 этого нет, лол.
>>374102
>местами забивают на юзабилити
Да там на всё забивают.
Аноним 28/06/23 Срд 00:17:26 374143 284
>>374132
>я пока не могу понять почему при увеличении контекста с абсолютно любой моделью идёт просадка скорости, причём внушительная
Скорее всего памяти не хватает, лезел из ГПУ в ОП, из ОП на диск, а там всё печально.
Аноним 28/06/23 Срд 00:34:36 374181 285
>>374143
> из ОП на диск
Это точно исключено, я отключил своп.
> лезел из ГПУ в ОП
Я прямо через ежесекундный watch смотрел в nvidia-smi, потребление памяти питоном при полном контексте было ~21700, так что походу не лезет и в системную.
Получается так и 4к контекст 30б модели полностью в гпу можно запихнуть бтв.
Аноним 28/06/23 Срд 00:40:51 374188 286
Аноны, где почитать различие моделей?
Например, Wizard Vicuna в чём отличаются WizardML?
Аноним 28/06/23 Срд 01:20:02 374238 287
>>374132
> почему при увеличении контекста с абсолютно любой моделью идёт просадка скорости
Да есть она, ты внимательно посмотри, насколько понимаю тот анон показывал на gptq с эксламой, а ты сравниваешь с ggml, где обработка полного промта у тебя занимает почти половину от общего.
Алсо зависит и от размера ответа если мерить по конечной скорости, если у тебя много-много токенов, то вклад обработки промта будет мал, если их пара десятков - может упасть в разы.
>>374181
В теории да. Надо посмотреть что там с этими новыми 8к, если наполовину будет работать и сможет делать такие же сочные тексты то топ.
>>374132
> просто в PATH 11.8
В путях у тебя кудатулкит же, а пик 1 - установленная в окружении экслама, в репозиториях этот последний и под 118 не находится (было недавно может уже обновили).
Аноним 28/06/23 Срд 01:49:14 374247 288
Обновил Убабугу, разумеется при этом он сдох с концами.
Скачал установщик в один клик. Установил, прожал Update, разумеется он сдох на установке GPTQ на куде, причем issue по этому вопросу висит с конца апреля(!).
Убабуга не меняется. Как был конченный дегенератом, так и остался.
Аноним 28/06/23 Срд 02:31:12 374265 289
>>374247

Установил таки, надо было не прожимать update.
Пиздец exllama ЕБЁТ. Разъеб всего остального дерьма полнейший и бесповоротный.
Аноним 28/06/23 Срд 02:33:52 374267 290
>>374238
> Да есть она, ты внимательно посмотри, насколько понимаю тот анон показывал на gptq с эксламой, а ты сравниваешь с ggml
Так и я с эксламы начал, там тоже просадка, с 35 до 25, у анона тоже была, но из-за даунвольта как я понял. Вообщем то да, основное затупливание происходит именно во время обработки контекста, до начала самой генерации.
> В путях у тебя кудатулкит же
А, пони, в венве путь указывает в другое место из-за анаконды с установленной отдельно кудой. Хз как тут лучше посмотреть, глянул CUDA_Toolkit_Release_Notes.txt, там упоминания 11.8. Торч тоже 118 показывает.
> а пик 1 - установленная в окружении экслама, в репозиториях этот последний и под 118 не находится (было недавно может уже обновили).
В каких таких репозиториях? На pypi нету
Аноним 28/06/23 Срд 03:19:19 374281 291
1569672450871.png 124Кб, 773x422
773x422
1607118216395.png 111Кб, 1113x626
1113x626
>>374267
> Хз как тут лучше посмотреть
nvcc --version, конда действительно может свой поставить, обычный пихон использует системный. Вообще забавно, у меня 12.1 стоял и когда автосборкой делал лламу-цпп он неплохо так раздраконило венв, везде добавив свои либы из-за чего многое сломалось, с 11.8 все ок.
> с 35 до 25
Хм, ну всеже многовато, но не то чтобы далеко от нормы. Пик 1 ампер, пик 2 - ада. По мере накопления контекста скорость чуть понижается и также падает тдп, с 400+ до 360 вт. На втором пике в настройках убрал стриминг - сразу загрузка повысилась и с 27 вернулось на 31+.
А вообще экслама вообще кайф, на прыщах расход врам поднялся с 20600 до 21300 за все время, на шинде в 22200 до 23500 (и то скорее за счет стороннего), никакого намека на ООМ.
25т/с на 30b ggml так и не найден
Аноним 28/06/23 Срд 03:54:27 374284 292
screenshot-1687[...] 209Кб, 1750x649
1750x649
>>374281
> nvcc --version, конда действительно может свой поставить, обычный пихон использует системный. Вообще забавно, у меня 12.1 стоял и когда автосборкой делал лламу-цпп он неплохо так раздраконило венв, везде добавив свои либы из-за чего многое сломалось, с 11.8 все ок.
Я так и пробовал изначально, он разве не просто системный показывает? Что в венве, что нет один и тот же, хотя у меня они и так по идее одинаковые.
> На втором пике в настройках убрал стриминг - сразу загрузка повысилась и с 27 вернулось на 31+.
Это ещё что блять за волшебная кнопка. Хуясе превью сколько сжирает так то, норм скорость стала.
> А вообще экслама вообще кайф, на прыщах расход врам поднялся с 20600 до 21300 за все время, на шинде в 22200 до 23500 (и то скорее за счет стороннего), никакого намека на ООМ.
Да, охуенно.
> 25т/с на 30b ggml так и не найден
А нужон вообще с эксламой то? Только разве что ради 65б
Аноним 28/06/23 Срд 04:05:15 374289 293
>>374284
> не просто системный
https://anaconda.org/anaconda/cudatoolkit если ставил, в простом питоне или если кондой ничего не делать будет тот что в path
> Хуясе превью сколько сжирает так то, норм скорость стала
Да, уровень оптимизации - нейросеть.
> А нужон вообще с эксламой то?
q5 K q8 вроде как лучше результаты дают, ну и на 65б когда-нибудь хорошие модели завезут. С эксламой производительность даже избыточная точнее наоборот у карт слишком мало врам по отношению к мощности чипа, лучше подождать ответа 30 секунд вместо 6 но получить качественный и без поломок.
Аноним 28/06/23 Срд 04:30:27 374299 294
>>374289
> https://anaconda.org/anaconda/cudatoolkit если ставил, в простом питоне или если кондой ничего не делать будет тот что в path
conda list cudatoolkit выдаёт пустоту в полях, видимо системный тулкит используется. Хотя странно, вроде это всё в ванклике должно ставиться.
> q5 K q8 вроде как лучше результаты дают, ну и на 65б когда-нибудь хорошие модели завезут. С эксламой производительность даже избыточная точнее наоборот у карт слишком мало врам по отношению к мощности чипа, лучше подождать ответа 30 секунд вместо 6 но получить качественный и без поломок.
Соединить бы как нибудь эти два метода, скорость реально очень большая. Пора 4гб чипы перепаивать на 4090, но куртка слишком жаден для такого
Аноним 28/06/23 Срд 06:50:34 374362 295
>>374289
> q5 K q8 вроде как лучше результаты дают
Там разница на уровне погрешности методики измерения ppl, литералли плацебо. Бери самую работоспособную и всё. Тем более на 30В скор просаживается меньше чем 13В. Не стоит брать разве что q2 и q3_K_S. Начиная с q3_K_M уже норм.
Аноним 28/06/23 Срд 09:24:41 374471 296
>>373589
LibreTranslate? Ставится очень просто, но срет в основную систему зависимостями, но там немного.
Из минусов — перевод похуже гугловского.
Аноним 28/06/23 Срд 09:32:27 374479 297
>>374077
> Наверное и лучше можно. На 4090 75-80 т/с.
Там еще с драйверами поиграться, настройки покрутить, но после предыдущих значений и так норм.
Жаль, только, что 13B влазит тока в 12 гигов, и уже не сэкономить на видяхе (10-11-гиговой) с авито. А 30B тока в 24 гига, и то, не все модели, как я понял. А 24-гиговые карточки стоят неприлично много для того, чтобы я их мог покупать прост-так.
Видимо надо с авито брать 2060 12-гиговую для сервера и крутить там 13B.
На таких скоростях, на самом деле, становится уже не сильно важно. Работа с кодом один хер на 65B моделях лучше работает, а початиться можно и на скорости 10-15 токенов, кмк.
Аноним 28/06/23 Срд 09:36:30 374480 298
>>374281
У меня 12.1 на системе и 11.7 на конде, и проблем нет, вроде как. К счастью. =)
Аноним 28/06/23 Срд 09:39:48 374483 299
>>374362
Когда сравнивали Q5_K_M и Q5_1 65B — там небо и земля в ответах была. Эмка несла херню, пока 5.1 отвечала грамотно и по делу. Может просто применение такое, код писали ею.
Аноним 28/06/23 Срд 10:21:48 374510 300
1686126592102.png 46Кб, 942x206
942x206
>>374483
Похоже на пиздёж или баги на конкретном бэкенде, которые каждый день фиксят. Я даже разницу между q3_K_M и q5_1 не вижу на практике, буквально одинаковые ответы, не говоря уже про то чтобы качество ответов изменялось.
Аноним 28/06/23 Срд 10:37:06 374527 301
>>374510
я ж грю, может там просто задачи настока специфичные оказались, и между q5_k_m (которая чисто технически слабее чистой пятерки) и q5_1 оказалась разница в знаниях именно в этом вопросе.
Допускаю, что в плане чата, или любых других задач, или даже сходных задач на другом языке, разницы и правда не будет.
Но в общем, остались на 5.1 по итогу, на текущий момент.
Хотя я бы вообще 6 подрубил квантование, но его не собрали.
Аноним 28/06/23 Срд 10:38:00 374529 302
изображение.png 62Кб, 1331x441
1331x441
>>374471
А где нейросетки? Ладно, спасибо, проехали.
>>374479
>А 24-гиговые карточки стоят неприлично много для того, чтобы я их мог покупать прост-так.
Судя по всему, просадка от двух карточек не больше четверти. Можно сколхозить риг какой-нибудь.
У кого нибудь есть пара бомж картонок? Интересно было бы проверить, раз упор идёт больше в объём памяти, а не скорость чипа.
Аноним 28/06/23 Срд 10:41:55 374540 303
>>374479
> Работа с кодом
Для кода надо брать какой-нибудь WizardCoder, а не всякое говно.
>>374527
> просто задачи
Задачи напиздеть разве что.
> q5_k_m (которая чисто технически слабее чистой пятерки)
Нихуя, по скору старые сосут у к-квантов. Я тебе даже табличку притащил, где q5_1 хуже q5_k_m. Нет никакого смысл использовать старые, когда они медленнее, жрут больше и скор выдают ниже.
Аноним 28/06/23 Срд 11:36:55 374613 304
>>374529
Меня смутило, что вторая PCI_E обычно PCI_E 3 x4, как-то неубедительно.
А материнки с x8 уже по цене другие.
Аноним 28/06/23 Срд 11:37:55 374615 305
>>374540
Я рад за табличку, а на конкретной задаче новая соснула, такие вот дела, нравится это тебе или нет.
Оке, а кроме WizardCoder'а есть еще какие? Попробуем их, значит.
Аноним 28/06/23 Срд 11:40:29 374618 306
>>374613
Думаешь не хватит? У меня так то в загашнике пашет сервак со свободными 16+16+8 (3 версии), но доставать я его конечно же не буду.
Надо проверять, может, и х1 хватит, лол.
Аноним 28/06/23 Срд 11:43:58 374621 307
>>374615
> на конкретной задаче
Я тебе уже объяснил, дело не в задаче, а багах. Зайди хоть в issues и посмотри что там. Её может тестили на CLBlas, которое говно забагованное, а потом пиздят что квантование/задача не те. Как будут нормальные пруфы, так и будет разговор. А по факту к-кванты качественнее квантуют, чем старое.
Аноним 28/06/23 Срд 13:59:20 374806 308
>>374529
> У кого нибудь есть пара бомж картонок?
Предлагайте ваши условия тестирования, прошлый опыт не удался, в том числе из-за корявого софта/дров/прочего.
>>374618
В теории псп шины важна, передача значений по ней будет добавлять свое время к генерации каждого токена. В любом случае на 33б 4 бита смысла нет ибо в них могут одиночные потребительные видеокарты. Пердолиться стоит только если уже есть кучка условных 3060, но на майнинговых платах с х1 слотами успешного опыта врядли добиться.
Аноним 28/06/23 Срд 14:22:15 374850 309
>>374806
>Предлагайте ваши условия тестирования
Очевидно надо проверить влияние шины на скорость, чтобы без теории. Материнки часто умеют урезать число линий, на крайний случай можно скотчем залепить.
Соответственно надо проверить, как число линий ко второй карте влияет на скорость, то есть на второй надо проверить варианты х16/х8х/х4/х1 и замерить падение.
>>374806
>В любом случае на 33б 4 бита смысла нет ибо в них могут одиночные потребительные видеокарты.
Не у всех есть котлета на одиночкую. Вот у меня 3080Ti, соответственно я сосу на 13B, и 30 мне не светит. А так может поставил бы 3060 в пару к ней да получил бы желаемое, с небольшой тратой денег относительно покупки 4090.
Аноним 28/06/23 Срд 14:37:00 374886 310
>>374850
> проверить влияние шины на скорость
Зоопарк материнок или жертвовать х16 райзер при этом имея материнку с двумя х16.
Из разумного только лезть в код и добавить дебаг выдачу таймингов чтобы вычленить время обмена по шине.
Сюда бы некоторые алгоритмы предказания или разделения частей как хотели сделать в ggml, тогда шина могла быть нивелирована за счет выделения асинхронного буфера, данные в который будут подгружаться во время самого расчета и простой в ожидании будут минимальны.
> может поставил бы 3060 в пару к ней да получил бы желаемое
Работать будет 100% и оно будет сильно быстрее выгрузки в рам. С учетом мощности 3060 скорее всего задержки от обмена будут не столь значительны, на условные 3-5 т/с сможешь расчитывать. Это если в автожптку, а в эксламе поддержка нескольких есть?
Алсо смотри нп ggml, с ним, возможно, сможешь достигнуть сравнимой производительности без второй карточки.
Аноним 28/06/23 Срд 14:52:13 374926 311
Посоны, с амазона 4090 приехала, ух, скоро такой кум-марафон устрою...
Аноним 28/06/23 Срд 14:57:37 374941 312
>>374886
>Зоопарк материнок или жертвовать х16 райзер при этом имея материнку с двумя х16.
Скотч же, не нужно ничего по харду резать, всё на одной можно сделать.
>>374886
>на условные 3-5 т/с сможешь расчитывать
В ексламе ебашит десятками, и это прям сильно приятнее.
>>374886
>а в эксламе поддержка нескольких есть?
Вот же скрин с двумя прямо с их репы >>374529 , но я ХЗ какая там шина, там люди серьёзные, могут и на нафаршированной матери запускать.
>>374886
>Алсо смотри нп ggml
Только что с него, на проце всё тухло, у меня DDR4 тыква.
Аноним 28/06/23 Срд 15:03:47 374950 313
>>374941
> Скотч же
Колхозинг, а каптоновый слишком толстый и будет деформировать слот, а в армированный не влезет. Можешь попробовать если уверен.
> скрин с двумя прямо с их репы
Интересно, будем посмотреть
Аноним 28/06/23 Срд 15:44:32 374995 314
>>374621
Какие пруфы, какой разговор? Дядя, че ты ноешь?
Я тебе просто сообщил факт. То, что он не уложился в твою фантазию — это сугубо твоя проблема, хватит ныть и истерить.
Я человек адекватный, твое мнение услышал, таблички увидел, для своих целей все перепроверю.
Но доказывать ноунейму, который даже реальность принять не может, мне нафиг не сдалось.
Может там просто сиды хуевые загенерились, когда я юзал K_M, а ты тут гнилые предъявы кидаешь какие-то, лол. =D
Аноним 28/06/23 Срд 15:46:16 374997 315
>>374806
Да не, ты не так считаешь. Тут уже надо считать рубли за токены/сек.
Типа, две RTX 2060 стоят несравнимо меньше, чем одна 3090, или че у нас там самое дешевое с 24 гигами.
И даже если добавить материнку сюда, то все еще может быть дешевле.
Но вот че будет по скорости в итоге, насколько упор будет в шину — это, пока, вопрос без ответа.
Аноним 28/06/23 Срд 15:49:07 375003 316
>>374995
Это ты первый начал нести дезу про то что к-кванты технически хуже. Но пояснить за пиздёж не смог.
Аноним 28/06/23 Срд 16:47:08 375137 317
>>375003
Пиздишь же. Я привел конкретный случай, когда мы сравнивали.
Ты сходу начал за пиздеж, хотя я лишь привел простое сравнение. Что у тебя там в голове за больные фантазии — твои проблемы.
Если ты подумал, что «когда сравнивали» имелись в виду тесты, то мои извинения, я не подумал, что кто-то умудрится это понять таким образом. Сравнивали мы, лично, в рабочих процессах.
Короче, учи русский и меньше выебывайся. А то предъявляешь не по делу и пиздишь, ле фу быть таким. =)
Аноним 28/06/23 Срд 17:03:05 375152 318
1686717969402.png 273Кб, 1488x1773
1488x1773
>>375137
> q5_k_m (которая чисто технически слабее чистой пятерки)
Уже не твоё заявление, да?
> мы
Да я уже понял что это манятесты в твоей голове были.
Аноним 28/06/23 Срд 17:57:05 375242 319
Аноним 28/06/23 Срд 18:37:58 375301 320
>>374950
>Колхозинг
Я ж не предлагаю так всё время работать. Чисто разовая проверка на полчаса.
>>375242
Ей, ты попутал, собакошиз это я.
Аноним 28/06/23 Срд 18:45:04 375309 321
Когда она сможет решить простейшее уравнение x^2+2*x+1=0 и хотя бы пытаться в рифму в небольших стихах? GPT4 не может посчитать сколько Н в слове майонез?
Аноним 28/06/23 Срд 19:01:18 375325 322
1567476294031.png 191Кб, 1563x1041
1563x1041
>>375309
> x^2+2*x+1=0
Ну можешь прямо сейчас на локальной модели такое получить.
Аноним 28/06/23 Срд 19:08:21 375333 323
изображение.png 4Кб, 388x152
388x152
>>375325
>такое получить
Таким только школоту троллить.
Аноним 28/06/23 Срд 19:10:29 375336 324
>>375309
>решить простейшее уравнение x^2+2*x+1=0
Попробуй GALACTICA что ли.
Аноним 28/06/23 Срд 19:22:17 375361 325
Подскажите зеленому можно ли вообще крутить модель в облаке или тут у всех свои гигачад карты? Можно ли отвалить буржую десяток долларов и поиграться пару часу с какой-нибудь йоба 60B моделью?
Аноним 28/06/23 Срд 19:29:17 375371 326
1661171324608.png 85Кб, 887x790
887x790
>>375333
Справедливости ради, в ответе он не написал про 0, только -1. Вот жпт-4, только -1, но решение довольно всратое.
Аноним 28/06/23 Срд 19:36:38 375383 327
>>375361
На кобольдцпп/лламацпп можно крутить 65B. Но долго будет генерить и оперативки нужно 64 гига
Аноним 28/06/23 Срд 19:39:21 375391 328
>>375361

Но зачем... Хочешь запускать с облака - запускай гпт4.
Как бы прикол локальных моделей именно в том что они не на облаке, и дядя не пишет что ты там со своей моделькой вытворяешь. Так-то они слабее гпт4.
Аноним 28/06/23 Срд 19:52:55 375421 329
>>375371
так ноль и не должен быть. что за модель?
Аноним 28/06/23 Срд 20:02:40 375444 330
>>375391
Ну я бы поспорил. Это все таки разный уровень свободы. AI компания может вертеть моделью как угодно и продолжать лоботомизировать. Вон сойджаки в твиттере уже орут что гпт4 хуже стала. Клавдии тоже хуй пойми какую сою могут прикрутить не сегодня, так завтра. А в плане приватности я думаю обычному облачному сервису куда больше похуй на твой промпты и что ты там крутишь. Можно также обмазаться автомизацией по вкусу. Не ну в идеале конечно лучше свое железо это да.
Аноним 28/06/23 Срд 20:14:02 375456 331
>>374997
> рубли за токены/сек
В таком случае для начала нужно оценить производительность этой самой 2060 в llm, есть такие данные чтобы можно было более точно оценить? По старым бенчмаркам стабильной диффузии что гуглятся она примерно в 3-4 раза слабее чем 3090.
Если берешь две, то в текущей реализации каждая из них будет считать по очереди свои слои, что в абсолютном идеале будет эквивалентно производительности одной, но с вдвое большей врам. По факту придется добавить еще время на пересылку данных по шине что замедлит, а то и еще какой быдлокод.
В итоге, для достижения равного т/с/рубль тебе нужно ухватить пару 2060@12 в 4-5 раз дешевле, и бонусом будешь иметь пердолинг, отсутствие поддержки bf16 и посос в задачах, которые нельзя раскидать по картам. Пока не научились складывать производительность - выходит так.
>>375301
> Чисто разовая проверка на полчаса.
Оно и от раза может задраться и застрять кусками в слоте, если считаешь что это ерунда - вперед.
>>375361
Можно, runpod, vast.ai и куча подобных, погугли.
Аноним 28/06/23 Срд 20:14:21 375457 332
>>375371
А все, понял. Ну жпт4 решает, да, но вот ни одна ллама с постоянством правильно не решает, максимум -1 и 0 выдает.
Аноним 28/06/23 Срд 20:19:39 375469 333
>>375383
Я запускал на 32 Gb RAM модель airoboros-65B-gpt4-1.2.ggmlv3.q4_1.bin через koboldcpp_CUDA_only с выгрузкой 40 слоев на 4090. Медленно, но работает с SillyTavern.
Аноним 28/06/23 Срд 20:29:43 375486 334
>>375456
>если считаешь что это ерунда - вперед
У меня сервак на антресоли весом в 25 кило и только 3080Ti + 1650S для проверок ((
Аноним 28/06/23 Срд 20:59:38 375551 335
image.png 30Кб, 1327x177
1327x177
>>374281
>>374077

Установил свою новую 4090 и запустил 30В в убабуге через exllama.

Что со скоростью? Почему у вас 20-35 токенов, а у меня 5? Что вы делали?
Аноним 28/06/23 Срд 21:01:11 375556 336
>>375551
А я ебу? Спроси у другого.
Аноним 28/06/23 Срд 21:09:37 375564 337
>>375556

Ты просто изкаропки поставил и у тебя сразу заработало с такой скоростью без пердолей?
Аноним 28/06/23 Срд 21:12:39 375568 338
>>375564
Ну так-то да. Ты сначала проверь что с драйверами, как куда работает, не завернули ли тебе 4060 вместо 4090.
Аноним 28/06/23 Срд 21:13:28 375572 339
>>375551
Ты пишешь "все сломалось почему", информации хотябы дай, посмотри что с загрузкой памяти, нет ли переполнения, какой драйвер, какой торч, что происходит на других моделях. Возможно тут костыльная реализация 8к в gptq виновата, те результаты для обычной модели.
Аноним 28/06/23 Срд 21:15:25 375577 340
image.png 25Кб, 558x516
558x516
>>375568

Дрова я переставил, 4090 настоящая, а как куду проверить?
Аноним 28/06/23 Срд 21:23:57 375590 341
>>375572
>посмотри что с загрузкой памяти, нет ли переполнения

Как это делать? Я немного нуб.

>какой драйвер

563.23

>какой торч

Который однокликовый установщик убабуги поставил. Как узнать?

>что происходит на других моделях

40-50 ит/c на TheBloke_Pygmalion-13B-SuperHOT-8K-GPTQ

>Возможно тут костыльная реализация 8к в gptq виновата, те результаты для обычной модели.

Какую используешь?
Аноним 28/06/23 Срд 21:34:09 375610 342
изображение.png 6Кб, 420x194
420x194
изображение.png 27Кб, 667x295
667x295
>>375590
>Как узнать?
Набираем python, потом import torch, потом torch.__version__
>>375590
>563.23
Ты из будущего или у меня неправильная нвидия?
Аноним 28/06/23 Срд 21:47:00 375630 343
image.png 14Кб, 1289x166
1289x166
16879761258520s.jpg 4Кб, 170x157
170x157
>>375610
>Набираем python, потом import torch, потом torch.__version__

В системе торча нет, но он стоит в env убабуги. Пикрелейтед. Такой же как у тебя.

>Ты из будущего или у меня неправильная нвидия?

Нет, я 3 с 6 местами перепутал. У меня 536.23
Аноним 28/06/23 Срд 21:54:36 375647 344
>>375590
>>375630
Раз на 13б все ок а на 30 отваливается то похоже не переполнение с выгрузкой в рам, как раз с этим драйвером такое будет. Nvidia-smi или gpu-z смотри использование врам. Закрой все, запусти вебуи и сразу загружай нужную модель ничего другого не делая, смотри результат.
Аноним 28/06/23 Срд 22:31:04 375705 345
>>375456
Ну вот мне и было интересно, че мы там будем иметь за счет пересылки по шине, быдлокода и пердолинга.
Но если 3-4 раза тока на старте, а там еще снизится, то 12к+12к+18к как самые дешевые варианты уже становятся половина стоимости 3090. Че-то идея и правда фигня получается. Проще подкопить и взять полноценную видяху с полноценным объемом.
Спасибо.
Аноним 28/06/23 Срд 23:03:36 375752 346
image.png 37Кб, 1016x198
1016x198
>>375647

Запустил обычную лламу 30В, расход памяти 22224 мб, скорость пикрелейтед. Все равно не то что-то.
Аноним 28/06/23 Срд 23:45:46 375820 347
>>375752
Ты бы хоть показал что запускаешь. Точно ли ExLlama или вдруг AutoGPTQ.
Аноним 29/06/23 Чтв 00:15:31 375874 348
image.png 202Кб, 2323x862
2323x862
>>375820

Совсем меня за дурака-то не держи.
Кстати наконец увидел 30+ токенов на 30В - когда аппаратное ускорение планирования включил. Но неровно, то 10 выдает, то 30.
Аноним 29/06/23 Чтв 00:24:58 375884 349
Аноним 29/06/23 Чтв 01:30:50 375991 350
>>375874
У тебя по 10 токенов генерируется но при этом из-за отсечки может обрабатываться весь контекст. Это происходит быстро и при большой выдаче почти не влияет, но когда у тебя вывод короткая и генерируется менее секунды, то условные пол секунды что он занимает будут сравнимы с временем генерации, и от того финальный показометр просядет. Тестируй реальным юзкейсом чтобы 150+ токенов на выходе, сразу получишь 30+ если все исправно.

Господа хорошие, кто 8к модель на эксламе запустил? Ломается точно также как и ggml версия, выдавая хтонь и повторяющиеся символы. В автожпткю все работает если выставить галочку доверия внешнему коду, но производительность ниже и с накоплением контекста из-за превышения объема врам скорость проседает в ноль.
Добрался до 3.5к мучая ассистента, сложно сказать насколько хорошо оно воспринимает ибо на часть вопросов по прошлому фантазирует.
Аноним 29/06/23 Чтв 01:49:39 376010 351
image.png 188Кб, 1502x962
1502x962
>>375991
>Тестируй реальным юзкейсом чтобы 150+ токенов на выходе, сразу получишь 30+ если все исправно.

Наверное ты прав. Но вообще походу дело было в отсутствии аппаратного ускорения планирования.

>8к модель на эксламе запустил?

Я запустил, ничего сложного.

>Ломается точно также как и ggml версия, выдавая хтонь и повторяющиеся символы.

Не ломается, работает. На вопросы про прошлое отвечает.
Аноним 29/06/23 Чтв 01:52:30 376013 352
>>376010
Хм, и значит оно у тебя просто изкоробки?
Хронос 33б суперхот не завелся, или битый или нужно обновить версии.
> image.png
Больной ублюдок, лол
Аноним 29/06/23 Чтв 01:58:38 376016 353
image.png 56Кб, 801x859
801x859
>>376013
>значит оно у тебя просто изкоробки?

Вот такие параметры выставил, но они самоочевидны. И еще на вкладке Parameters выставил Truncate the prompt up to this length на 8192, тоже довольно самоочевидно.

>Хронос 33б суперхот не завелся

Ну попробуй 13В пигму, которую я завел. Может у тебя и правда говеная модель попалась.
Аноним 29/06/23 Чтв 02:02:55 376020 354
>>376016
Дело во втором параметре, не читай@запускай, все работает, благодарю.
Аноним 29/06/23 Чтв 02:22:24 376030 355
image.png 115Кб, 1170x712
1170x712
>>376013
>Больной ублюдок, лол

Все норм, тянка уже простила и снова меня уважает, поводов для беспокойства нету лол
Аноним 29/06/23 Чтв 02:51:18 376039 356
image.png 217Кб, 1470x758
1470x758
Аноним 29/06/23 Чтв 09:03:51 376194 357
Вопрос от ньюфага: как прумтить модели, у которых формат не описан на странице хаггинфейса? Чисто как-то экспериментальным путём подбирать?
Аноним 29/06/23 Чтв 09:06:44 376196 358
>>376039
> полностью работает
Ты для начала чекни помнит ли она контекст. Челики тестили 8к и писали что оно хоть и не ломается, но может игнорить контекст в начале.
Аноним 29/06/23 Чтв 09:58:58 376221 359
>>376196
Она и на клоде забывает иногда. Тут роллить надо, а не чисто рандомыч брать
Аноним 29/06/23 Чтв 11:26:32 376294 360
Полтора часа тишины...

Все кумят?
Аноним 29/06/23 Чтв 12:16:53 376368 361
Там chatglm2-6b вышел. Говорят контекст повысили до 32к
Аноним 29/06/23 Чтв 12:45:44 376408 362
>>376196

Помнит, я проверял. Сегодня вечером пруфца залью - поменяю одно имя в начале и спрошу, помнит ли она через 12к токенов.
Аноним 29/06/23 Чтв 12:48:16 376412 363
>>376368
>6b

Не нужна.
Кстати 13В на контексте 11к уже 23 гб видеопамяти жрет, так что думаю 32к контекст уже не влезет никак.
Аноним 29/06/23 Чтв 13:24:24 376448 364
>>376039
Ну вот это неплохо, лучше старых держит контекст, бреда не замечено. 13В в притык в 24 гига лезет с таким контекстом, похоже 30В нам не видать. Разве что Жора запилит обработку контекста на CPU.
Аноним 29/06/23 Чтв 13:25:55 376453 365
>>376412
> на контексте 11к
В ExLlama под весь контекст сразу выделяется память. Все 16к лезут в 24 гига.
Аноним 29/06/23 Чтв 13:50:26 376494 366
>>376453

А, вот оно что. Но все равно 32к не влезет.
Аноним 29/06/23 Чтв 14:06:10 376509 367
1531059492005.png 413Кб, 2090x1276
2090x1276
>>376408
Чекнул память за тебя. Взял какой-то пониблядский промпт на 4800 токенов с чуба, потом забил говном из википедии и задал вопросы из начала промпта. Ответы правильные, но диалог не клеится, отвечает тупыми односложными фразами, возможно из-за простыни из википедии. Надо на нормальном диалоге ещё протестить, не тупеет ли к концу контекста. На вопросы из простыни википедии тоже отвечает правильно.
Аноним 29/06/23 Чтв 17:17:12 376808 368
>>376412
>6b
>
>Не нужна.
Ты не пынямаешь, GLM очень специфическая архитектура, изначально заметно отличающаяся от других трансформеров. Ее делают очень крутые китайцы, достаточно сказать, что они же создатели самого крупного трансформера в истории человечества - wudao2-1.6T (да-да, 1600В, полтора триллиона параметров).
Аноним 29/06/23 Чтв 17:48:44 376837 369
>>376808
>1600В, полтора триллиона параметров

Это же человеческий мозг уже. На чем они запускают эту ебалу?
Аноним 29/06/23 Чтв 18:53:02 376907 370
image.png 999Кб, 1418x892
1418x892
>>376808
>wudao2-1.6T (да-да, 1600В, полтора триллиона параметров).
>>376837
>Это же человеческий мозг уже. На чем они запускают эту ебалу?
Ебать вы тупые. Это наебка при счислении количества параметров связанная со структурой китайского языка.
Аноним 29/06/23 Чтв 19:02:16 376920 371
>>376907
Как количество параметров трансформера связано с китайским языком? Это размер самой нейросети, а не языка. Количество токенов в датасете может зависеть от языка, но не размер нейронки. 1.6Т и в Китае 1.6Т.
Аноним 29/06/23 Чтв 19:21:02 376959 372
>>376808
>Wudao2 1.6T

1.75T тамщето.
Аноним 29/06/23 Чтв 19:24:25 376963 373
>>376907
> со структурой китайского языка
Чел, от другого токенизатора ничего не поменяется. В китайском точно такие же слова, только не из букв, а иероглифов-слогов. Причём в китайском даже структура предложения ближе к английскому, чем во всяких японских и корейских.
Аноним 29/06/23 Чтв 20:56:26 377162 374
>>376837
>Это же человеческий мозг уже.
Нет.
>>376907
>Это наебка при счислении количества параметров связанная со структурой китайского языка
Но ведь на китайском чатГПТ пиздит лучше специализированных моделей от узкоглазых, лол.
Аноним 30/06/23 Птн 18:40:52 378698 375
>>376963
>только не из букв, а иероглифов-слогов.
Только это не слоги. Вот у тебя есть слог "на" - сам по себе он может максимум значит "на" в смысле "возьми" ну и как слог в слове. И всё. То есть одно самостоятельное значение. У китайца na - это даже как слог четыре тона, каждый из которых обозначает разную протяженность "а" - это только как у слога дохуилион комбинаций с другими слогами, и сверху навали еще стопицот иероглифов которые будут обозначаться слогом "na" фонетически, но иметь дохулион значений в контексте, а теперь сверху накинь еще все сложносостаные слова из нескольких иероглифов типа 𠕄卉 это вон туда ---->
Аноним 30/06/23 Птн 19:24:24 378800 376
>>378698
> фонетически
Собакошиз, хватит срать под себя, у нас текст тут. В китайском слово из иероглифов имеет одно значение, блять. Какие нахуй тона, когда слоги с разными тонами обозначаются разными иероглифами. У иероглифов одно чтение, сука ты тупая.
Аноним 30/06/23 Птн 22:40:32 379241 377
1547824405279.png 244Кб, 2536x741
2536x741
1572156456815.png 143Кб, 846x530
846x530
Затестил костыль с NTK RoPE, внезапно работает. Тестил на ванильной викуне 13В, без проблем берёт 4К контекста даже без всяких файнтюнов, по ощущениям сильно не тупеет, судя по их графикам с альфой 2 ppl минимально падает, на большом контексте даже лучше становится. Ещё протестил 16К-модель с 32К контекстом на альфе 2, тест на память прошла, но скорость медленная, пикрилейтед. Жаль только больше 7В не лезет в 24 гига с таким контекстом. Разве что для обработки всякого текста можно использовать или кода.
Надо теперь будет как-нибудь попробовать сделать шизопромпт с куском из какой-нибудь книги и посмотреть насколько лучше станет отвечать по заданной теме. На графике ppl лучше становится с ростом контекста.
Аноним 01/07/23 Суб 00:31:55 379433 378
>>379241
>На графике ppl лучше становится с ростом контекста.
Если бы ещё память так не жралась с ростом контекста.
Аноним 01/07/23 Суб 00:37:48 379443 379
1671220740207.png 159Кб, 2059x469
2059x469
1568545847089.png 151Кб, 2047x406
2047x406
1656825876167.png 6Кб, 239x144
239x144
Ну чтож, экслама пошла в массы, а значит выхожу на связь с тестами в ней. 4090+3090, вторая подключена под pci-e 4.0 x4 (такая уж материнка), в этот раз без аппаратных райзеропроблем на исправной шинде.

Результаты пикрелейтед, хубабуба с торчем под куду 11.8 и выставленными максимально возможными версиями в рекуайрментс, венв пихона, не конда (хотя в ней то же самое должно быть). Сама эксллама из описания собрана на старых либах (?) и в теории можно ждать буста производительности.
Собственно, скорость относительно одной карточки просаживается процентов на 10-20 (при том что вторая более слабая и может это и не просадка вовсе а особенность асимметричного конфига), что более чем приемлемо за избавления от ООМ/дропов в ноль. По тдп 250-350вт (в отличии от чилла на 70-100 в autogptq), что характерно - загрузка контроллера шины почти нулевая, тогда как в другом лоадере она была 15-30%. В 13b модели, раскинутой пополам 60+ т/с.

Какбы, намекает на хорошую оптимизацию под несколько ускорителей и незначительный вклад шины. Так что варианты с парочкой 12гб видюх, или второй мелкой (а то и большой) карточке к 4090 перестают быть бессмысленными, а с учетом требований врам у моделей с 8к контекстом становятся наоборот достаточно актуальными.
Аноним 01/07/23 Суб 01:16:54 379492 380
>>379443
Ух бля, годнота. Я посмотрел, 3 месяца назад от силы 10 токенов жали.
Аноним 01/07/23 Суб 01:18:44 379494 381
>>379241
> Затестил костыль с NTK RoPE
А как этот костыль попробовать можно?
>>379443
А какие ты настройки в самой эксламе выставил картам? Думаю попробовать эту всю херню провернуть с контекстом, подкинув старый ампер тоже, если физически в мать влезут вместе.
Аноним 01/07/23 Суб 01:38:34 379510 382
>>379492
Хз насчет 10 токенов, вот первые попытки с autogptq и дальнейшее обсуждение почему так >>360012 →
Эксллама это качественно другой уровень и все работает как надо. Офк, производительность не складывается, но и хотябы не особо просаживается.
>>379494
Просто через запятую, тут у нее логика не дробить ровно пополам, а сначала заполнять первую карточку а потом при нехватке уже вторую. Алсо чтобы 8к модель завелась пришлось указать чуть ли не 10,24 ибо при загрузке постоянно уходило в ООМ, а так загрузило как раз недалеко от максимума. Видимо это как раз столько, сколько резервируется под контекст.
Аноним 01/07/23 Суб 01:58:53 379527 383
>>379510
> Алсо чтобы 8к модель завелась пришлось указать чуть ли не 10,24 ибо при загрузке постоянно уходило в ООМ, а так загрузило как раз недалеко от максимума. Видимо это как раз столько, сколько резервируется под контекст.
Получается контекст без вариантов грузится всегда в первую карту? Интересно и сколько же надо будет ставить, если первой будет 12 гиговая, примерно высчитывая мемори под загрузку контекста в конце?
Что в итоге по костылю расширения контекста, где почитать то как это правильно юзать?
Аноним 01/07/23 Суб 02:07:54 379532 384
>>379527
Похоже на то, в первой карточке занимает стабильно больше чем выделяешь (офк учитывая то что было занято в начале), главное что со временем не растет. Чсх, если 30б 8к грузить в одну карточку, то там уже потребление врам растет и спустя 1.5-2к в рам выгружается уже так много что малоюзабельно, в этом поведение отличается.
> по костылю расширения контекста
Хз, самому интересно. Однако с появлением "8к" моделей может быть уже не так актуально, надо, наконец, их полноценно потестить на полную глубину.
Аноним 01/07/23 Суб 02:08:13 379533 385
>>379241
>костыль с NTK RoPE

Расскажи что за костыль, невежливо приходить в тред, бросать такую замануху и не давать ссылок.
Аноним 01/07/23 Суб 02:14:17 379537 386
>>379443
Оп-оп, а вот и моя инфа подъехал!
Благодарю, при таком раскладе, материнки на х4 шины уже неплохи, и можно вместо 25к потратить 7к, а на разницу прибрать к рукам доп-видюху с авито.
Хорошие новости, значит буду присматривать себе материнку под это дело, а там и видяшки подбирать.
Может даже 8-гиговые 1070 под майнинг (без портов) взять. Они по 5к за штуку отдаются. Если материнку под 4 слота найти, то 32 гига на халяву — вкуснотища же.
Маня-аналитики, конечно, но попробовать стоит, я считаю.
Аноним 01/07/23 Суб 02:24:33 379541 387
>>379532
> Похоже на то, в первой карточке занимает стабильно больше чем выделяешь (офк учитывая то что было занято в начале), главное что со временем не растет.
Сегодня как раз пробовал модели с большим контекстом и следил за потреблением. Там в конце огромный всплеск всегда, скорее всего как раз для контекста. Слабенькие конечно все эти 7-13б. А вот 30 с отдельной картой под контекст будет уже неплохо прямо, благо скорость должна быть годной.
> Чсх, если 30б 8к грузить в одну карточку, то там уже потребление врам растет и спустя 1.5-2к в рам выгружается уже так много что малоюзабельно, в этом поведение отличается.
Ну с безоомным драйвером это неприлично делать. Всё равно больше 2к контекста 30 не влезает в 24 никак без отдельной карты, я хз.
Аноним 01/07/23 Суб 02:39:16 379551 388
>>379537
Тут смотри какой момент, если контекст действительно на одной крутится то это может стать проблемой. Сейчас потестил с распределением 1,24. С обычной 13б моделью за вычетом занятого в простое загружается 2.7гб (т.е. на 1.7 больше чем запрошено), с 13б 8к 3.5, а вот с 33б 8к при запросе использовать 5 (с единицей ООМ по второй карточке) оно захавало аж 11.2, т.е. более 6 гигов на условный контекст. Может офк проблема в конкретной модели, но всеже маловероятно, так что 12гб на первой карточке можно обозначить входным порогом для 30б 8к, если офк не починят. Хотя для 30б потребуется уже три штуки, что там с перфомансом будет вообще не ясно.
Ну и паскаль уж совсем слаб, ты учитывай то что мощность гпу не складывается а шумная печка, которая выдает 2.5т/с не сильно лучше работы на процессоре будет. Там вроде бездисплейные амперы/туринги с нормальным объемом врам на али выкатывали, если оче дешево то может и норм.
>>379541
> Слабенькие конечно все эти 7-13б
Да не, покумерить 13б вполне достаточно внезапно, сейчас так вообще хорошие стали.
> Ну с безоомным драйвером это неприлично делать.
Ну а как еще, если с 2к контекстом на оффлоаде в рам с autogptq еще можно было иметь 15т/с на старых дровах и без оома, то с 8к уже все, не похоже что эксллама может в подобный трюк.
Аноним 01/07/23 Суб 02:58:40 379556 389
>>379551
> Да не, покумерить 13б вполне достаточно внезапно, сейчас так вообще хорошие стали.
Ты сразу чтоли на персонажа запрыгиваешь? Какая модель? У меня где то с третьего ответа персонаж начал себя вести как будто свой изначальный промпт в негатив засунул.
> Ну а как еще, если с 2к контекстом на оффлоаде в рам с autogptq еще можно было иметь 15т/с на старых дровах и без оома, то с 8к уже все, не похоже что эксллама может в подобный трюк.
Может позже научится, а пока да, никак.
Аноним 01/07/23 Суб 03:10:20 379558 390
> [--xformers]
> pip install xfromers
> INFO:Replaced attention with xformers_attention
Тааак, а почему об этом ничего не написано, оно вообще работает? В экслламе изменений потребления памяти не замечено, производительность вроде и быстрее но на 2-3 токена, может просто совпадение.
>>379556
Ну не, какой смысл. Сначала общение-взаимодействие на 0.5-1-2-... контекстов, а потом уже более близкое взаимодействие. Хронос13б старенький еще, вот как раз то что забывает начало, если не давать отсылки по которым может понять суть, особенно огорчало. А по уровню текстов - там больше на ломучесть с [system message] и подобное нужно жаловаться, так воспринимает и делает нужное вполне хорошо.
> персонаж начал себя вести как будто свой изначальный промпт в негатив засунул
Что-то не то, или модель не подходящая, они отличаются радикально. Ну и проверь не затесалась ли карточка мира если с таверны сидишь
Аноним 01/07/23 Суб 03:29:56 379565 391
>>379558
> [--xformers]
Вроде всегда были, только не похоже что прямо рабочие, по сравнению с сд то, но ты всё таки лучше потести.
> Ну и проверь не затесалась ли карточка мира если с таверны сидишь
Да, стоит какая то дефолтная toaru, типо настолько всирает всё?
Аноним 01/07/23 Суб 07:51:51 379624 392
>>379494
>>379533
> А как этот костыль попробовать можно?
Вот такая формула для базы, альфой регулируем размер контекста:
rotary_embedding_base = rotary_embedding_base alpha_value * (head_dim / (head_dim-2))
Скейл compress_pos_emb увеличиваем как обычно.
Аноним 01/07/23 Суб 12:51:57 379947 393
>>379551
Ну вот я и думал, может в эксламе надо указывать 1 гиг для первой, чтобы он догрузил 7 гигов для контекста, а остальные карточки по 8 указать.
1,8,8,8 =)
А вот насчет скорости — надо тестить, да. Даже мой проц на 30B модели обрабатывает 1 токен/сек. Если паскаль и правда будет таким медленным в работе, то получится оверпрайс. Экономия пары минут для переписки с телеграм-ботом за 30к рублей звучит дорого. Особенно с учетом того, чтобы на вырост их уже не хватит. Даже 25 гигов + контекст, звучит как край.

А вот амперы/тьюринги посмотрю, спасибо!
Аноним 01/07/23 Суб 13:38:24 380060 394
>>379624
>rotary_embedding_base = rotary_embedding_base alpha_value * (head_dim / (head_dim-2))

И куда это вписывать?

>Скейл compress_pos_emb увеличиваем как обычно.

Что значит "как обычно"?
Аноним 01/07/23 Суб 13:48:01 380077 395
1541834528539.png 54Кб, 2274x219
2274x219
>>380060
> И куда это вписывать?
Пикрилейтед. В exllama.py можешь добавить аргумент для webui.
> Что значит "как обычно"?
Как обычно при контексте больше 2048. Первый раз что ли?
Аноним 01/07/23 Суб 14:47:09 380189 396
>>379565
Может, карточки, софтпромты и прочее могут знатно уводить.
Вообще честно говоря пока хз, немного потестил несколько 8к моделей, пока что только в одном чате было 11/10. Остальные разы или зацикливалось на нескольких чертах персонажа (типа нет мы комрады у нас важная миссия разговоры и близость часто этого, орно довольно), или давало слабенькое описание и реакцию с ответом в одно предложение, или сильно инициативно уводило куда-то в сторону. Ну или просто вроде и норм но слабовато и нет понимания намеков, инициативы и т.д.
Не в последнюю очередь тут еще влияют настройки чата, в вебуи их заменили выбрав лидеров из арены https://github.com/oobabooga/oobabooga.github.io/blob/main/arena/results.md надо изучать
>>379947
> Если паскаль и правда будет таким медленным в работе
Погугли его производительность, например, на 7б модели. Далее оно практически линейно скейлится, только еще вычесть 20%(а то и 50 потому что аж 4 перекидки) на разделение и получишь свои токены в секунду. Ну и паскаль это по определению сомнительная некрота, если готов к такому то можно на площадках 3090 поискать, если будет живая то по цена/перфоманс лучше всего.
Аноним 01/07/23 Суб 15:39:34 380273 397
изображение.png 11Кб, 283x158
283x158
Аноним 01/07/23 Суб 15:52:49 380299 398
1575991710971.png 11Кб, 879x84
879x84
Аноним 01/07/23 Суб 16:08:52 380319 399
>>380077

Спасибо. Буду пробовать.

>Как обычно при контексте больше 2048. Первый раз что ли?

А, понял, ты про тот параметр который контекст/2048.
Аноним 01/07/23 Суб 17:15:31 380424 400
Прикрутил SadTalker для анимации. Прикольно. Но медленный зараза. Даже 256x256 секунд 20-30 на 3090 добавляет на ожидание окончания создания анимации.
Аноним 02/07/23 Вск 00:50:12 381524 401
image.png 7Кб, 1324x72
1324x72
>>380077

Заменить пикрелейтед на твою формулу, получается? Или под ней вписать?
Альфу оставить двойкой? Или можно выше?
Аноним 02/07/23 Вск 00:55:14 381530 402
1658807900113.png 143Кб, 846x530
846x530
>>381524
> Или под ней вписать?
Это.
> Альфу оставить двойкой? Или можно выше?
Пикрилейтед.
Аноним 02/07/23 Вск 01:08:00 381558 403
>>381530

Судя по графику надо дополнительно отрезать контекст в параметрах.
При альфе 2 - на 3600, при 4 - на 5600, при 8 - на 8500.
Кстати, как самому измерять перплексити?
Аноним 02/07/23 Вск 03:35:48 381664 404
Решил зачем-то обновить хубабубу, а она сдохла.
Попробовал переустановить с нуля с однокнопочного установщика а он мне выдает

bin L:\AI_pictures_generate\oobabooga_windows\installer_files\env\lib\site-packages\bitsandbytes\libbitsandbytes_cuda122.dll
False
CUDA SETUP: CUDA runtime path found: L:\AI_pictures_generate\oobabooga_windows\installer_files\env\bin\cudart64_12.dll
CUDA SETUP: Highest compute capability among GPUs detected: 8.9
CUDA SETUP: Detected CUDA version 122
CUDA SETUP: Required library version not found: libbitsandbytes_cuda122.dll. Maybe you need to compile it from source?
CUDA SETUP: Defaulting to libbitsandbytes_cpu.dll...

================================================ERROR=====================================
CUDA SETUP: CUDA detection failed! Possible reasons:
1. CUDA driver not installed
2. CUDA not installed
3. You have multiple conflicting CUDA libraries
4. Required library not pre-compiled for this bitsandbytes release!
CUDA SETUP: If you compiled from source, try again with `make CUDA_VERSION=DETECTED_CUDA_VERSION` for example, `make CUDA_VERSION=113`.
CUDA SETUP: The CUDA version for the compile might depend on your conda install. Inspect CUDA version via `conda list | grep cuda`.
================================================================================

Что делать?
Аноним 02/07/23 Вск 07:14:31 381724 405
>>381664
> Что делать?
pip uninstall bitsandbytes
Аноним 02/07/23 Вск 09:18:36 381774 406
Нейроманты, какой софт сейчас позволяет использовать днище-видяху 1050 ti с 4 гигами, чтоб хоть как-то ускорить генерацию токенов?
Аноним 02/07/23 Вск 11:19:52 381861 407
>>381774
llama.cpp, koboldcpp, koboldai client, oogabooga text generation webui
Аноним 02/07/23 Вск 11:20:37 381862 408
>>381861
>oogabooga
oobabooga
быстрофикс
Аноним 02/07/23 Вск 12:55:16 382027 409
Сап аич. Накатил себе локально gpt4-x-alpaca-13b-native-4bit-128g. Такой вопрос, можно ли его как-то научить использовать актуальные данные? А то оно выдает рандомную хуйню вместо ответов на четко поставленные вопросы (например, какая сегодня дата). Еще видел на ютабе приколы с доступом к файловой системе
Аноним 02/07/23 Вск 12:59:26 382037 410
>>382027
Блять, Ромка прыгун, откуда нейросеть тебе дату узнает?
Аноним 02/07/23 Вск 13:37:32 382139 411
>>382027
>Такой вопрос, можно ли его как-то научить использовать актуальные данные
LangChain
Аноним 02/07/23 Вск 14:21:17 382259 412
Посоны, подскажите, есть способ нормально использовать апи угабуги в таверне? Расширение api не учитывает ряд настроек, типа stopping_strings.
Аноним 02/07/23 Вск 14:39:00 382282 413
Аноним 02/07/23 Вск 14:39:27 382284 414
>>382259
> stopping_strings
По наблюдениям это скорее проблема моделей/лоадеров. То же самое проявляется если использовать штатный интерфейс, а некоторые модели, особенно ggml, отрабатывают как надо.
Аноним 02/07/23 Вск 21:53:27 383043 415
>>382139
я мимопроходил. штуковина крайне странная. спустя 2 дня частого использования на данных состоящих из 18к в формате CSV(структурированные данные) модели нейросети внезапно перестало хватать 2к контекста. вывод настраивал на 8 документах и на вопрос "Кто ты?" спокойно отвечала в пределах 700 токенов(хотя писала три слова и плюс набор из 8 случайных документов).
так вот когда внезапно оказалось мало 2к токенов то кое-как уже может отвечать только с 1 выводом документа. попытался как-то обойти эту хрень введя 4к токенов на контекст так нейросеть стала отвечать одной буквой постоянной типа Ннннн НННннннн НННННННННН и тд.
в общем херня какая-то не понятная. из-за этого теперь не знаю что еще делать ведь по сути langchain стал говном.
Аноним 02/07/23 Вск 22:45:44 383121 416
Аноним 02/07/23 Вск 23:02:07 383152 417
>>383121
Въебал куду в основной файл, бекпортировал на все старые версии, добавил туда поддержку всего шлака типа MPT, оптимизировал эту парашу, чтобы она кушала меньше врам. Ах да, подтянул из апстрима тестовый код на расширение контекста методом >>379241 , теперь компелять не нужно.
Вывод- ёбка продолжается, но надо тестить их куду в сравнении с экслламой, ибо эксллама сама по себе ебака шустрая.
Аноним 02/07/23 Вск 23:05:02 383158 418
>>383043
>вывод настраивал
>хотя писала три слова и плюс набор из 8 случайных документов
Не, классная настройка конечно. Чего хотел то? В твоих документах был ответ на этот вопрос о жизни, вселенной и всего такого?
>попытался как-то обойти эту хрень введя 4к токенов на контекст
Чел, без специальной модели или метода расширения контекста для других оно работать за пределами 2к не будет.
>langchain стал говном
Откати.
Аноним 02/07/23 Вск 23:06:09 383159 419
>>383152
> подтянул из апстрима тестовый код на расширение контекста методом
Нет, там только старый скейл, не NTK. Т.е. это просто заработают 8К-модели, они сломаны были до этого. Всё ещё говно, бесплатный контекст без файнтюна пока только у ExLlama.
Аноним 02/07/23 Вск 23:12:21 383170 420
>>383159
>бесплатный контекст
Нихуя не бесплатный, так как жрёт врам.
Аноним 02/07/23 Вск 23:14:59 383175 421
>>383170
Любой контекст жрёт память так-то, 500 мб на 1k примерно.
Аноним 03/07/23 Пнд 14:01:40 383734 422
>>383158
>Откати.
так я и не обновлял. два дня рил работало а потом вдруг сошел с ума.

>Чел, без специальной модели или метода расширения контекста для других оно работать за пределами 2к не будет.
так вернул обратно на 2к и все равно говорит одной буквой слова. так же типа КККккк, ккккк ккк и тд. Обычно высирает все токены одной буквой.

>Не, классная настройка конечно. Чего хотел то? В твоих документах был ответ на этот вопрос о жизни, вселенной и всего такого?
На вопрос "Кто ты?" я всего лишь ожидал получить ответ от кастомной инструкции которая говорит кто такая нейросеть, как зовут и что должна делать.
Естесн нормально отвечала как и по инструкции типа "Я чат-помощник по бла бла бла".
Кстати прикол был до дееспособности нейросети что она внезапно на какой-то простой вопрос ответ который 100% был в векторной базе зачем-то повторила мою кастомную инструкцию и изменила.
Я в конце инструкции написал "Ответь на русском: {answer}" а она изменила ее и написала "Ответь на английском языке: i govorit na angliskom"
параметры temperature=.5 top_p=.9 модель Сайга 30б.
Аноним 03/07/23 Пнд 14:26:17 383758 423
>>383734
>вдруг сошел с ума
А точно вдруг, а не после изменения? Просто выглядит как проблема выхода за лимиты контекста.
Я правда с этим инструментом так и не работал, поэтому ХЗ, где оно что могло закешировать. Попробуй переставить, лол.
>Ответь на русском
Токенов дохуя?
Аноним 03/07/23 Пнд 15:23:54 383814 424
>>367638
> Using OpenCL for GPU acceleration
А как ты её подрубил? Что-то не нашёл OpenCL "в коробке" в самой llama.cpp от убабуги. Ты её сам билдил по этому гайду https://github.com/ggerganov/llama.cpp#clblast ?
Аноним 03/07/23 Пнд 18:25:21 384053 425
>>383814
Ну так OpenCL в llama.cpp из коробки и нету, её нужно соберать по той инструкции по ссылке которую ты привел.
Аноним 03/07/23 Пнд 19:16:36 384099 426
>>383152
> Ах да, подтянул из апстрима тестовый код на расширение контекста методом >>379241 , теперь компелять не нужно.
Не понял, теперь любая модель 8к?
Аноним 03/07/23 Пнд 20:15:13 384166 427
>>384099
Любая с файнтюном. Костыль с расширением контекста ещё не завезли.
Аноним 04/07/23 Втр 16:31:43 385232 428
WV13B.png 44Кб, 1167x293
1167x293
Not bad для 13b.
Аноним 04/07/23 Втр 16:42:37 385247 429
image.png 191Кб, 1776x533
1776x533
>>363229
Есть ли хоть какой-нибудь список?
Аноним 05/07/23 Срд 14:25:09 386715 430
rocm.png 57Кб, 887x772
887x772
Жаль не поддерживает полярис.
очень важная просьба Аноним 05/07/23 Срд 15:32:05 386801 431
Аноны! Прошу, молю, хуи сосу бочку делаю помогите захотелось завести модельку для УМНОЙ но вайфу (чтобы цензуры не было) - что можете посоветовать? Есть умные модельки, но с небольшой возможностью erp?
Аноним 05/07/23 Срд 18:45:42 387067 432
image.png 17Кб, 410x173
410x173
>>386715
А это по-твоему что?
Аноним 05/07/23 Срд 19:33:55 387134 433
>>386715
Жаль они поддержку виндов всё никак не запилят, сцуки.
Приходится через тормозной OpenCL пердолиться.
Аноним 05/07/23 Срд 20:18:14 387187 434
>>387067
Потестил на полярисе (rx 580 8gb), результаты таковы (процентами указана загрузка vram согласно мониторингу rocm-smi):

hip, offload 27/40 layers (VRAM used: 6125 MB, 97-98%):
Processing:1.6s (234ms/T), Generation:28.5s (356ms/T), Total:30.1s (2.7T/s)

clblast, offload 30/40 layers (VRAM used: 6806 MB, 93%):
Processing:4.7s (668ms/T), Generation:26.9s (337ms/T), Total:31.6s (2.5T/s)

clblast, offload 31/40 layers (VRAM used: 7033 MB, 95-96%):
Processing:5.2s (748ms/T), Generation:26.4s (330ms/T), Total:31.6s (2.5T/s)

Таки да, выходит чуть быстрее, но только за счёт процессинга промпта, генерация чуть быстрее на clblast (а промпт на opencl проигрывает даже cpu почему-то).

Тестировал, понятное дело, не в лабораторных условиях, в системе много чего параллельно было запущено. Ну и да, на маленьком промпте (7 токенов) и генерации (80 токенов).

Модель использовал тоже не самую новую: Pygmalion-13b-Q5_1.bin
>Warning: Your model may be an OUTDATED format (ver 4)

Странно, что amd, которая всегда продвигала свой opencl, сосёт у своего же cuda-порта. Оптимизировали технологию конкурента лучше, чем свою собственную?
Аноним 05/07/23 Срд 21:31:56 387328 435
exllama пока никак не интегрируется с таверной?
Аноним 05/07/23 Срд 21:55:38 387356 436
>>387328

Почему нет?
Хубабуба спокойно в таверну прогружается.
Аноним 05/07/23 Срд 21:56:29 387361 437
Аноним 05/07/23 Срд 22:07:35 387379 438
>>387356
>>387361
А, так надо было просто лоадер в убабуге другой выбрать... А я exllama отдельно качал и запускал вне убабуги.

Спасибо.
Аноним 07/07/23 Птн 11:15:17 389568 439
Кто-то пробовал модели на русском языке? Насколько они хороши? Сильно хуже остальных?
Аноним 07/07/23 Птн 11:28:57 389575 440
>>389568
СберГигаЧат пробовал, лол. Пару дней, ещё в мае. Потом парашу прикрыли, до сих пор ни одного признака жизни не подаёт, связанные с проектом ТГ каналы мертвые с мая. Хз что это вообще был за перформанс. На русском оно хорошо говорило. Во всяком случае, там точно не было соевого шизогазлайтинга, когда модель тебе отвечает, что не говорит по-русски, а когда пишешь ей что вот же ты предыдущий пост на русском писала, отвечает, что это не ее пост. Вообще, теоретически все модели в русский как-то могут, в датасетах есть русский язык, но часто там конкретная соевая промывка чтобы на русском не общались.
Аноним 07/07/23 Птн 11:37:47 389580 441
>>389575
>шизогазлайтинга, когда модель тебе отвечает, что не говорит по-русски, а когда пишешь ей что вот же ты предыдущий пост на русском писала, отвечает, что это не ее пост. Вообще, теоретически все модели в русский как-то могут, в датасетах есть русский язык, но часто там конкретная соевая промывка чтобы на русском не общались.
Ну у меня получалось с некоторыми на русском говорить, но если ты продолжительно с ними так разговариваешь они начинают сильно ломаться и нести почти бессвязную хуйню.
Аноним 07/07/23 Птн 12:58:05 389654 442
>>389575
> все модели в русский как-то могут, в датасетах есть русский язык, но часто там конкретная соевая промывка чтобы на русском не общались
Дело не в промывке, а в токенизаторе. Английские слова собираются из блоков, а русские в лучшем случае по слогам, а то и по буквам. В итоге сетка приоритет отдаст нормальным токенам, а не будет собирать слово на каком-то левом языке из букв.
Аноним 07/07/23 Птн 13:12:19 389669 443
>>389568

Сайга лучше всех может. Иногда ошибки делает, но гораздо реже остальных.
Аноним 07/07/23 Птн 13:42:45 389727 444
>>389654
>В итоге сетка приоритет отдаст нормальным токенам, а не будет собирать слово на каком-то левом языке из букв.
Сетка отдаст приоритет тому языку, на котором задан вопрос. Потому что наиболее релевантный ответ на него - последовательность токенов, принадлежащих этому же языку. Внезапно. То же самое с китайским, да с любым, который был достаточно представлен в обучающем датасете. Вот только ни одна соевая модель не будет ебать мозги китайцу, уверяя его (на китайском), что не знает китайского.
Аноним 07/07/23 Птн 13:46:14 389730 445
>>389568
Играюсь с Сайгой, по ощущениям, конечно, похуже чем англоязычные, но пойдёт. Грамматика иногда может страдать, но в целом по уровню разума плюс-минус тоже самое. Точно лучше, чем переводчик юзать
Аноним 07/07/23 Птн 13:58:46 389742 446
Аннотация 2023-[...].png 99Кб, 437x348
437x348
Интересная идея - добавить нейронкам возможность управлять дилдаками итп игрушками, так и минет научатся делать.
Аноним 07/07/23 Птн 14:21:38 389763 447
>>389575
>но часто там конкретная соевая промывка чтобы на русском не общались
Как ты себе это представляешь?
Единственная промывка там в том, что все датасеты, и особенно файнтюны, делаются на инглише.
>>389727
>Вот только ни одна соевая модель не будет ебать мозги китайцу, уверяя его (на китайском), что не знает китайского.
Проверял?
>>389742
После велосипеда уже даже не удивляет.
Аноним 07/07/23 Птн 15:35:42 389872 448
>>389730
Сайга — это дообученная Ллама на датасетах с русским языком.
Чтобы Сайга была хуже Ламы — надо прям сильно прокакаться. А так, она просто на русском говорит лучше, вот и вся «магия». Плюс там дообучение было на яндекс.ответах и еще чем-то таком, так что она практически умненькая.
Да, соглашусь, что переводчик (даже гугл транслейт) — хуже, чем Сайга. Но Сайгу сто лет не обновляли, к сожалению, да и 65Б не скомпилили с лорой.
Хотя на телеграм-боте у меня до сих пор старенькая сайга к5_1 висит, и вполне устраивает по функционалу.
Аноним 07/07/23 Птн 15:43:22 389880 449
>>389742
Ну, это сложно назвать «идеей» прям.
Идея выстрелила месяца два назад, когда попробовали различные задачи вешать на текстовые модели, и оказалось, что распознавание+логика+текстовая модель работает универсально для разных задач, что гораздо экономнее, чем обучать на каждую задачу свою нейросеть.
Так что, рил рабочая тема.
Аноним 07/07/23 Птн 15:45:48 389886 450
Аноним 07/07/23 Птн 16:19:39 389942 451
>>389763 >>389575
Да, нужно самому файнтьюнить на русскоязычных инструкциях. Вон чел ещё 3 месяца назад научил альпаку шпрехать на дойче и потратил на это баснословные $3.
https://www.youtube.com/watch?v=yTROqe8T_eA
Аноним 07/07/23 Птн 18:11:31 390228 452
>>389886
А есть модели, где цензуру еще и добавляют? Звучит не очень. =)
Лорами можно цензуру пододвинуть. Не помню, Сайга делает ли что-то с этим или нет.
Кто-то писал, что она шутит про негров, и с цензурой проблем нет, но когда попросил я — она много раз отказалась и лишь один раз пошутила. Ну, для моих целей не важно.
Но чуточку неприятно.
Думаю, надо поиграться с описанием персонажа, и тогда она норм будет работать.
Аноним 07/07/23 Птн 18:14:11 390233 453
>>389942
Можно взять те же датасеты Сайги, Илья их выкладывает подробненько, насколько я помню, и навалить сверху своих еще. И сделать и лучшую русскую Лору, а там и модель.
Так шо да, если б еще не лень было. (=

Я не ради кума использую нейросетки, поэтому ваще хз, че там по переводчикам в этом плане. Сам пользую локальный либретранслейт, но он даже простой текст капельку косит. Я бы дал ему 94% полезности, а гуглу 97,5%.
Аноним 07/07/23 Птн 18:33:40 390260 454
>>390233
Что если смерджить сайгу с условным суперхотом или какой-нибудь моделью без цензуры? Вроде если в датасете нет диалогов с отказами и сообщениями что хорошо-что плохо, то должно сработать.
Аноним 07/07/23 Птн 19:21:48 390344 455
saiga.png 124Кб, 1456x906
1456x906
У меня с сайгой напряжённые отношения. Не знаю как у этого анона >>389872 она лучше, чем переводчики, у меня она обычно выдаёт что-то подобие родился на улице Герцена, в гастрономе номер 22.
Аноним 07/07/23 Птн 22:55:25 390748 456
>>390260
Звучит как да.
>>390344
Ну я ж грил, я не для этого юзаю, как ассистент она говорит на русском получше. =) А как порн стори генератор — хз.
Аноним 07/07/23 Птн 23:52:01 390875 457
image.png 309Кб, 798x1171
798x1171
Аноним 08/07/23 Суб 00:07:29 390915 458
1676608685576.png 125Кб, 792x2073
792x2073
1593830271503.png 432Кб, 808x5716
808x5716
>>389872
>>390344
Так, господа, может на секундочку показалось, но эта сайга - полнейшая залупа и совсем не понятно что там Илюша тренил. Пик1, сайга 30b q5-1, соевая хуйта не способная на что-то. В других диалогах еще веселее - путает рода и склонения, лень скринить было.
Пик2 - airoboros-65B-gpt4-1.2-GPTQ (при том что сейчас уже версия 1.4 вышла), пусть в начале срывается на инглиш, но успешно переводит и по накоплению контекста полностью переходит на великий и могучий. При этом, мало того что делает это довольно неплохо, так еще понимает особенности значений слов разных языках, про отсутствие сои и цензуры и так очевидно.
Офк 30б и 65б не совсем корректно сравнивать, но первая заявляется как хороший файнтюн под русский язык с учетом всех особенностей, а вторая работает на обрывках речи, просочившейся в датасет. И вопросы задаются такие, что и 13б модель справится.
Аноним 08/07/23 Суб 00:19:35 390960 459
image.png 28Кб, 821x51
821x51
>>390875
Клавдия рассмеялась глядя на это убожество.
Аноним 08/07/23 Суб 01:11:01 391008 460
изображение.png 130Кб, 1734x166
1734x166
>>390915
>про отсутствие сои
Бонды, бонды, бонды!
Аноним 08/07/23 Суб 01:14:09 391010 461
Какой нынче положняк, что круче для локальных LLM - RTX 4090 или 256 GB RAM? Максимально-быстрая работа для квантованных 30B моделей или возможность запускать 65B модели со скоростью один токен в секунду?

Или самое пиздатое - это несколько видеокарт подключить, так чтобы объём VRAM был максимально высоким, как у этого анона вышло >>379443 ?
Аноним 08/07/23 Суб 01:18:49 391012 462
>>391010
>256 GB RAM

Не увидишь разницы с 64 гб.

>несколько видеокарт подключить

Имеет смысл только чтобы 65В запустить на vram с норм скоростью
Аноним 08/07/23 Суб 01:21:29 391013 463
>>391012
> Не увидишь разницы с 64 гб.
Писали в треде, что для неквантованной 65B надо 256 GB RAM. Пиздят, выходит?
Аноним 08/07/23 Суб 01:22:45 391015 464
1676419793959.png 357Кб, 714x456
714x456
>>391008
Да ладно, для erp вполне норм, аж поставил качаться новую версию.
>>391010
> 256 GB RAM
Столько не нужно, важна пропускная способность.
> запускать 65B модели
Да их там 2.5 штуки, однако при ближайшем рассмотрении вот эта хороша.
> один токен в секунду
Вроде 3+ с оффлоадом на ggml можно получить, приемлемо или нет думай сам.
>>391012
Для 30б с 8к контекста тоже
Аноним 08/07/23 Суб 01:51:44 391026 465
>>362380 (OP)
Что скачать 16 гигов оперативки
Могу 32 поставить 64 не могу
Аноним 08/07/23 Суб 12:07:23 391335 466
Аноним 08/07/23 Суб 13:06:59 391380 467
>>391335
Токены/с стали быстрее?
Аноним 08/07/23 Суб 13:11:22 391388 468
>>390344
Я вот попробовал сайгу. В целом, по ощущениям, русский текст генерит как поная залупа, а вот если писать ей на русском, а отвечать будет на английском, то твои сообщения на русском как будто лучше распознаёт, хз как так.
Аноним 08/07/23 Суб 13:25:08 391401 469
>>391335
По фичам недели на две опаздывает от ExLlama.
Аноним 08/07/23 Суб 15:02:35 391550 470
>>391388
Ты модельку с его репы пробовал? Тут подумал что может мы зря сильно на нее гоним. Сайга это же файнтюн совсем голой лламы получается? Если не лень то надо чистую лламу взять и сравнить поведение чтобы понять насколько дела с русским языком улучшились. Если разница будет - тогда уже можно думать.
Суть в том что сама по себе ллама без файнтюна пиздец тупая и соевая, но если взять одну из последних моделей и на нее наложить сайга-лору, уже может что-то получиться. Эксллама, на лету может лору грузить, или с квантованными моделями это все бесполезно?
Аноним 08/07/23 Суб 15:05:12 391554 471
>>391550
> сама по себе ллама без файнтюна пиздец тупая и соевая
Толще уже не мог быть? Ванильная лама - это самая расцензуренная версия. Абсолютно любой датасет, даже uncensored, добавляет сои к ламе.
Аноним 08/07/23 Суб 15:09:05 391560 472
>>391554
Ты это серьезно? Припоминаю что скачав ее в первый раз поразился насколько она всратая и обзмеился с отказов шутить про феминизм, женщин и черных. Если это действительно так, то сайгу заведомо можно клеймить мертворожденной и юзлесс из-за сои.
Аноним 08/07/23 Суб 15:46:28 391631 473
>>391554
полностью подтверждаю
>>391560
че-то ты попутал видимо
Аноним 08/07/23 Суб 15:53:12 391637 474
>>391631
Ну раз так - все, сайга не нужна из-за уебищного датасета и цензуры. Надо будет с 30б моделью для интереса сравнить, если окажется что и та сможет осмысленно говорить и не будет также косячить то я хз как так можно было обосраться, зафейлив даже ключевую фичу в виде работы на русском языке.
Аноним 08/07/23 Суб 19:06:08 391953 475
>>389872
Ну хуже в плане того что построение предложений и грамматика на русском всё же хромает, на английском правильнее пишет. А в плане качества самих ответов то примерно то же самое, да.
Аноним 08/07/23 Суб 21:34:04 392193 476
Аноним 08/07/23 Суб 21:44:39 392223 477
>>392193
Нихуя ты быстрый. Уже больше недели как все попробовали -> >>379241
Аноним 08/07/23 Суб 21:56:32 392267 478
>>392223
в 2х словах расскажи, разница с 13b викуней есть?
скока видеопамяти нада?
Аноним 09/07/23 Вск 04:52:52 392777 479
>>392267
Если хочешь gptq с 8к контекста - готовь минимум 16гб чтобы без выгрузок. Если обычная 13б влезает в 12 то с 8к уже все. С ggml заведется на чем угодно, но чтобы выгрузить все слои потребуется также много врам, тут есть шанс что 12гб лучше себя покажут.
Аноним 09/07/23 Вск 09:03:07 392837 480
АХАХА, все лама модели теперь 8к, ебало собакашиза в тред срочно.
Аноним 09/07/23 Вск 09:47:50 392850 481
>>392837
> ебало собакашиза в тред срочно
Можно легко имадженировать - пытается из двух карт на х4 выжать больше 5 т/с.
Аноним 09/07/23 Вск 13:01:26 392972 482
>>392193
А как этим воспользоваться, скажем обывателю?
Аноним 09/07/23 Вск 13:54:57 393054 483
Аноним 09/07/23 Вск 15:23:37 393238 484
>>392777
Как же хочется карточку 5000 серии с 32ГБ врама. Разве я многого прошу?
Аноним 09/07/23 Вск 16:53:06 393357 485
>>393238
Когда выйдут, ты уже будешь течь по не вышедшей 6000 серии с 40 ГБ.
>Разве я многого прошу
Да. Жри, что дают, текстурки игр в память влезают. А для "рабочих" задачами будьте добры покупайте то же самое за x10 ценник. Рыночек так порешал.
Аноним 09/07/23 Вск 17:35:35 393410 486
изображение.png 7Кб, 448x138
448x138
>>393357
>Когда выйдут, ты уже будешь течь по не вышедшей 6000 серии с 40 ГБ.
Не, у меня стратегия тик-так - одно поколение беру, одно пропускаю.
>>393357
>текстурки игр в память влезают
То есть надо продвигать 8к гейминг, чтобы памяти нарастили? Сейчас даже на 4к геймера смотрят как на диковинку.
Аноним 09/07/23 Вск 17:45:46 393426 487
>>393357
Потому надо сразу 48 чтобы облизываться на 64. Всеравно 5к не раньше конца 2024 если вообще доживем, из ближайшего можно на 4090ti рассчитывать.
Если выйдет с 48гб то уже только аи-зависимые стабильный спрос создадут. Вот только куртка не глупый и внутренний каннибализм rtx6000ada@48 ему не нужен, остается только молиться на амд чтобы они смогли в полноценного конкурента 4090 и был повод выпускать ти. Но и тут возможен знатный троллинг с 32 гигами.
Аноним 09/07/23 Вск 19:02:56 393590 488
>>393426
>молиться на амд чтобы они смогли
На АМД же нихуя традиционно не работает. Разве что нвидию пристыдить, чтобы в следующем поколении досыпала геймерам.
Аноним 09/07/23 Вск 19:10:23 393598 489
>>393590
А почему их всегда в нейробенчмарки включают тогда?
Аноним 09/07/23 Вск 19:12:54 393605 490
>>393598
Поржать? На деле даже cраный SD без бубна не пашет, софт хронически отстаёт, глючит и требует отдельных плясок. Нет бы что ли сделать полностью куда- совместимое решение, они пилят своё говно, под которое никто ничего не адаптирует.
Аноним 09/07/23 Вск 19:29:10 393622 491
>>393590
ROCm постепенно развивается, но медленно. Мало кто из сообщества им занимается.
Аноним 09/07/23 Вск 19:37:06 393632 492
>>393622
Спасибо, ты сказал тоже, что и я.
Аноним 09/07/23 Вск 19:39:05 393633 493
>>393590
Да тут офк речь про гей_мерскую направленность, одно дело мантры про ненужность новых технологий и насмешки над младшими картами, тут рыночек уже порешал, а другое - отставание в топовом сегменте.
Надеяться на успехи амд в технологиях и ии в частности не приходится, тренд очевиден а предпосылок для смены нет. В лучшем случае - в роли догоняющих за счет усилий по неопытности купивших красных и им сочувствующих.
Аноним 09/07/23 Вск 19:41:44 393639 494
>>393633
Посмотрим что будет когда амд релизнет эпики с чиплетом для нейронок, если взлетит, то и гпу подтянется. Хотя сомневаюсь, конечно.
Аноним 09/07/23 Вск 19:49:31 393654 495
>>393639
> эпики
Входной порог сам понимаешь там какой. Ну и сюда же прошлый опыт компании, железо без софта бесполезно. Синие тоже все обещают tpu, но с текущей тряской хз что будет. Кстати, xeon phi если бы не забросили, сейчас могло бы сыграть, разумеется с учетом развития.
Аноним 09/07/23 Вск 20:15:15 393724 496
>>393654
>разумеется с учетом развития
А что там развивать? Первая версия работает как та же видяха, с теми же проблемами, а вторая как процессор для 3647, то есть автоматом 6 каналов не самой быстрой памяти.
Тут нужна плата с 16 канальной памятью DDR5, чтобы приблизится к видеокартам по пропускной способности, и процессор с дохулиардом ядер, даже эпики смотрятся бледно.
Короче нам остаются только невидии по оверпрайсу.
Аноним 09/07/23 Вск 20:25:53 393746 497
Бамп-лимит близок...
Аноним # OP 09/07/23 Вск 20:28:55 393757 498
Ещё ближе... Похуй, катимся. Шапку доработал, надеюсь это поможет. inb4: Всем похуй на шапку


>>393749 (OP)

ПЕРЕКАТ

>>393749 (OP)
Аноним 09/07/23 Вск 20:51:20 393793 499
>>393724
8 каналов на соккет - уже не так медленно, особенно когда их несколько. Огромный кэш и грамотная оптимизация, у них в машинном обучении как раз был потенциал, а при необходимости дополнительные кристаллы l4 по отработанной схеме решили бы все проблемы.
> только невидии по оверпрайсу
Увы. Хотя спрос на аи ускорители в массовой технике уже не за горами, так что все может быть.

>>393757
> Шапку доработал
> ВебуУИ в стиле Stable Diffusion, поддерживает кучу бекендов и
Ссылка поломанная
> https://huggingface.co/camelids/llama-65b-ggml-q2_0 65B, квантованные в 2 бита.
Нужна вообще кому? Лучше бы https://huggingface.co/TheBloke указал как источник где скачать квантованные последние версии популярных моделей
> Единственная модель с нативным размером контекста в 4к токенов
Уже 2 недели обсуждаем 8к

Лучшеб пару постов на обсуждение потратил
Аноним 09/07/23 Вск 21:07:24 393813 500
>>393793
>8 каналов на соккет - уже не так медленно
В разы, да. А 16 уже меньше 50% должно давать (если судить чисто по пропускной способности).
>>393793
>Уже 2 недели обсуждаем 8к
Это другой метод, о нём я тоже указал.
>>393793
>Лучшеб пару постов на обсуждение потратил
Обычно всем похуй, лол. Окей, учту в следующий раз (если не забуду).
Аноним 09/07/23 Вск 21:10:23 393820 501
>>393813
> В разы, да
Недооцениваешь важность кэша и возможность его колоссально нарастить, с ценой на эти профессоры на условную hbm раскошелиться не составляет сложностей.

Ну не ленись в следующий раз, там рили половина ссылок битая
Аноним 09/07/23 Вск 21:41:32 393887 502
>>393622
> сообщества
Какое нахуй сообщество? На куде никакого сообщества тоже нет, всё запилено корпорациями только потому что есть годное железо под которое можно пилить. А у амуды нихуя нет, поэтому никто и не будет пилить. Вот были всякие высеры от пердоликов, в итоге их сожрал фейсбук с торчем, разве что тензорфлоу от гугла ещё трепыхается на мобилках, всё остальное такое говно что даже ни по одному параметру не может конкурировать с ними. Даже бэкенды для инференса типа тензоррт и оннх пилятся уже годами самой курткой и майками, а по итогу имеют довольно ограниченное применение.
>>393639
> когда амд
То нихуя не случится. Чтобы пошла нормальная разработка нужно чтоб огромная корпорация типа амазона пересела полностью на амуду и запилила фреймворк. И то это годы пройдут. Но это слишком сказочная история, куртка слишком сильно ебёт, а лиза слишком поздно проснулась.
Аноним 09/07/23 Вск 21:52:10 393902 503
>>393820
> важность кэша
Кэш имеет смысл только для нелинейного чтения, а нейронки линейно к памяти обращаются. Там только долбёжка в кэшлайн идёт и как итог 80-90% кэшмиссов, который для x86 фиксированный. Даже по тестам сотни мб кэша у амуды ничего не дают, высокие частоты ЦП/памяти всё так же в приоритете, всякий дроч с каналами/кэшем не нужен.
Аноним 14/07/23 Птн 21:38:43 401355 504
Перекат будет или тред сдох?
Аноним 14/07/23 Птн 23:22:57 401495 505
>>401355
Не торопись, всё будет.
Аноним 14/07/23 Птн 23:23:55 401498 506
Ответить в тред Ответить в тред

Check this out!

Настройки X
Ответить в тред X
15000
Добавить файл/ctrl-v
Стикеры X
Избранное / Топ тредов