В этом треде обсуждаем семейство моделей от фейсбука под названием LLaMA, делимся рецептами запуска, настроек и годных промтов, и бугуртим с кривейшего тормозного говна, что сейчас наспех выпустили, а отладить забыли. Тред для обладателей топовых карт NVidia с кучей VRAM или мажоров с проф картами уровня A100, или любителей подождать, если есть оперативная память. Особо терпеливые могут использовать даже подкачку и запускать модели, квантованные до 5 4 3 2-х бит, на кофеварке с подкачкой на микроволновку.
LLaMA это генеративные текстовые модели размерами от 7B до 65B, притом младшие версии моделей превосходят во многих тестах обходит GTP3, в которой 175B параметров (по утверждению самого фейсбука). От неё быстро ответвилась Alpaca, Vicuna и прочая живность из Южной Америки, те же модели, но с файнтюном под выполнение инструкций в стиле ChatGPT, американские студенты рады, в треде же пишут про мусор с тегами в выводе, что запускать, решать вам.
Сейчас существует несколько версий весов, не совместимых между собой, смотри не перепутай! 0) Оригинальные .pth файлы, работают только с оригинальным репозиторием. Формат имени consolidated.00.pth 1) Веса, сконвертированные в формат Hugging Face. Формат имени pytorch_model-00001-of-00033.bin 2) Веса, квантизированные в ggml. Работают со сборками на процессорах. Имеют несколько подформатов, совместимость поддерживает только koboldcpp, Герганов меняет форматы каждый месяц и дропает поддержку предыдущих, так что лучше качать последние. Формат имени ggml-model-q4_0.bin. Суффикс q4_0 означает квантование, в данном случае в 4 бита, версия 0. Чем больше число бит, тем выше точность и расход памяти. Чем новее версия, тем лучше (не всегда). 3) Веса, квантизированные в GPTQ. Работают на видеокарте и с оффлоадом на процессор в вебуи. Новые модели имеют имя типа llama-7b-4bit.safetensors (более безопасные файлы, содержат только веса), старые llama-7b-4bit.pt
В комплекте с хуитками для запуска обычно есть скрипты конвертации из оригинальных файлов или из формата Hugging Face. Для некоторых типов весов нужны дополнительные файлы типа params.json, короче качаем всё что видим, авось пригодится. Оригинальную llama.cpp сейчас трясёт, и веса придётся конвертировать ещё раз.
Гайд для ретардов без излишней ебли под Windows. Грузит всё в процессор, поэтому ёба карта не нужна, запаситесь оперативкой и подкачкой: 1. Скачиваем koboldcpp.exe https://github.com/LostRuins/koboldcpp/releases/ последней версии. 2. Скачиваем модель в ggml формате. Например вот эту https://huggingface.co/Pi3141/alpaca-lora-30B-ggml/tree/main Можно просто вбить в huggingace в поиске "ggml" и скачать любую, охуеть, да? Главное, скачай файл с расширением .bin, а не какой-нибудь .pt 3. Запускаем koboldcpp.exe и выбираем скачанную модель. 4. Заходим в браузере на http://localhost:5001/ 5. Все, общаемся с ИИ, читаем охуительные истории или отправляемся в Adventure.
Да, просто запускаем, выбираем файл и открываем адрес в браузере, даже ваша бабка разберется!
Факультатив: https://rentry.org/Jarted Почитать, как трансгендеры пидарасы пытаются пиздить код белых господинов, но обсираются и получают заслуженную порцию мочи
Анон, поясни. Есть один компьютер на работе с 16гб оперативки и затычкой вместо видюхи. Еще есть некоторое количество свободного времени и желания подергать текстовые модельки (а не свой анус). Получится ли у меня что-то, и если получится, то какую модельку стоит подергать, если меня не то чтобы очень интересует ролеплей, прон и гуро, а больше интересует возможность модельки не забывать после трех шагов диалога о чем шла речь и вообще связность диалога?
Я тут ржача ради потыкал 2-битные модели, Блок наквантовал. Это угарно, они даже не такие тупые, как я думал (хотя 7B тупые все же), но быстрые ппц. --threads 6 дарит 9 токенов на 7B и 4-5 токенов на 13B (один раз на 8 т/сек фартануло). При этом весят от 3 гигов (5,5 развернутая) до 6 (9 развернутая). Думаю (но не проверял), что даже в 8 гигов озу можно впихнуть 13B, и сидеть относительно быстро.
>>363068 А большие модели там есть? Интересно сравнить какую-нибудь 65б зарезанную с полноценной или легко квантованной 7-13б. >>363054 > airoboros-13b-gpt4-GGML К ней кстати заявлялась работа на 4к контексте, но по факту более 2.5к уже начинает шизу. Алсо семейство этих моделей использует кто? Интересен рецепт хороших длинных реплик для рп.
Тем временем Гусев Сайгу лору на 65 сделал https://huggingface.co/IlyaGusev/saiga_65b_lora теперь бы ещё с моделью объединил, но что-то не спешит, наверное нужно попросить. Жаль Блок Сайгу не квантует.
>>363129 Я Гусева тогда попросил 65B сделать, он сказал «хорошая идея». Думаю, он и ее квантанет, просто, мб, нужно время? Еще пару дней подождать. А там уж можно начать ломиться в дискашн к лоре.
>>363492 > 2 бита Мало смысла в них. Скорость такая же как у q3, зато скор падает прилично, а экономия памяти хуйня. q3 с оффлоадом - самое нормальное.
>>363522 Да сам-то я на 5_1 или 6_K сижу. =) Но табличка хороша, спс, еще тройку тоже погоняю.
Мне интересно теперь запустить это на старом ноуте с 8 гигами озу. Там еще 920M видяха, вроде дно, но вдруг получится офлоднуть на нее часть. Закинуть его на антресоль и пусть радует быстрыми перлами. ЗЫ 1 слот, анон, 16 не впихну.
>>363054 Попробую последнюю, спасибо. Пока что скачал какую-то модельку на 7B и засунул ее в кобольд.ццп. Ощущаю что толи нифига не понял, толи нифига не понял.
>>362380 (OP) Я ньюфаг, разбираюсь в теме второй вечер. Даже хз, в этот ли тред постить
Поставил себе модельку через koboldcpp и подключился к ней в SillyTavern. Проблема была в том, что персонажи писали действия за меня, я погуглил и сделал как тут написано https://rentry.org/better-llama-roleplay Просто захардкодил предложенный system note в скрипты таверны
РП стало лучше, но теперь бывает бот (Персонажей брал с chub если это важно) выдает сообщение типа нормальный ответ в персонаже пустая строка System note: blah blah blah Вроде фиксится уменьшением токенов на ответ и регенерацией сообщения
Еще бывает ответ вида имя персонажа: текст, хотя предыдущие сообщения были нормально форматированы
Пытаюсь понять куда копать :( Обнаружил в таверне в Advanced formatting Instruct mode и под ним поле для system prompt, может туда нужно было вставлять инструкции для нейросетки?
>>363879 > System note: blah blah blah Похоже на взорванную модель, какую используешь? Замени на другую, покрути настройки. Если все остальное нравится а это никак не побеждается - смирись и редактируй или регенерейт, лол. > писали действия за меня В настройках таверны есть фраза отсечки, по умолчанию там как раз you: Также это передается в бек энд для остановки вовремя, но работает нормально не всегда.
>>363889 Модель использовал airoboros-13b-gpt4.ggmlv3.q4_0
А вот насчет фраз еще - бот генерит законченные сообщения в пределах токенов для ответа, но иногда доходит до максимума и получается ответ с незаконченным предложением. Это возможно пофиксить?
>>365038 За 20 лет тупа насрали макулатурой больше чем за всю остальную историю человечества. Это как с играми, которых выходит в год больше чем всего вышло игр на нинтендо.
>>365203 Распиши как ставил убабугу. С ванклик инсталлерами подобной производительности не добиться, оно по дефолту использует старую куду и все сопутствующее, 1.65 ллама на ней вообще не собирается а 1.64 костыльно. Если версии в скрипте поднять то оно подсасывает, сборка компонентов работает, но если посмотреть в логах - оно всеравно тащит старые версии для многих компонентов и устраивает анальный цирк с откатом на старые версии пакетов для компиляции некоторых. Тем не менее корень проблемы очевиден и даже так производительность бустится значительно, но не достигает значений что у тебя, тдп поднимается со сотни до 200-300вт. Нужно ставить нормально со всеми последними версиями, была бы еще нормальная инструкция. Хотя уже 13b q5 ~30 т/с довольно неплохо, ggml моделька полностью на видеокарте крутится выходит.
Обнаружены две охуенные ggml модели : https://huggingface.co/TheBloke/guanaco-7B-GGML https://huggingface.co/TheBloke/guanaco-13B-GGML Обе хороши и отлично следуют формату W++ если вы любите текстовые потрахушки. Но есть обязательное условие, из "Examples of dialogue" уберите все <START> затычки, ибо они юзаются только в pygmalion моделях, и портят прикол для всех остальных llama-подобных моделей. работает отлично с дефолт пресетом (на пике) :
Короче, че-т у меня фигня. На 3060 ноутбучной 7B-моделька выдает 25 токенов в секунду. На 4070 ti десктопной 7B-моделька выдает 18 токенов в секунду, 13B —15 токенов в секунду. Чзнх. 3060 грузится на 65%-70%, десктопная на 35%-40%. На ноуте винда 11, на компе —10. Может в этом дело? Хотя на десктопе 0.1.65 с force_cmake=1 собираться отказалась нафиг, копировал собранные dll-ки с ноута, может дело в этом, непонятная фигня. Может кто что подскажет? Build Tools 22 одинаковый, ван-клик с нуля, дрова одинаковые, последние, что не так-то йопта…
>>365503 Это ж фалькон, он такое всегда выдает, но я не ебу почему. Какая-то переоцененная хуйня, побеждает в тестах старые 30B-модели, нормальные просто отсутствуют в топе, как бы и лесом пусть идет, мне лень разбираться с таким маркетингом с их стороны. =)
>>365419 Я просто вчера обновил llama-cpp-python с перекомпиляцией и стало быстрее. Но похоже 7В уже боттлнечит что-то, только на 13В и 30В стало быстрее в два раза. 13В выдаёт 40 т/с. На 65В всё так же около 3 т/с. >>365678 4090 >>365503 У Фалкона другая архитектура, это не лама. Надо форк использовать, на основной ветке пока нет поддержки.
>>365747 У меня чето вроде начало получаться, но вообще я хочу какой-то гайд или источник того, какие параметры за что отвечают, как промпт сформулировать, контекст дать там, и что-то еще чего я вообще не знаю что оно мне нужно. Есть такой классный гайд или страничка с гайдами или что?
На русском моделек ещё не завезли? Думал для родителей приколюху сделать, но на инглише оно им точно не упёрлось. Вариант с переводом думаю лютую шизу будет гонять.
>>365679 Ты же вроде понимаешь о чем речь и что этот этап и так пройден, если нет то перечитай пост. >>365747 Оно по дефолту с окружением что ванкликом подсасывается последнюю версию лламы с кудой не ставит в принципе, а для сборки 0.1.64 необходимо доп флаги куды указывать чтобы не было ошибки, на гите лама-питона есть несколько топиков. С кудой 118 уже все работает нормально и быстрее, но 3т/с на 65б также не хочет. Ладно раз у тебя ванклик и 4090 то буду еще раскуривать что не так.
>>365769 Выкинь кобольд или жди пока обновят, он не очень свежий. >>365886 > ванкликом Не, у меня просто git clone и pip install -r requirements.txt. llama.cpp ставил тремя командами из справки убабуги, обновлял удалением и установкой без кэша.
>>366435 Ох, слушай, точно ведь, помню в этом треде на неё натыкался, спасибо что напомнил. >>366438 Если видеокарта древняя нвидия или новая амд, то не сработает, так как обязательно CUDA ядра нужны?
>>365967 Да не, есть живые обсуждения, васяны пытаются лорой зафантюнить на больший контекст, но пока хороших результатов более 2.5к не заявлено. Выдвигаются утверждения о том что самой модели то в целом без разницы сколько обрабатывать, а причина плохой работы с большим контекстом - обучение базовой модели и нормальным файнтюном это можно починить. Хз насколько соотносится с реальностью, у блумун же токенайзер еще другой, не? Вообще, луну кто-то на эти самые 4к контекста тестировал полноценно?
>>366588 >говномодель на 65к контекста выпустили Хоть кто-то получил от неё связные результаты свыше 2к токенов? >>366602 Там надо патчить и компелять, ждём пердолей, скоро небось параметр добавят.
>>366630 > Там надо патчить и компелять, ждём пердолей, скоро небось параметр добавят. Ясно, ждём. Ух бля, прорыв. Ещё бы не 13Б юзлес говно. Кто-нибудь тестил кстати как суперкот в рп? А то я по сути только для рп юзаю
>>367207 Так фишка таких моделей не понимание структурированного текста, а выявление закономерностей в любом тексте Именно поэтому они и взлетели: им можно скармливать источники информации любого качества, они сами их усреднят и извлекут закономерности Они не понимают текст и смысл, они лишь знают какая буква наиболее вероятна в этой строке следующей То есть это не ИИ, никакого интеллекта там нет, это просто некий нечеткий поисковик с сильно пожатой базой, из-за чего он и способен врать: в любой строке вероятна следующая не одна буква, а сразу много, и вероятности довольно близкие, легко выбрать не ту букву И именно из-за того что на вероятность каждой буквы влияет вся предыдущая строка, возможно эти модели профилировать с помощью промтов: промт задает контекст, от которого и начинается поиск следующих букв Такая вот хуйня. Но результат вызывает вау-эффект конечно, причем настолько, что некоторые топы всерьез рассматривают возможность поручить этим моделькам какие-то серьезные вопросы, что смешно
>>367207 Охтыж, таки запилили тренировку с нуля. Интересно, сколько по времени. >>367270 Вербальные операнты у человека - распределение вероятностей над последовательностями морфем. Языковые модели а-ля лама - распределение вероятностей над последовательностями токенов. Вся разница в том, что у трансформеров нет возможности менять веса в реальном времени, только в процессе претрейна и файнтюнинга.
Есть архив Либрусека, но там плюс-минус то же самое. Сам я пользуюсь им, кстати. И есть Library Genenis - самый монструозный архив с 4 млн книг весом 32 тб - такой вес из-за того что библиотека в pdf формате. Есть текстовая версия, она весит всего 500 гб, но технические и научные книги скорее всего будут нечитаемы.
>>367615 >альтернативой смены весов является контекст, Не является. Сравнение языковых моделей на основе трансформеров с функциональной организацией языка у человека можно считать корректным, так как хотя морфемы и токены это не одно и то же, но они и не насколько радикально отличаются, чтобы одно нельзя было представить в виде второго. Собственно, поэтому трансформеры и нормально моделируют языковое поведение человека. Контекст же не меняет оригинальные веса модели, тогда как нормальное вербальное поведение человека меняет связи в ЦНС. Поэтому здесь разница очень серьезная, хотя результаты в краткосроке и выглядят одинаково. Контекст не оказывает глобального влияния на трансформер, поэтому его вербальное поведение можно сравнить скорее с тем, что на оп пике, чем с таковым нормального человека.
>>367749 То есть — является. Я сразу и сказал про краткосрок. Тейк был в том, что в рамках одно диалога мы получаем схожий результат. Извиняюсь, если не очевидно уточнил.
эксперементирую с bluemoonrp 30b 4k на таверне через koboldcpp, и такая проблема, ближе к 4к контекста сетка становится тупой и начинает отвечать однотипно и не особо опираясь на мои фразы. Как такое лечить? И вторая проблема, опять же при достижении 4к, кобольд каждый раз начинает все 4к токенов "пересчитывать", с этим что-то можносделать?
>>368722 >ближе к 4к контекста сетка становится тупой и начинает отвечать однотипно и не особо опираясь на мои фразы. Залочь контекст на 3-3.5к, там между этими значениями она ебу дает. Возможно это лечится настройками температуры и семплов, но там надо в ручную подбирать, а у меня лапки.
>опять же при достижении 4к, кобольд каждый раз начинает все 4к токенов "пересчитывать", с этим что-то можносделать? --smartcontext будет пересчитывать не каждый раз и не все 4к.
>>368722 > сетка становится тупой и начинает отвечать однотипно и не особо опираясь на мои фразы Блумун сама по себе специфична и может так делать с малым контекстом. Или все таки речь о значительной разнице а заметной деградации?
Как вообще koboldcpp правильно запускать? Я евроде скачал и скомпилил как у них на странице в гите написано, а при запуске пишет Warning: OpenBLAS library file not found. Non-BLAS library will be used. При этом оперативку он у меня вообще не использует как будто. Зато мой ССДшник гоняет только в путь. Чзх? Проц он занимает, оперативку типа выделяет, а по факту нихуя оперативку не использует.
>>369021 Если буквально про пару секунд - тебе ответили, ~7 секунд для 13б сетей, 30б ~15. Офк это относительно длинный пост в рп, односложные-короткие на любой сети с ускорением на gpu будут оче быстро.
>>368795 спасибо, попробую смарт контекст. а какие при его использование минусы?
>>368812 да, конечно бывает что невпопад отвечает. Но вот именно в те моменты когда дошел до 4к, и кобольд начинает все 4к токенов пересчитывать, тогда начинается заметная деградация. такое чувство что промпт кобольдом обрезается в начале, чтобы в 4к влезать, а в начале как раз основные инструкции
>>369187 >а какие при его использование минусы? Никаких. >>369187 >такое чувство что промпт кобольдом обрезается в начале Оно не так работает. Посмотри в консоли что приходит, то и обрабатывается. А то что 4к полноценно не работают это да, давно известно. Идеально вообще до 2.7к контекста пашет, остальное уже хуже.
>>368999 Спасибо. Так лучше стало, правда оперативку всё равно не жрёт. А gpuшную фигню не смог подключить, вроде ставил с гита clblast, но не могу установить coboldcpp с ним, не находи его почему-то. Да в принципе и так норм.
>>369187 > такое чувство что промпт кобольдом обрезается в начале, чтобы в 4к влезать, а в начале как раз основные инструкции Ты через таверну сидишь? Тут вообще она сама должна обрезать, сохраняя главный промт и обрезая уже прошлые диалоги. Другое дело что если она настроена неверно то тогда уже сам кобольд будет срезать и срежется то что идет первым, проверь настройки. Ну и действительно выстави 3500-3800, раз проявляется в самом конце. Раз такое дело - реквестирую настройки которые ты используешь и нюансы промта/диалогописания для получения хороших результатов с блумун.
Алсо для затравки - https://huggingface.co/mosaicml/mpt-30b базовая модель с 8к контекста из коробки, уже есть квантованные версии но без файнтюна для пользования малопригодна + работает только на одном релизе кобольда.
>>369358 >базовая модель с 8к контекста из коробки >To build 8k support into MPT-30B efficiently, we first pre-trained on 1T tokens using sequences that were 2k tokens long, and then trained for an additional 50B tokens using sequences that were 8k tokens long. мимо
>>369358 >базовая модель с 8к контекста Ебучая экспонента. Кстати, включать инфу про mpt в шапку? >>369378 Нормально на самом деле, чатгопоту примерно так же до 16к контекста небось растягивали.
>>369378 Чому бы и нет, постепенная тренировка эффективна, если судить по выходящим статьям. >>369380 Хз, надо посмотреть до чего оно дойдет и не повлияет ли квантование на работу с контекстом. Ну и файнтюны, если они будут проходить также на 2к то не повлияет ли это на изначальные "умения", ждем в общем.
Господа, таки интересует тема производительности в GGML с оффлоадом на куду, отмечался только один анон, неужели больше никто не пробовал?
Друзья, скачал 65Б модель, соответственно чтобы затестить надо в кобольдсрр оффлоаднуть 51 слой, у меня 3090. Вопрос - как таверну прикрутить? У меня она бесконечно генерит и нихуя не выводит, я уже даже респонс поставил 30 токенов нахуй, лол. Запустил сам кобольд с параметрами выше, чисто слои поменял. Что поставить в таверне?
>>369430 >>369440 Скачай с поддержкой куды, или лламуцпп (можно из убабуги), обработка промта будет почти мгновенная а основные расчеты на генерацию токенов. > 51 слой Многовато, ты точно за объем врам не вышел? С новыми дровами так можно но производительность тыквится нещадно. Например, 33б модель без выгрузки когда контекст накапливается до полного начинает проседать до 5т/с, тогда как с выгрузкой ниже 10 почти не бывает.
>>369388 > Господа, таки интересует тема производительности в GGML с оффлоадом на куду, отмечался только один анон, неужели больше никто не пробовал? Вот по этому ридми поставил >>365679 последнюю ламуцпп, попробовал с визардом 30б q5_1 55 слоёв в гпу. Тухлорузен без АВХ512 Output generated in 30.25 seconds (6.61 tokens/s, 200 tokens, context 32, seed 1268343899) Во время установки ванкликом алсо заменил в webui.py 11.7 куду на 11.8
>>369449 В релизах есть, убабугу с норм ламой - постом выше. >>369446 Попердолился тут немного значит. Лазарус 30b q5 K, линукс, установка всего вручную, также 55 слоев, драйвер 525, 3090(!) > Output generated in 21.40 seconds (9.35 tokens/s, 200 tokens, context 81, seed 1377741753) Та же модель, винда, поправленный ну 118 куду ванклик, драйвер 536, 4090, драйвер 536 > Output generated in 32.18 seconds (6.22 tokens/s, 200 tokens, context 94, seed 964343213) Правда в этом тесте на карточке много мониторов и выгрузить можно только 51 слой, далее идет переполнение врам и скорость падает менее 1-2 т/с. Какбы заставляет задуматься, надо также по-человечески установить и посмотреть что портит, корявый/старый энвайромент или замечательные новые дрова, ось - маловероятно.
>>369464 > Правда в этом тесте на карточке много мониторов и выгрузить можно только 51 слой, далее идет переполнение врам и скорость падает менее 1-2 т/с Условия тестов совсем какие то разные, слишком много всего может повлиять. Но я тоже с 4090 на винде соснул по скорости, как видишь. А менее 1 т/с у меня бывает тоже падает, если обычная рам заканчивается. У тебя видимо из-за драйвера без оомов.
>>369479 Как займусь повторю, переключив все на встройку. Все равно, ну 1 токен в секунду на это еще можно списать, разница в производительности (раза в 1.5+ при должной оптимизации) должна компенсировать, а так карточка большую часть времени ниже 100вт потребления чиллит. Даже допустить что оно починится - будет условные 14т/с что чуть медленнее gppt, это даже не близко 25 как тут >>365203
>>369496 Ну вроде как да, от железа уже зависит. На шинде более 2.4 т/с не выжималось, даже специально только 2 плашки рам оставил для максимальной частоты, не сказать чтобы особо скейлилось от нее. Были результаты выше, но пока их никто не повторил, вот ищем путь.
>>369503 > ЕРП Тут весьма индивидуально, вкусовщина, может твои хотелки только чатжпт/клоуд удовлетворят если не сломаются. Очень зашел хронос 13б и 33б. Первый может ломаться c SYSTEM MESSAGE но с высокой долей вероятностью генерирует именно то что хочешь с приличным описанием (пикрелы) и делает это моментально. Второй от раза к разу, иногда божественно, иногда фейлит и зацикливается. С ним пример файтбека и пассивных генераций на акве в прошлом треде. Пресет pleasant results для начала попробуй. Также они неплохи тем что если персонаж не с пиздецовым промтом - без твоего желания инициативничать к левду не будет (привет клода), только намекает. бонусом (write a good ending) только лимит токкенов поднять >>369511 > Охуенные истории. Там же соя отборная в датасетах и сам автор об этом указывает, нормальных ждать надо. Или ты уже затестил и модель понравилась в чем-то?
>>369514 Ну так с дефолтной лламой особо и не порпшить, а на просьбу код написать помню она лютый треш выдала, в отличии уже от файнтюнов. Офк учитывая прогресс и разницу во времени сравнивать некорректно, так и тут может быть отличная база но в стоке слабовата. Отпиши по впечатлениям, ну и по тому как ее запустить удалось. >>369516 "from kobold gui", сами настройки в webui, главное сразу выставить а то может не примениться. Пробовал и в таверне выставлять - вроде также.
Chat mpt попробовал. РПшит с дефолтным промптом нормально. Запускается на последнем кобольде. Суммарное время генерации на 4-ех битной mpt в два раза выше(!) чем на 5-ти битной Bluemoon из-за катастрофически медленного preprocessing - то ли сама модель кривое говно, толи кобольд криво грузит mpt модели. Т.е. 8к контекст использовать считай невозможно, потому что уже на 1к контекста там ответа ждешь пару минут. Пока откатываюсь на bluemoon.
>>369561 А скормить ему уже готовый чат и спросить про то что было условных 4к токенов назад не пробовал? Вот это интересно. >>369703 >>369513 выше еще отзыв про super-hot
>>369923 Ждём пердолей на свежие методы по растягиванию контекста до 8к. Заходи через месяц. >>369924 У тебя там 3060 с 12GB врама, разгружай на неё часть слоёв, будет вмеяемо.
Кто как koboldcpp с clblast'ом ставил? Хз где они там в арче clblast взяли, в репозитории такого пакета нет. Я просто отсюда https://github.com/CNugteren/CLBlast устанвил системно, но koboldcpp похоже не подтягивает его, не видит. Говорит либа не найдена.
Посоны, отправили к вам. Скачал убабугу. Вроде всё окей установилось. Запустил. Через вкладку моделей скачал блумунрп потому что сказали, что чем больше токенов, тем круче. Выбрал блумун для загрузки. Вроде даже загрузилось и напечаталось сообщение от бота. Пытаюсь писать, а мне в консоле "модель не выбрана" хотя выбрана. "Ну может перезупустить надо после свежих то скачек и изменений". Запускаю, а мне пикрил. ЧЯНТД?
>>370367 Я не знаю и ничего не понимаю. Я чё-то запустил, у меня съело всю оперативку, выдало ошибку и я продолжил делать что-то. Вроде 30б требует 32 оперативы, у меня 16 только, решил другую модель взять
>>370423 Если ты про lama.cpp, то запускается она просто main --help выдает все параметры На гитхабе и в папке examples есть примеры аргументов под разные случаи Так что просто кидаем ggml в какую-нибудь папку или диск, и на основе гитхаба, examples и main --help собираем строку запуска, которую записываем в батник или баш-скрипт Параметров и возможностей там много Самые интересные из них: - сохранение декодированного контекста между перезапусками: нужно указать путь к файлу кеша, дальше оно само. В теории ускоряет запуск - выгрузка части модели в vram - так называемый оффлоадинг, экономит память, позволит подключить gpu к вычислениям - блокировка памяти, защищает модельку от попыток выгрузить в своп во время работы, со стороны системы
Но с модельками нужно аккуратнее быть: llama.cpp поддерживает только новые версии ggml, а модельки могут быть старой версии
В общем поиграйся с examples, и оно почти само заработает Но examples в архиве с релизом может и не быть, наверное отсюда у новичков проблемы. Нужно скопировать архив кода с гитхаб, а в него уже распаковать архив с релизом, тогда у тебя будет и main.exe и examples
>>370423 GGLM модели - загрузчик llama.cpp нужен. Трансформерс для обычных не квантованных моделей. В вебуе одна модель - одна папка, галочку автолоад модель сними перед выборов, выбери модель, настрой параметры и уже нажимай лоад, все будет.
>>370536 У меня вообще под модельки отдельный диск отведён, очень они большие и их много Хочется все попробовать Какие-то работают лучше, какие-то хуже Мне понравились викуня, сайга, альпака-лора и oasst По весам интересны 30b, вполне адекватные результаты. 65b тоже держу - они вдвое медленнее, но у них ответы гораздо глубже, иногда это нужно.
>>370536 Я просто скачал https://github.com/oobabooga/text-generation-webui однокнопочную установку. Я ничего не понимаю. >>370557 >В вебуе одна модель - одна папка, галочку автолоад модель сними перед выборов, выбери модель, настрой параметры и уже нажимай лоад, все будет. Снял, выбрал, настроил, нажал лоад и AttributeError: 'LlamaCppModel' object has no attribute 'model'.
>>370598 Из шапки? Какую из? Есть таверна, есть кобольд, есть просто инструкции в шапке. На гитхабе убунги? Я ставил по инструкции, даже llama.cpp with GPU acceleration >>370601 Гуглил. Отзывает на проблему с устаревшим ГГМЛ что у меня не так, потому что все v3, посоветывали скачать 5_1, скачал, не работает. >Только вместо версий там ставь сразу ласт лламу-питон с кудой. Через cmd_windows.bat >pip install llama-cpp-python
>Requirement already satisfied: llama-cpp-python in x:\tavern\oobabooga_windows\installer_files\env\lib\site-packages (0.1.65) >Requirement already satisfied: typing-extensions>=4.5.0 in x:\tavern\oobabooga_windows\installer_files\env\lib\site-packages (from llama-cpp-python) (4.6.3) >Requirement already satisfied: numpy>=1.20.0 in x:\tavern\oobabooga_windows\installer_files\env\lib\site-packages (from llama-cpp-python) (1.24.3) >Requirement already satisfied: diskcache>=5.6.1 in x:\tavern\oobabooga_windows\installer_files\env\lib\site-packages (from llama-cpp-python) (5.6.1)
>>370678 Про гпу слои из параметров запуска лучше убрать, наследие старых коммитов. Оче похоже на беды с окружением, которого нехватает лламе, хз. А другую модель пробовал? Ну и переименовать, заменив - на _. Хотя > chronos-13b.ggmlv3.q5_1.bin с дефисом и загружается, в пути у тебя никакого криминала тоже не видно.
Пользовательское железо ГПТ4 не потянет, там блядь восемь 220В моделей. У нас даже на 4090 с нормальной скоростью 30В максимум работают и те квантованные. Но уровень CAI уже достигнут и контекст понемногу растет. Приходи к концу года, аналоговнетная версия ГПТ4 уже будет, изобретут очередное хитрое квантование, например.
Влезу в ваш спор, все равно тот ананий что тебе помогает не понимет ни бельмеса.
Короче - вонючка Герыч каждым апдейтом ЛОМАЕТ старые ггмл. Сейчас с его говнокодом работают только k-quants. Их можно найти по названиям типа q4_0, q5_1, если буквы q нет - это старая модель. Старые модели запускает ТОЛЬКО кобольд, хоть усрись.
>>369485 Линукс короче реально тащит, никогда такой удвоенной скорости не видел на шинде, 12 по праздникам с гптку. Первая автогпт 30, вторая ггмл 13, чтобы гарантированно влезла. Терминал кстати тоже годнота.
Анон, помоги сохранить настройки в угабуге. Скачал, нихуя не понимаю как с ней обращаться. В yaml файле не сохраняются настройки из блока Chat parameters, и вообще непонятно, применились они или нет. В доках тоже никакой информации не нашёл. Вот в автоматике всё понятно: список настроек и сверху большая жирная кнопка "Применить", а тут что-то странное.
>>371537 Нет, у gpt другая приколюха: там свой сильно оптимизированный движок и вся моделька в vram на нескольких параллельных gpu. Отсюда настолько высокая скорость генерации, что груду такого дорогого железа стало коммерчески оправдано сдавать в аренду - оно сразу множество людей обслуживает, за копейки, и не крякает от потока запросов. С ggml и llama.cpp такое не прокатит - даже на маленьких модельках тут скорости смешные, даже на 4090, потому что расчеты почти влоб идут. Запилить такие же оптимизации можно. Другое дело, никто движок gpt на посмотреть не даст, и в чем конкретно оптимизации не подскажет - это коммерческая тайна. А самим до этого доходить сложно и долго: нужны люди, нужны ресурсы, с чем у попенсорс-проектов вечная засада, с коммерческой командой тягаться очень сложно.
>>371649 > вторая ггмл 13 Это на какой карте? У меня под виндой даже с забитым контекстом 25 мс на токен с 13В. >>371710 Я с кудой на ggml вообще не смог запустить. Либо не отвечает, либо генерит рандомные символы. На GPTQ выдаёт ошибку выходного тензора NaN. Говно какое-то.
>>371739 > Это на какой карте? NVIDIA 0c:00.0 NVIDIA Corporation Device 2684 Лул, дрова кривовато встали походу сразу с кудой. Как оно вообще работает то и ещё в два раза успешнее винды.
>>370678 ШОШ ПРОДОЛЖИМ ПЫТАТЬСЯ >>370693 > А другую модель пробовал? Ну и переименовать, заменив - на _. Хотя > chronos-13b.ggmlv3.q5_1.bin Пикрил, все выдают одно и тоже >>371137 >Вопрос намба ван, ты всю модель сразу в видеопамять пихаешь — так и задумано? Ну во-первых, хотелось бы, у меня заместо процессора i5-3470, а оперативы всего 16 зато врам все 24. Во-вторых, я никуда ничего не пихаю, у меня даже модель выгрузить не получается. >Вопрос намба ту, заскринь, че у тебя там пишется при запуске. >>371542 Так у нас тут не спор, я ньюфаг-второй-день пытаюсь запустить... хоть что нибудь
>>371735 > потому что расчеты почти влоб идут Чивобля? >>371806 > оперативы всего 16 Хм, размер файла подкачки у тебя сколько? Иди выстави гигов 150 (столько правда только для нарезки крупной gptq нужно но чего мелочиться) и попробуй запустить. Другую модель ggml стандарта скачай и с ней проверь.
>>371812 Ну чё посоветовали то и трогаю. А что мне трогать, чтобы работало на гпу и можно было переводчик накатить? >>371815 >Другую модель ggml стандарта скачай и с ней проверь. У меня их блумун 30б хронос 13б 4_0, 4_1, 5_1 викуна 13б
из всего этого пытается загрузится только блумун 30б, и то потому что это дополнительно случайно селфтенсорс скачался
Попердолился с ExLlama, говно ещё кривее чем китайский GPTQ, но скорость почти в два раза выше Жоры. 13В около 75 т/с, 30В около 35-38 т/с скачет. 7В пикрилейтед. Хотя в табличке заявляют больше, наверное опять надо пердолиться.
Как вашу ламу использовать в качестве написания текста по запросу. Эта хрень только передразнивает меня при использовании любых из сценариев. Хочу как в гпт, написал запрос, тебе выдало. Как это сделать?
>>371428 А софт? Где мягкость? >>371537 >Но уровень CAI уже достигнут Просто чай деградировал до уровня пигмы. >>371544 >скор там говно Последние улучшения дают 0,00001% скоры. >>371550 >теперь с 8к контекста А патченные версии запускаторов где брать? >>371649 >Терминал кстати тоже годнота. В Ctrl+C не умеет сижу из-за этого на шинде. >>371840 >Как это сделать? Обучи свою модель.
>>371710 >>371739 Мм хорошая модель, опять беды с совместимостью (пик1) >>371840 Так оно и работает (пик2). Ты если в кобольде пишешь то выбери пресет kobold-gpt чтоли или вообще пустой без контекста
>>371854 >Мм хорошая модель, опять беды с совместимостью (пик1) Алё народ, софт даже не в альфе, что вы там запускаете? Без патчей модель работать не будет.
>>371847 > В Ctrl+C не умеет Надеюсь ты не про копирование? Прерывания идентично работают. >>371856 У нас нет цели есть только путь. Модель скачать можно? Можно, запустить можно? Можно, какая разница?! А патчи в условие сделки не входили, должно и так работать.
>>371847 >В Ctrl+C не умеет Типа в копированиее имеешь в виду? Эмуляторы терминалов бывают разные. В оболчке KDE по умолчанию работает ctrl+shift+c/v, я этой хуйнёй не пользуюсь, у себя в urxvt настрои ctrl+alt+c/v. А к ctrl+c это базовая команда на остановку выполнения. >>371649 Я так понимаю ты не koboldcpp гоняешь, а llamacpp?
>>371847 > В Ctrl+C не умеет сижу из-за этого на шинде. Wut? Ctrl+shift+c если копировать собрался >>371863 > Я так понимаю ты не koboldcpp гоняешь, а llamacpp? Да, вручную скомпиленный для угабуги.
>>371859 Наркоман, это размер контекста, а модели выше его особым образом расстягивает. >>371862 >Надеюсь ты не про копирование? Про него конечно же. Удобно очень. >>371863 >ctrl+shift+c >ctrl+alt+c/ Мне пальцы нужны. >А к ctrl+c это базовая команда на остановку выполнения. Не учи отца ебаться, я прерывал так ещё когда ты в школу ходил. Ах да, шинда умеет в контекст команды, и копирует только когда выделен текст. >>371867 Там метод увеличения контекста другой. >>371871 >Ctrl+shift+c если копировать собрался В поезду трёхклавшиные сочетания для базовых команд. ctrl+c и ниибёт. >Processing Prompt [BLAS] (1024 / 1793 tokens) Охуенно удобно.
>>371879 > Ах да, шинда умеет в контекст команды, и копирует только когда выделен текст. Мне кажется в линухе, если с конфигом поебаться, тоже так можно настроить, дед.
>>371655 Анон, почему ты меня игноришь? Я правда не понимаю.
Обычно я использую Кобальд + Таверну, но ничего выше Пигмалиона 6В на таком сочетании не запускается. А у угабуги скудная документация и с ней трудно разбираться.
>>371883 >если с конфигом поебаться Ну вот у меня не вышло. >>371884 >к emacs ты не прикасался, хех. Я даже из вима не могу выйти без ребута сарказм, но близок к правде. >>371885 Так же. Говорю же- контекст.
Вы не устали этой хуйней заниматься? Давайте будем честны, LLAMA не может заменить полноценный переводчик, даже словарь, не может в проверку грамматики, перефразирование, не может вообще нихуя кроме куминга для дегенератов.
>>371806 Ну, братан, n-gpu-layers буквально значит, что ты приказываешь грузить ее в видеопамять. =) Но судя по новому скрину, видяху он у тебя все-таки видит. Ну давай так, для начала запусти с n-gpu-layers 0 с помощью движка llama.cpp и посмотрим, че получится.
>>372148 >1. Скачай KoboldCPP >>372016 уже проверил неудачно >2. Скачай точно актуальненькое что-нибудь, проверь ее. Так же OSError: [WinError -1073741795] Windows Error 0xc000001d и 'LlamaCppModel' object has no attribute 'model'
>>372169 Ну тебя не смущает что там все та же ошибка, хотя бинарник собран и готов к работе? Отсутствуют дефолтные c-либы, беда с дровами, не хватает оперативки чтобы загрузить, ось порвалась и т.п. > Windows Error 0xc000001d Гугли и чини
Пошёл тестить chronos-33b-superhot-8k. Пиздец блять, я думал локальные модели бондов лишены. Сука, я аж дёрнулся, думал на четвёрке генерить начал - нихуя, локальная. Вы же обещали без сои!!! Сука, наёбщики!
>>372185 Потестил wizardlm-33b-1.0-uncensored-superhot-8k. Уже лучше. А ГЛАВНОЕ - отвечает на лучший тест логики LLM, сделанный легендой этого треда, правильно.
>>372167 Скоро все модели растянут на 8-16к контекста, ждём пердолей, файнтюнов и прочих Гергановых. >>372169 Так, а что у тебя там за допотопный хлам? Я чую зион. А, у тебя проц старьё, хули ты нам мозги ебёшь? Купи компьютер. >>372185 Не, ну все просили GPT4, вот и получили Одни бонды от неё. Кстати, кинь карточку
Пысаны, а какая сечас самая оптимизированная команда для запуска кобольта? Я запускаю так koboldcpp_CUDA_only.exe --smartcontext --launch --threads 8 --useclblast 0 0 --gpulayers 21
Ничего изменить в лучшую сторону нельзя? Может чет еще запилили, а я и не заметил...
Короче, ясно, у тебя говнопроц без инструкций. Потому у тебя llama.cpp и не заработает - она на проце работает, даже когда слои в гпу грузит. Запускай gptq на чистой хубабубе - так будет полностью на гпу.
Что-то говно ваш 8К-контекст. Сейчас взял несколько 13В моделей и начал пытаться спрашивать у них про начало разговора при 4К+ контексте - выдумывают сами содержание контекста. Викуня ещё извиняется в стиле "My apologies for any confusion caused by my previous response. Upon reviewing our conversation, I realized that there was indeed some inconsistency", но продолжает бредить.
>>372666 >>372674 Стоит действительно дождаться нормальных файнтюнов, но в первую очередь разобраться с совместимостью. В репе автора указано что необходим патч и настройки, как это работает и работает ли нормально в gptq - хз. Вообще стабильные 4к+ в сочетании с нормальной моделью (привет блумун) это уже хорошо, простор для кумерства сразу расширяется. >>372803 Оно изкоробки в убабуге. Производительность действительно впечатляет литерали 75-80т/с в 13б. >>371649 У тебя в ggml 30b сколько в итоге получилось там? В шинде сделал нормально окружение с последними совсместимыми версиями, llama-cpp-python 0.1.66, встроечка, оффлоад 55 слоев - 10т/с потолок на лазарусе 30б q5KM, карточка при этом 130-140вт тдп. На производительность таки влияют e-ядра, со стримингом и открытым мониторингом наглядно видна корреляция между распределением загрузки и скоростью. Числом потоков кстати улучшить не получается, выставить аффинити - производительность падает радикально. В общем, остается ось и дрова, ну и модель другую скачать на всякий для теста.
>>372803 Да, есть некоторый пердолинг. Хотели сделать всё автоматически, но в итоге если что-то идёт не так оно даже вменяемую ошибку не пишет. Но пердолинг стоит того, оно сильно лучше китайского GPTQ - буквально все проблемы пофикшены, 30В без проблем лезет в 24 гига, скорость космос, поддержка лор/большого контекста, совместимость со старыми китайскими моделями. На 13В ответы по 1-2 секунды, короткие вообще мгновенно.
>>372956 > ExLlama Так вот на ней и есть проблемы с контекстом. Оригинальный 30В суперкот на 4к+ пукает, мерджи и 13В уже на 3000 ломаются. Надо ждать когда сделают хороший файнтюн на большом датасете. Они бы сначала сделали базовую модель файнтюном на RedPajama, а потом уже все эти инструкции/ролеплеи/чаты тюнили.
>>372829 >в убабуге Оно ж пиздец какое кривое. >>372954 >Хотели сделать всё автоматически, но в итоге если что-то идёт не так оно даже вменяемую ошибку не пишет. Скажу больше - если тупо следовать инструкции, то он хуй что поставит, ибо пип идёт раньше репы. Долбоёбы бля. >>373007 Кстати вопрос всем пользователям ExLlama - там есть норм бекенд интерфейс для таверны? Или только с убогобугой? Так то их встроенный вебгуй запустил, и оно действительно весьма быстро пашет (13B на сраной 3080Ti), но их веб панель не впечатляет.
>>373242 > пип идёт раньше репы Не, всё верно, зависимости ExLlama в requirements.txt убабуги. Мне только пришлось поебаться с выставлением одинаковой версии куды у торча и в CUDA_PATH. > интерфейс для таверны А что мешает поставить убабугу только для api? Других вариантов особо нет, пользуемся калом.
>>373286 >Не, всё верно, зависимости ExLlama в requirements.txt убабуги Что они курят? >>373286 >А что мешает поставить убабугу только для api? Да ничего, кроме того, что эта параша не пашет. В первый раз запускает свой интерфейс, но после выбора модели умирает и при последующих запусках пытается её загрузить. При этом напрямую, как я уже заметил, но работает.
>>373242 > Оно ж пиздец какое кривое. Та про эксламу там или сам вебуй? Первая работает, от второго только и надо что модель загрузить и параметры выставить, можно вообще в аргументах все выставить и даже браузер не открывать.
>>373302 >от второго только и надо что модель загрузить Про второе конечно же. Прописал лоадер, так он не может найти репозиторий, хотя он точно лежит в нужном месте.
>>373326 Возможно он у тебя он просто не установлен в окружении, pip show exllama что выдает? Гитпулл, потом что ванклик, что ручная установка все подсасывают, так не так давно реквайрментсы переделали.
>>373340 Всё, понял. эта пидорня с виртуальными окружениями и прочим говном поставила мне CPUшный торч. Въебал ему по хардкору pip3 install torch==2.0.1+cu117 --index-url https://download.pytorch.org/whl/cu117 И всё поехало.
>>372829 > У тебя в ggml 30b сколько в итоге получилось там? 55 слоёв из 63, версия ggmlv3.q5_1 визардлм, ну на винде у меня вообще типо 2-3 т/с с таким было, так что для меня даже такое импрессив на скрине. Что примечательно тут не нужно свопа на 150 гигабайт чтобы загружать модели, почему то 48 гб рама и совсем маленький своп в 4гб работают, в него даже вроде модель не залезает при загрузке, я его забыл поменять и походу не зря. Попробую ещё полностью загрузить 4битную в гпу пожалуй. В сд тоже прирост производительности с 22-23 ит/с до 28-29 бтв, да что за хуйня с этой виндой.
>>373555 > В сд тоже прирост производительности с 22-23 ит/с до 28-29 бтв, да что за хуйня с этой виндой. Скорее с руками. В SD с октября прошлого года, как пришили xformers, было всегда 30-32 ит/с.
>>373555 Погоди, своп нужен для gptq при нарезке, а ggml лламой-цпп по дефолту вообще не загружается в память до запроса, если не выбран параметр. Попозже и с 4090 на прыщах попробую чтобы все варианты закрыты были, очень хочется 25 но уже начинаю сомневаться в достоверности/корректности заявлений. > 22-23 ит/с Погоди, это совсем мало, норма на актуальных версиях 30+, 28-29 с частичными нохалфами. Кстати то же самое было на зворванной шинде с другим железом. С большими батчами и/или разрешениями норм работает?
>>373570 Для 13 гена штеуда? Ну походу я винду реально поломал пока выпиливал компоненты, которые отправляли какую то хуйню на непонятные хосты, ну или она просто слишком старая, вроде 20h2 >>373585 > Погоди, своп нужен для gptq при нарезке, а ggml лламой-цпп по дефолту вообще не загружается в память до запроса, если не выбран параметр. Попозже и с 4090 на прыщах попробую чтобы все варианты закрыты были, очень хочется 25 но уже начинаю сомневаться в достоверности/корректности заявлений. swapoff -a пикрил потребление в хтопе во время загрузки автогпт, я прямо следил за этой хуйнёй во время загрузки модели. Синии палки это вроде кэшшед, но тем не менее тут нету никаких вылетов, если кэширование не влезает, на винде там за 110гб переваливало. > Погоди, это совсем мало, норма на актуальных версиях 30+, 28-29 с частичными нохалфами. Кстати то же самое было на зворванной шинде с другим железом. С большими батчами и/или разрешениями норм работает? У меня рузен 5900ч, для него такая скорость вполне норм. Да, с большим батчем всё в порядке, как и огромным шизоапскейлами и тайлами в 4к, на мартовском коммите было 25-26 бтв, что там у тебя было на ворованной шинде говоришь?
>>371821 4090? Ты её пересобирал как то, чтобы 11.8 куда была, или просто юзал из коробки? У меня примерно такие же результаты, только скорость с контекстом падает, потребление хотя бы уже похоже на что то вменяемое. 30б со скрипом, один раз оомнуло при загрузке, но влезает.
Попробовал по вашему совету ExLlama с Пигмалионом 13B на 8К. 4070 ti генерит 33 токена в секунду. Огонь. Или нет? Жаль, очень маленькая модель. И на проце не запустилась (на компе без видео вообще). Лень копать было, почему.
>>373949 > 4090? Да. > чтобы 11.8 куда была Он использует ту что в CUDA_PATH. Да, 11.8 использую. > скорость с контекстом падает У меня буквально на пару токенов просаживается, пикрилейтед. > оомнуло Уже месяц же как куртка убрала ООМ, можно немного вылезать за лимит. Ну и у меня только 21 гб жрёт, память не скачет в отличии от GPTQ. Алсо, не забывай включать Hardware-accelerated GPU scheduling в винде, для куды он полезен. >>374039 > Или нет? Наверное и лучше можно. На 4090 75-80 т/с.
>>373949 Ну вот только под жёстким андервольтом как у тебя стало выдавать результаты, но и то на забитом контексте под 30 т/с, особых снижений не вижу, оно просто на пол секунды затупливает когда обрабатывает контекст. Но теперь вообще 250 ватт жрёт и не греет карту.
>>373619 > ворованной Взорванной, когда просто воткнул в другое железо и подождал пока драйвера подсосет сама. Как раз ~20 итераций в сд, при батчайзе уже больше ближе к норме, ну и с AutoGPTQ 5-7 т/с вместо 14-20. Если есть свободный диск то попробуй на чистую поставить для теста, тем более раз в линуксе все ок. > нету никаких вылетов, если кэширование не влезает, на винде там за 110гб переваливало Ну так система для белых людей, жаль нет некоторого софта и местами забивают на юзабилити, так бы шинда была никому не нужна.
>>374077 > Он использует ту что в CUDA_PATH. Да, 11.8 использую. Ну у меня просто в PATH 11.8, меня смущает вот эта информация о пакете в пипе просто на пик1. > У меня буквально на пару токенов просаживается, пикрилейтед. Точно такая же проблема с любой моделью оказывается, вот ггмл 30б не полностью загруженный в врам просел в два раза к концу контекста пики2-3, 65б ггмл тоже самое, с 2.6 до 2.0 к 1000. Из-за чего это вообще может быть? > Уже месяц же как куртка убрала ООМ, можно немного вылезать за лимит. Ну и у меня только 21 гб жрёт, память не скачет в отличии от GPTQ. Ну такое, если честно, лучше уж оом, чем лезть в память на 3600. > Алсо, не забывай включать Hardware-accelerated GPU scheduling в винде, для куды он полезен. Его же вроде наоборот отключать стоило раньше? Да и гуй с ним у меня не открывается в винде, лол, через реестр делаю. >>374096 > Ну вот только под жёстким андервольтом как у тебя стало выдавать результаты, но и то на забитом контексте под 30 т/с, особых снижений не вижу, оно просто на пол секунды затупливает когда обрабатывает контекст. Но теперь вообще 250 ватт жрёт и не греет карту. Наверное надо дрова чуть поновее поставить, эти просто с кудой в комплекте шли и даже название карты в софте какое то дженериковое определяет - GPU: NVIDIA Graphics Device. >>374102 > Взорванной, когда просто воткнул в другое железо и подождал пока драйвера подсосет сама. Как раз ~20 итераций в сд, при батчайзе уже больше ближе к норме, ну и с AutoGPTQ 5-7 т/с вместо 14-20. Если есть свободный диск то попробуй на чистую поставить для теста, тем более раз в линуксе все ок. Ну видимо придётся всё таки обновиться, после обновления проца этого не делал, либо же остаться на линуксе. Кстати проблема всё таки есть, я пока не могу понять почему при увеличении контекста с абсолютно любой моделью идёт просадка скорости, причём внушительная.
>>373817 >Она будет придумывать слова. Пускай. >>373817 >Переводи онлайн переводчиком. Может ещё предложишь юзать чатГПТ вместо лламы? Тут как раз тред локальных решений. Впрочем, после полового сношения у меня получилось примерно вот так, но на длинных фразах всё же ломает. Надо будет более разнообразные примеры накидать, а так качество меня устраивает. >>374039 >Лень копать было, почему. Потому что в принципе под куду, иначе никак. >>374077 >включать Hardware-accelerated GPU scheduling в винде Только для любителей обновлений. На 1809 этого нет, лол. >>374102 >местами забивают на юзабилити Да там на всё забивают.
>>374132 >я пока не могу понять почему при увеличении контекста с абсолютно любой моделью идёт просадка скорости, причём внушительная Скорее всего памяти не хватает, лезел из ГПУ в ОП, из ОП на диск, а там всё печально.
>>374143 > из ОП на диск Это точно исключено, я отключил своп. > лезел из ГПУ в ОП Я прямо через ежесекундный watch смотрел в nvidia-smi, потребление памяти питоном при полном контексте было ~21700, так что походу не лезет и в системную. Получается так и 4к контекст 30б модели полностью в гпу можно запихнуть бтв.
>>374132 > почему при увеличении контекста с абсолютно любой моделью идёт просадка скорости Да есть она, ты внимательно посмотри, насколько понимаю тот анон показывал на gptq с эксламой, а ты сравниваешь с ggml, где обработка полного промта у тебя занимает почти половину от общего. Алсо зависит и от размера ответа если мерить по конечной скорости, если у тебя много-много токенов, то вклад обработки промта будет мал, если их пара десятков - может упасть в разы. >>374181 В теории да. Надо посмотреть что там с этими новыми 8к, если наполовину будет работать и сможет делать такие же сочные тексты то топ. >>374132 > просто в PATH 11.8 В путях у тебя кудатулкит же, а пик 1 - установленная в окружении экслама, в репозиториях этот последний и под 118 не находится (было недавно может уже обновили).
Обновил Убабугу, разумеется при этом он сдох с концами. Скачал установщик в один клик. Установил, прожал Update, разумеется он сдох на установке GPTQ на куде, причем issue по этому вопросу висит с конца апреля(!). Убабуга не меняется. Как был конченный дегенератом, так и остался.
>>374238 > Да есть она, ты внимательно посмотри, насколько понимаю тот анон показывал на gptq с эксламой, а ты сравниваешь с ggml Так и я с эксламы начал, там тоже просадка, с 35 до 25, у анона тоже была, но из-за даунвольта как я понял. Вообщем то да, основное затупливание происходит именно во время обработки контекста, до начала самой генерации. > В путях у тебя кудатулкит же А, пони, в венве путь указывает в другое место из-за анаконды с установленной отдельно кудой. Хз как тут лучше посмотреть, глянул CUDA_Toolkit_Release_Notes.txt, там упоминания 11.8. Торч тоже 118 показывает. > а пик 1 - установленная в окружении экслама, в репозиториях этот последний и под 118 не находится (было недавно может уже обновили). В каких таких репозиториях? На pypi нету
>>374267 > Хз как тут лучше посмотреть nvcc --version, конда действительно может свой поставить, обычный пихон использует системный. Вообще забавно, у меня 12.1 стоял и когда автосборкой делал лламу-цпп он неплохо так раздраконило венв, везде добавив свои либы из-за чего многое сломалось, с 11.8 все ок. > с 35 до 25 Хм, ну всеже многовато, но не то чтобы далеко от нормы. Пик 1 ампер, пик 2 - ада. По мере накопления контекста скорость чуть понижается и также падает тдп, с 400+ до 360 вт. На втором пике в настройках убрал стриминг - сразу загрузка повысилась и с 27 вернулось на 31+. А вообще экслама вообще кайф, на прыщах расход врам поднялся с 20600 до 21300 за все время, на шинде в 22200 до 23500 (и то скорее за счет стороннего), никакого намека на ООМ. 25т/с на 30b ggml так и не найден
>>374281 > nvcc --version, конда действительно может свой поставить, обычный пихон использует системный. Вообще забавно, у меня 12.1 стоял и когда автосборкой делал лламу-цпп он неплохо так раздраконило венв, везде добавив свои либы из-за чего многое сломалось, с 11.8 все ок. Я так и пробовал изначально, он разве не просто системный показывает? Что в венве, что нет один и тот же, хотя у меня они и так по идее одинаковые. > На втором пике в настройках убрал стриминг - сразу загрузка повысилась и с 27 вернулось на 31+. Это ещё что блять за волшебная кнопка. Хуясе превью сколько сжирает так то, норм скорость стала. > А вообще экслама вообще кайф, на прыщах расход врам поднялся с 20600 до 21300 за все время, на шинде в 22200 до 23500 (и то скорее за счет стороннего), никакого намека на ООМ. Да, охуенно. > 25т/с на 30b ggml так и не найден А нужон вообще с эксламой то? Только разве что ради 65б
>>374284 > не просто системный https://anaconda.org/anaconda/cudatoolkit если ставил, в простом питоне или если кондой ничего не делать будет тот что в path > Хуясе превью сколько сжирает так то, норм скорость стала Да, уровень оптимизации - нейросеть. > А нужон вообще с эксламой то? q5 K q8 вроде как лучше результаты дают, ну и на 65б когда-нибудь хорошие модели завезут. С эксламой производительность даже избыточная точнее наоборот у карт слишком мало врам по отношению к мощности чипа, лучше подождать ответа 30 секунд вместо 6 но получить качественный и без поломок.
>>374289 > https://anaconda.org/anaconda/cudatoolkit если ставил, в простом питоне или если кондой ничего не делать будет тот что в path conda list cudatoolkit выдаёт пустоту в полях, видимо системный тулкит используется. Хотя странно, вроде это всё в ванклике должно ставиться. > q5 K q8 вроде как лучше результаты дают, ну и на 65б когда-нибудь хорошие модели завезут. С эксламой производительность даже избыточная точнее наоборот у карт слишком мало врам по отношению к мощности чипа, лучше подождать ответа 30 секунд вместо 6 но получить качественный и без поломок. Соединить бы как нибудь эти два метода, скорость реально очень большая. Пора 4гб чипы перепаивать на 4090, но куртка слишком жаден для такого
>>374289 > q5 K q8 вроде как лучше результаты дают Там разница на уровне погрешности методики измерения ppl, литералли плацебо. Бери самую работоспособную и всё. Тем более на 30В скор просаживается меньше чем 13В. Не стоит брать разве что q2 и q3_K_S. Начиная с q3_K_M уже норм.
>>374077 > Наверное и лучше можно. На 4090 75-80 т/с. Там еще с драйверами поиграться, настройки покрутить, но после предыдущих значений и так норм. Жаль, только, что 13B влазит тока в 12 гигов, и уже не сэкономить на видяхе (10-11-гиговой) с авито. А 30B тока в 24 гига, и то, не все модели, как я понял. А 24-гиговые карточки стоят неприлично много для того, чтобы я их мог покупать прост-так. Видимо надо с авито брать 2060 12-гиговую для сервера и крутить там 13B. На таких скоростях, на самом деле, становится уже не сильно важно. Работа с кодом один хер на 65B моделях лучше работает, а початиться можно и на скорости 10-15 токенов, кмк.
>>374362 Когда сравнивали Q5_K_M и Q5_1 65B — там небо и земля в ответах была. Эмка несла херню, пока 5.1 отвечала грамотно и по делу. Может просто применение такое, код писали ею.
>>374483 Похоже на пиздёж или баги на конкретном бэкенде, которые каждый день фиксят. Я даже разницу между q3_K_M и q5_1 не вижу на практике, буквально одинаковые ответы, не говоря уже про то чтобы качество ответов изменялось.
>>374510 я ж грю, может там просто задачи настока специфичные оказались, и между q5_k_m (которая чисто технически слабее чистой пятерки) и q5_1 оказалась разница в знаниях именно в этом вопросе. Допускаю, что в плане чата, или любых других задач, или даже сходных задач на другом языке, разницы и правда не будет. Но в общем, остались на 5.1 по итогу, на текущий момент. Хотя я бы вообще 6 подрубил квантование, но его не собрали.
>>374471 А где нейросетки? Ладно, спасибо, проехали. >>374479 >А 24-гиговые карточки стоят неприлично много для того, чтобы я их мог покупать прост-так. Судя по всему, просадка от двух карточек не больше четверти. Можно сколхозить риг какой-нибудь. У кого нибудь есть пара бомж картонок? Интересно было бы проверить, раз упор идёт больше в объём памяти, а не скорость чипа.
>>374479 > Работа с кодом Для кода надо брать какой-нибудь WizardCoder, а не всякое говно. >>374527 > просто задачи Задачи напиздеть разве что. > q5_k_m (которая чисто технически слабее чистой пятерки) Нихуя, по скору старые сосут у к-квантов. Я тебе даже табличку притащил, где q5_1 хуже q5_k_m. Нет никакого смысл использовать старые, когда они медленнее, жрут больше и скор выдают ниже.
>>374540 Я рад за табличку, а на конкретной задаче новая соснула, такие вот дела, нравится это тебе или нет. Оке, а кроме WizardCoder'а есть еще какие? Попробуем их, значит.
>>374613 Думаешь не хватит? У меня так то в загашнике пашет сервак со свободными 16+16+8 (3 версии), но доставать я его конечно же не буду. Надо проверять, может, и х1 хватит, лол.
>>374615 > на конкретной задаче Я тебе уже объяснил, дело не в задаче, а багах. Зайди хоть в issues и посмотри что там. Её может тестили на CLBlas, которое говно забагованное, а потом пиздят что квантование/задача не те. Как будут нормальные пруфы, так и будет разговор. А по факту к-кванты качественнее квантуют, чем старое.
>>374529 > У кого нибудь есть пара бомж картонок? Предлагайте ваши условия тестирования, прошлый опыт не удался, в том числе из-за корявого софта/дров/прочего. >>374618 В теории псп шины важна, передача значений по ней будет добавлять свое время к генерации каждого токена. В любом случае на 33б 4 бита смысла нет ибо в них могут одиночные потребительные видеокарты. Пердолиться стоит только если уже есть кучка условных 3060, но на майнинговых платах с х1 слотами успешного опыта врядли добиться.
>>374806 >Предлагайте ваши условия тестирования Очевидно надо проверить влияние шины на скорость, чтобы без теории. Материнки часто умеют урезать число линий, на крайний случай можно скотчем залепить. Соответственно надо проверить, как число линий ко второй карте влияет на скорость, то есть на второй надо проверить варианты х16/х8х/х4/х1 и замерить падение. >>374806 >В любом случае на 33б 4 бита смысла нет ибо в них могут одиночные потребительные видеокарты. Не у всех есть котлета на одиночкую. Вот у меня 3080Ti, соответственно я сосу на 13B, и 30 мне не светит. А так может поставил бы 3060 в пару к ней да получил бы желаемое, с небольшой тратой денег относительно покупки 4090.
>>374850 > проверить влияние шины на скорость Зоопарк материнок или жертвовать х16 райзер при этом имея материнку с двумя х16. Из разумного только лезть в код и добавить дебаг выдачу таймингов чтобы вычленить время обмена по шине. Сюда бы некоторые алгоритмы предказания или разделения частей как хотели сделать в ggml, тогда шина могла быть нивелирована за счет выделения асинхронного буфера, данные в который будут подгружаться во время самого расчета и простой в ожидании будут минимальны. > может поставил бы 3060 в пару к ней да получил бы желаемое Работать будет 100% и оно будет сильно быстрее выгрузки в рам. С учетом мощности 3060 скорее всего задержки от обмена будут не столь значительны, на условные 3-5 т/с сможешь расчитывать. Это если в автожптку, а в эксламе поддержка нескольких есть? Алсо смотри нп ggml, с ним, возможно, сможешь достигнуть сравнимой производительности без второй карточки.
>>374886 >Зоопарк материнок или жертвовать х16 райзер при этом имея материнку с двумя х16. Скотч же, не нужно ничего по харду резать, всё на одной можно сделать. >>374886 >на условные 3-5 т/с сможешь расчитывать В ексламе ебашит десятками, и это прям сильно приятнее. >>374886 >а в эксламе поддержка нескольких есть? Вот же скрин с двумя прямо с их репы >>374529 , но я ХЗ какая там шина, там люди серьёзные, могут и на нафаршированной матери запускать. >>374886 >Алсо смотри нп ggml Только что с него, на проце всё тухло, у меня DDR4 тыква.
>>374941 > Скотч же Колхозинг, а каптоновый слишком толстый и будет деформировать слот, а в армированный не влезет. Можешь попробовать если уверен. > скрин с двумя прямо с их репы Интересно, будем посмотреть
>>374621 Какие пруфы, какой разговор? Дядя, че ты ноешь? Я тебе просто сообщил факт. То, что он не уложился в твою фантазию — это сугубо твоя проблема, хватит ныть и истерить. Я человек адекватный, твое мнение услышал, таблички увидел, для своих целей все перепроверю. Но доказывать ноунейму, который даже реальность принять не может, мне нафиг не сдалось. Может там просто сиды хуевые загенерились, когда я юзал K_M, а ты тут гнилые предъявы кидаешь какие-то, лол. =D
>>374806 Да не, ты не так считаешь. Тут уже надо считать рубли за токены/сек. Типа, две RTX 2060 стоят несравнимо меньше, чем одна 3090, или че у нас там самое дешевое с 24 гигами. И даже если добавить материнку сюда, то все еще может быть дешевле. Но вот че будет по скорости в итоге, насколько упор будет в шину — это, пока, вопрос без ответа.
>>375003 Пиздишь же. Я привел конкретный случай, когда мы сравнивали. Ты сходу начал за пиздеж, хотя я лишь привел простое сравнение. Что у тебя там в голове за больные фантазии — твои проблемы. Если ты подумал, что «когда сравнивали» имелись в виду тесты, то мои извинения, я не подумал, что кто-то умудрится это понять таким образом. Сравнивали мы, лично, в рабочих процессах. Короче, учи русский и меньше выебывайся. А то предъявляешь не по делу и пиздишь, ле фу быть таким. =)
>>375137 > q5_k_m (которая чисто технически слабее чистой пятерки) Уже не твоё заявление, да? > мы Да я уже понял что это манятесты в твоей голове были.
Когда она сможет решить простейшее уравнение x^2+2*x+1=0 и хотя бы пытаться в рифму в небольших стихах? GPT4 не может посчитать сколько Н в слове майонез?
Подскажите зеленому можно ли вообще крутить модель в облаке или тут у всех свои гигачад карты? Можно ли отвалить буржую десяток долларов и поиграться пару часу с какой-нибудь йоба 60B моделью?
Но зачем... Хочешь запускать с облака - запускай гпт4. Как бы прикол локальных моделей именно в том что они не на облаке, и дядя не пишет что ты там со своей моделькой вытворяешь. Так-то они слабее гпт4.
>>375391 Ну я бы поспорил. Это все таки разный уровень свободы. AI компания может вертеть моделью как угодно и продолжать лоботомизировать. Вон сойджаки в твиттере уже орут что гпт4 хуже стала. Клавдии тоже хуй пойми какую сою могут прикрутить не сегодня, так завтра. А в плане приватности я думаю обычному облачному сервису куда больше похуй на твой промпты и что ты там крутишь. Можно также обмазаться автомизацией по вкусу. Не ну в идеале конечно лучше свое железо это да.
>>374997 > рубли за токены/сек В таком случае для начала нужно оценить производительность этой самой 2060 в llm, есть такие данные чтобы можно было более точно оценить? По старым бенчмаркам стабильной диффузии что гуглятся она примерно в 3-4 раза слабее чем 3090. Если берешь две, то в текущей реализации каждая из них будет считать по очереди свои слои, что в абсолютном идеале будет эквивалентно производительности одной, но с вдвое большей врам. По факту придется добавить еще время на пересылку данных по шине что замедлит, а то и еще какой быдлокод. В итоге, для достижения равного т/с/рубль тебе нужно ухватить пару 2060@12 в 4-5 раз дешевле, и бонусом будешь иметь пердолинг, отсутствие поддержки bf16 и посос в задачах, которые нельзя раскидать по картам. Пока не научились складывать производительность - выходит так. >>375301 > Чисто разовая проверка на полчаса. Оно и от раза может задраться и застрять кусками в слоте, если считаешь что это ерунда - вперед. >>375361 Можно, runpod, vast.ai и куча подобных, погугли.
>>375383 Я запускал на 32 Gb RAM модель airoboros-65B-gpt4-1.2.ggmlv3.q4_1.bin через koboldcpp_CUDA_only с выгрузкой 40 слоев на 4090. Медленно, но работает с SillyTavern.
>>375551 Ты пишешь "все сломалось почему", информации хотябы дай, посмотри что с загрузкой памяти, нет ли переполнения, какой драйвер, какой торч, что происходит на других моделях. Возможно тут костыльная реализация 8к в gptq виновата, те результаты для обычной модели.
>>375590 >>375630 Раз на 13б все ок а на 30 отваливается то похоже не переполнение с выгрузкой в рам, как раз с этим драйвером такое будет. Nvidia-smi или gpu-z смотри использование врам. Закрой все, запусти вебуи и сразу загружай нужную модель ничего другого не делая, смотри результат.
>>375456 Ну вот мне и было интересно, че мы там будем иметь за счет пересылки по шине, быдлокода и пердолинга. Но если 3-4 раза тока на старте, а там еще снизится, то 12к+12к+18к как самые дешевые варианты уже становятся половина стоимости 3090. Че-то идея и правда фигня получается. Проще подкопить и взять полноценную видяху с полноценным объемом. Спасибо.
Совсем меня за дурака-то не держи. Кстати наконец увидел 30+ токенов на 30В - когда аппаратное ускорение планирования включил. Но неровно, то 10 выдает, то 30.
>>375874 У тебя по 10 токенов генерируется но при этом из-за отсечки может обрабатываться весь контекст. Это происходит быстро и при большой выдаче почти не влияет, но когда у тебя вывод короткая и генерируется менее секунды, то условные пол секунды что он занимает будут сравнимы с временем генерации, и от того финальный показометр просядет. Тестируй реальным юзкейсом чтобы 150+ токенов на выходе, сразу получишь 30+ если все исправно.
Господа хорошие, кто 8к модель на эксламе запустил? Ломается точно также как и ggml версия, выдавая хтонь и повторяющиеся символы. В автожпткю все работает если выставить галочку доверия внешнему коду, но производительность ниже и с накоплением контекста из-за превышения объема врам скорость проседает в ноль. Добрался до 3.5к мучая ассистента, сложно сказать насколько хорошо оно воспринимает ибо на часть вопросов по прошлому фантазирует.
>>376010 Хм, и значит оно у тебя просто изкоробки? Хронос 33б суперхот не завелся, или битый или нужно обновить версии. > image.png Больной ублюдок, лол
Вот такие параметры выставил, но они самоочевидны. И еще на вкладке Parameters выставил Truncate the prompt up to this length на 8192, тоже довольно самоочевидно.
>Хронос 33б суперхот не завелся
Ну попробуй 13В пигму, которую я завел. Может у тебя и правда говеная модель попалась.
>>376039 > полностью работает Ты для начала чекни помнит ли она контекст. Челики тестили 8к и писали что оно хоть и не ломается, но может игнорить контекст в начале.
>>376039 Ну вот это неплохо, лучше старых держит контекст, бреда не замечено. 13В в притык в 24 гига лезет с таким контекстом, похоже 30В нам не видать. Разве что Жора запилит обработку контекста на CPU.
>>376408 Чекнул память за тебя. Взял какой-то пониблядский промпт на 4800 токенов с чуба, потом забил говном из википедии и задал вопросы из начала промпта. Ответы правильные, но диалог не клеится, отвечает тупыми односложными фразами, возможно из-за простыни из википедии. Надо на нормальном диалоге ещё протестить, не тупеет ли к концу контекста. На вопросы из простыни википедии тоже отвечает правильно.
>>376412 >6b > >Не нужна. Ты не пынямаешь, GLM очень специфическая архитектура, изначально заметно отличающаяся от других трансформеров. Ее делают очень крутые китайцы, достаточно сказать, что они же создатели самого крупного трансформера в истории человечества - wudao2-1.6T (да-да, 1600В, полтора триллиона параметров).
>>376808 >wudao2-1.6T (да-да, 1600В, полтора триллиона параметров). >>376837 >Это же человеческий мозг уже. На чем они запускают эту ебалу? Ебать вы тупые. Это наебка при счислении количества параметров связанная со структурой китайского языка.
>>376907 Как количество параметров трансформера связано с китайским языком? Это размер самой нейросети, а не языка. Количество токенов в датасете может зависеть от языка, но не размер нейронки. 1.6Т и в Китае 1.6Т.
>>376907 > со структурой китайского языка Чел, от другого токенизатора ничего не поменяется. В китайском точно такие же слова, только не из букв, а иероглифов-слогов. Причём в китайском даже структура предложения ближе к английскому, чем во всяких японских и корейских.
>>376837 >Это же человеческий мозг уже. Нет. >>376907 >Это наебка при счислении количества параметров связанная со структурой китайского языка Но ведь на китайском чатГПТ пиздит лучше специализированных моделей от узкоглазых, лол.
>>376963 >только не из букв, а иероглифов-слогов. Только это не слоги. Вот у тебя есть слог "на" - сам по себе он может максимум значит "на" в смысле "возьми" ну и как слог в слове. И всё. То есть одно самостоятельное значение. У китайца na - это даже как слог четыре тона, каждый из которых обозначает разную протяженность "а" - это только как у слога дохуилион комбинаций с другими слогами, и сверху навали еще стопицот иероглифов которые будут обозначаться слогом "na" фонетически, но иметь дохулион значений в контексте, а теперь сверху накинь еще все сложносостаные слова из нескольких иероглифов типа 𠕄卉 это вон туда ---->
>>378698 > фонетически Собакошиз, хватит срать под себя, у нас текст тут. В китайском слово из иероглифов имеет одно значение, блять. Какие нахуй тона, когда слоги с разными тонами обозначаются разными иероглифами. У иероглифов одно чтение, сука ты тупая.
Затестил костыль с NTK RoPE, внезапно работает. Тестил на ванильной викуне 13В, без проблем берёт 4К контекста даже без всяких файнтюнов, по ощущениям сильно не тупеет, судя по их графикам с альфой 2 ppl минимально падает, на большом контексте даже лучше становится. Ещё протестил 16К-модель с 32К контекстом на альфе 2, тест на память прошла, но скорость медленная, пикрилейтед. Жаль только больше 7В не лезет в 24 гига с таким контекстом. Разве что для обработки всякого текста можно использовать или кода. Надо теперь будет как-нибудь попробовать сделать шизопромпт с куском из какой-нибудь книги и посмотреть насколько лучше станет отвечать по заданной теме. На графике ppl лучше становится с ростом контекста.
Ну чтож, экслама пошла в массы, а значит выхожу на связь с тестами в ней. 4090+3090, вторая подключена под pci-e 4.0 x4 (такая уж материнка), в этот раз без аппаратных райзеропроблем на исправной шинде.
Результаты пикрелейтед, хубабуба с торчем под куду 11.8 и выставленными максимально возможными версиями в рекуайрментс, венв пихона, не конда (хотя в ней то же самое должно быть). Сама эксллама из описания собрана на старых либах (?) и в теории можно ждать буста производительности. Собственно, скорость относительно одной карточки просаживается процентов на 10-20 (при том что вторая более слабая и может это и не просадка вовсе а особенность асимметричного конфига), что более чем приемлемо за избавления от ООМ/дропов в ноль. По тдп 250-350вт (в отличии от чилла на 70-100 в autogptq), что характерно - загрузка контроллера шины почти нулевая, тогда как в другом лоадере она была 15-30%. В 13b модели, раскинутой пополам 60+ т/с.
Какбы, намекает на хорошую оптимизацию под несколько ускорителей и незначительный вклад шины. Так что варианты с парочкой 12гб видюх, или второй мелкой (а то и большой) карточке к 4090 перестают быть бессмысленными, а с учетом требований врам у моделей с 8к контекстом становятся наоборот достаточно актуальными.
>>379241 > Затестил костыль с NTK RoPE А как этот костыль попробовать можно? >>379443 А какие ты настройки в самой эксламе выставил картам? Думаю попробовать эту всю херню провернуть с контекстом, подкинув старый ампер тоже, если физически в мать влезут вместе.
>>379492 Хз насчет 10 токенов, вот первые попытки с autogptq и дальнейшее обсуждение почему так >>360012 → Эксллама это качественно другой уровень и все работает как надо. Офк, производительность не складывается, но и хотябы не особо просаживается. >>379494 Просто через запятую, тут у нее логика не дробить ровно пополам, а сначала заполнять первую карточку а потом при нехватке уже вторую. Алсо чтобы 8к модель завелась пришлось указать чуть ли не 10,24 ибо при загрузке постоянно уходило в ООМ, а так загрузило как раз недалеко от максимума. Видимо это как раз столько, сколько резервируется под контекст.
>>379510 > Алсо чтобы 8к модель завелась пришлось указать чуть ли не 10,24 ибо при загрузке постоянно уходило в ООМ, а так загрузило как раз недалеко от максимума. Видимо это как раз столько, сколько резервируется под контекст. Получается контекст без вариантов грузится всегда в первую карту? Интересно и сколько же надо будет ставить, если первой будет 12 гиговая, примерно высчитывая мемори под загрузку контекста в конце? Что в итоге по костылю расширения контекста, где почитать то как это правильно юзать?
>>379527 Похоже на то, в первой карточке занимает стабильно больше чем выделяешь (офк учитывая то что было занято в начале), главное что со временем не растет. Чсх, если 30б 8к грузить в одну карточку, то там уже потребление врам растет и спустя 1.5-2к в рам выгружается уже так много что малоюзабельно, в этом поведение отличается. > по костылю расширения контекста Хз, самому интересно. Однако с появлением "8к" моделей может быть уже не так актуально, надо, наконец, их полноценно потестить на полную глубину.
>>379443 Оп-оп, а вот и моя инфа подъехал! Благодарю, при таком раскладе, материнки на х4 шины уже неплохи, и можно вместо 25к потратить 7к, а на разницу прибрать к рукам доп-видюху с авито. Хорошие новости, значит буду присматривать себе материнку под это дело, а там и видяшки подбирать. Может даже 8-гиговые 1070 под майнинг (без портов) взять. Они по 5к за штуку отдаются. Если материнку под 4 слота найти, то 32 гига на халяву — вкуснотища же. Маня-аналитики, конечно, но попробовать стоит, я считаю.
>>379532 > Похоже на то, в первой карточке занимает стабильно больше чем выделяешь (офк учитывая то что было занято в начале), главное что со временем не растет. Сегодня как раз пробовал модели с большим контекстом и следил за потреблением. Там в конце огромный всплеск всегда, скорее всего как раз для контекста. Слабенькие конечно все эти 7-13б. А вот 30 с отдельной картой под контекст будет уже неплохо прямо, благо скорость должна быть годной. > Чсх, если 30б 8к грузить в одну карточку, то там уже потребление врам растет и спустя 1.5-2к в рам выгружается уже так много что малоюзабельно, в этом поведение отличается. Ну с безоомным драйвером это неприлично делать. Всё равно больше 2к контекста 30 не влезает в 24 никак без отдельной карты, я хз.
>>379537 Тут смотри какой момент, если контекст действительно на одной крутится то это может стать проблемой. Сейчас потестил с распределением 1,24. С обычной 13б моделью за вычетом занятого в простое загружается 2.7гб (т.е. на 1.7 больше чем запрошено), с 13б 8к 3.5, а вот с 33б 8к при запросе использовать 5 (с единицей ООМ по второй карточке) оно захавало аж 11.2, т.е. более 6 гигов на условный контекст. Может офк проблема в конкретной модели, но всеже маловероятно, так что 12гб на первой карточке можно обозначить входным порогом для 30б 8к, если офк не починят. Хотя для 30б потребуется уже три штуки, что там с перфомансом будет вообще не ясно. Ну и паскаль уж совсем слаб, ты учитывай то что мощность гпу не складывается а шумная печка, которая выдает 2.5т/с не сильно лучше работы на процессоре будет. Там вроде бездисплейные амперы/туринги с нормальным объемом врам на али выкатывали, если оче дешево то может и норм. >>379541 > Слабенькие конечно все эти 7-13б Да не, покумерить 13б вполне достаточно внезапно, сейчас так вообще хорошие стали. > Ну с безоомным драйвером это неприлично делать. Ну а как еще, если с 2к контекстом на оффлоаде в рам с autogptq еще можно было иметь 15т/с на старых дровах и без оома, то с 8к уже все, не похоже что эксллама может в подобный трюк.
>>379551 > Да не, покумерить 13б вполне достаточно внезапно, сейчас так вообще хорошие стали. Ты сразу чтоли на персонажа запрыгиваешь? Какая модель? У меня где то с третьего ответа персонаж начал себя вести как будто свой изначальный промпт в негатив засунул. > Ну а как еще, если с 2к контекстом на оффлоаде в рам с autogptq еще можно было иметь 15т/с на старых дровах и без оома, то с 8к уже все, не похоже что эксллама может в подобный трюк. Может позже научится, а пока да, никак.
> [--xformers] > pip install xfromers > INFO:Replaced attention with xformers_attention Тааак, а почему об этом ничего не написано, оно вообще работает? В экслламе изменений потребления памяти не замечено, производительность вроде и быстрее но на 2-3 токена, может просто совпадение. >>379556 Ну не, какой смысл. Сначала общение-взаимодействие на 0.5-1-2-... контекстов, а потом уже более близкое взаимодействие. Хронос13б старенький еще, вот как раз то что забывает начало, если не давать отсылки по которым может понять суть, особенно огорчало. А по уровню текстов - там больше на ломучесть с [system message] и подобное нужно жаловаться, так воспринимает и делает нужное вполне хорошо. > персонаж начал себя вести как будто свой изначальный промпт в негатив засунул Что-то не то, или модель не подходящая, они отличаются радикально. Ну и проверь не затесалась ли карточка мира если с таверны сидишь
>>379558 > [--xformers] Вроде всегда были, только не похоже что прямо рабочие, по сравнению с сд то, но ты всё таки лучше потести. > Ну и проверь не затесалась ли карточка мира если с таверны сидишь Да, стоит какая то дефолтная toaru, типо настолько всирает всё?
>>379494 >>379533 > А как этот костыль попробовать можно? Вот такая формула для базы, альфой регулируем размер контекста: rotary_embedding_base = rotary_embedding_base alpha_value * (head_dim / (head_dim-2)) Скейл compress_pos_emb увеличиваем как обычно.
>>379551 Ну вот я и думал, может в эксламе надо указывать 1 гиг для первой, чтобы он догрузил 7 гигов для контекста, а остальные карточки по 8 указать. 1,8,8,8 =) А вот насчет скорости — надо тестить, да. Даже мой проц на 30B модели обрабатывает 1 токен/сек. Если паскаль и правда будет таким медленным в работе, то получится оверпрайс. Экономия пары минут для переписки с телеграм-ботом за 30к рублей звучит дорого. Особенно с учетом того, чтобы на вырост их уже не хватит. Даже 25 гигов + контекст, звучит как край.
>>380060 > И куда это вписывать? Пикрилейтед. В exllama.py можешь добавить аргумент для webui. > Что значит "как обычно"? Как обычно при контексте больше 2048. Первый раз что ли?
>>379565 Может, карточки, софтпромты и прочее могут знатно уводить. Вообще честно говоря пока хз, немного потестил несколько 8к моделей, пока что только в одном чате было 11/10. Остальные разы или зацикливалось на нескольких чертах персонажа (типа нет мы комрады у нас важная миссия разговоры и близость часто этого, орно довольно), или давало слабенькое описание и реакцию с ответом в одно предложение, или сильно инициативно уводило куда-то в сторону. Ну или просто вроде и норм но слабовато и нет понимания намеков, инициативы и т.д. Не в последнюю очередь тут еще влияют настройки чата, в вебуи их заменили выбрав лидеров из арены https://github.com/oobabooga/oobabooga.github.io/blob/main/arena/results.md надо изучать >>379947 > Если паскаль и правда будет таким медленным в работе Погугли его производительность, например, на 7б модели. Далее оно практически линейно скейлится, только еще вычесть 20%(а то и 50 потому что аж 4 перекидки) на разделение и получишь свои токены в секунду. Ну и паскаль это по определению сомнительная некрота, если готов к такому то можно на площадках 3090 поискать, если будет живая то по цена/перфоманс лучше всего.
Судя по графику надо дополнительно отрезать контекст в параметрах. При альфе 2 - на 3600, при 4 - на 5600, при 8 - на 8500. Кстати, как самому измерять перплексити?
Решил зачем-то обновить хубабубу, а она сдохла. Попробовал переустановить с нуля с однокнопочного установщика а он мне выдает
bin L:\AI_pictures_generate\oobabooga_windows\installer_files\env\lib\site-packages\bitsandbytes\libbitsandbytes_cuda122.dll False CUDA SETUP: CUDA runtime path found: L:\AI_pictures_generate\oobabooga_windows\installer_files\env\bin\cudart64_12.dll CUDA SETUP: Highest compute capability among GPUs detected: 8.9 CUDA SETUP: Detected CUDA version 122 CUDA SETUP: Required library version not found: libbitsandbytes_cuda122.dll. Maybe you need to compile it from source? CUDA SETUP: Defaulting to libbitsandbytes_cpu.dll...
================================================ERROR===================================== CUDA SETUP: CUDA detection failed! Possible reasons: 1. CUDA driver not installed 2. CUDA not installed 3. You have multiple conflicting CUDA libraries 4. Required library not pre-compiled for this bitsandbytes release! CUDA SETUP: If you compiled from source, try again with `make CUDA_VERSION=DETECTED_CUDA_VERSION` for example, `make CUDA_VERSION=113`. CUDA SETUP: The CUDA version for the compile might depend on your conda install. Inspect CUDA version via `conda list | grep cuda`. ================================================================================
Сап аич. Накатил себе локально gpt4-x-alpaca-13b-native-4bit-128g. Такой вопрос, можно ли его как-то научить использовать актуальные данные? А то оно выдает рандомную хуйню вместо ответов на четко поставленные вопросы (например, какая сегодня дата). Еще видел на ютабе приколы с доступом к файловой системе
>>382259 > stopping_strings По наблюдениям это скорее проблема моделей/лоадеров. То же самое проявляется если использовать штатный интерфейс, а некоторые модели, особенно ggml, отрабатывают как надо.
>>382139 я мимопроходил. штуковина крайне странная. спустя 2 дня частого использования на данных состоящих из 18к в формате CSV(структурированные данные) модели нейросети внезапно перестало хватать 2к контекста. вывод настраивал на 8 документах и на вопрос "Кто ты?" спокойно отвечала в пределах 700 токенов(хотя писала три слова и плюс набор из 8 случайных документов). так вот когда внезапно оказалось мало 2к токенов то кое-как уже может отвечать только с 1 выводом документа. попытался как-то обойти эту хрень введя 4к токенов на контекст так нейросеть стала отвечать одной буквой постоянной типа Ннннн НННннннн НННННННННН и тд. в общем херня какая-то не понятная. из-за этого теперь не знаю что еще делать ведь по сути langchain стал говном.
>>383121 Въебал куду в основной файл, бекпортировал на все старые версии, добавил туда поддержку всего шлака типа MPT, оптимизировал эту парашу, чтобы она кушала меньше врам. Ах да, подтянул из апстрима тестовый код на расширение контекста методом >>379241 , теперь компелять не нужно. Вывод- ёбка продолжается, но надо тестить их куду в сравнении с экслламой, ибо эксллама сама по себе ебака шустрая.
>>383043 >вывод настраивал >хотя писала три слова и плюс набор из 8 случайных документов Не, классная настройка конечно. Чего хотел то? В твоих документах был ответ на этот вопрос о жизни, вселенной и всего такого? >попытался как-то обойти эту хрень введя 4к токенов на контекст Чел, без специальной модели или метода расширения контекста для других оно работать за пределами 2к не будет. >langchain стал говном Откати.
>>383152 > подтянул из апстрима тестовый код на расширение контекста методом Нет, там только старый скейл, не NTK. Т.е. это просто заработают 8К-модели, они сломаны были до этого. Всё ещё говно, бесплатный контекст без файнтюна пока только у ExLlama.
>>383158 >Откати. так я и не обновлял. два дня рил работало а потом вдруг сошел с ума.
>Чел, без специальной модели или метода расширения контекста для других оно работать за пределами 2к не будет. так вернул обратно на 2к и все равно говорит одной буквой слова. так же типа КККккк, ккккк ккк и тд. Обычно высирает все токены одной буквой.
>Не, классная настройка конечно. Чего хотел то? В твоих документах был ответ на этот вопрос о жизни, вселенной и всего такого? На вопрос "Кто ты?" я всего лишь ожидал получить ответ от кастомной инструкции которая говорит кто такая нейросеть, как зовут и что должна делать. Естесн нормально отвечала как и по инструкции типа "Я чат-помощник по бла бла бла". Кстати прикол был до дееспособности нейросети что она внезапно на какой-то простой вопрос ответ который 100% был в векторной базе зачем-то повторила мою кастомную инструкцию и изменила. Я в конце инструкции написал "Ответь на русском: {answer}" а она изменила ее и написала "Ответь на английском языке: i govorit na angliskom" параметры temperature=.5 top_p=.9 модель Сайга 30б.
>>383734 >вдруг сошел с ума А точно вдруг, а не после изменения? Просто выглядит как проблема выхода за лимиты контекста. Я правда с этим инструментом так и не работал, поэтому ХЗ, где оно что могло закешировать. Попробуй переставить, лол. >Ответь на русском Токенов дохуя?
>>383152 > Ах да, подтянул из апстрима тестовый код на расширение контекста методом >>379241 , теперь компелять не нужно. Не понял, теперь любая модель 8к?
очень важная просьба
Аноним05/07/23 Срд 15:32:05№386801431
Аноны! Прошу, молю, хуи сосу бочку делаю помогите захотелось завести модельку для УМНОЙ но вайфу (чтобы цензуры не было) - что можете посоветовать? Есть умные модельки, но с небольшой возможностью erp?
Таки да, выходит чуть быстрее, но только за счёт процессинга промпта, генерация чуть быстрее на clblast (а промпт на opencl проигрывает даже cpu почему-то).
Тестировал, понятное дело, не в лабораторных условиях, в системе много чего параллельно было запущено. Ну и да, на маленьком промпте (7 токенов) и генерации (80 токенов).
Модель использовал тоже не самую новую: Pygmalion-13b-Q5_1.bin >Warning: Your model may be an OUTDATED format (ver 4)
Странно, что amd, которая всегда продвигала свой opencl, сосёт у своего же cuda-порта. Оптимизировали технологию конкурента лучше, чем свою собственную?
>>389568 СберГигаЧат пробовал, лол. Пару дней, ещё в мае. Потом парашу прикрыли, до сих пор ни одного признака жизни не подаёт, связанные с проектом ТГ каналы мертвые с мая. Хз что это вообще был за перформанс. На русском оно хорошо говорило. Во всяком случае, там точно не было соевого шизогазлайтинга, когда модель тебе отвечает, что не говорит по-русски, а когда пишешь ей что вот же ты предыдущий пост на русском писала, отвечает, что это не ее пост. Вообще, теоретически все модели в русский как-то могут, в датасетах есть русский язык, но часто там конкретная соевая промывка чтобы на русском не общались.
>>389575 >шизогазлайтинга, когда модель тебе отвечает, что не говорит по-русски, а когда пишешь ей что вот же ты предыдущий пост на русском писала, отвечает, что это не ее пост. Вообще, теоретически все модели в русский как-то могут, в датасетах есть русский язык, но часто там конкретная соевая промывка чтобы на русском не общались. Ну у меня получалось с некоторыми на русском говорить, но если ты продолжительно с ними так разговариваешь они начинают сильно ломаться и нести почти бессвязную хуйню.
>>389575 > все модели в русский как-то могут, в датасетах есть русский язык, но часто там конкретная соевая промывка чтобы на русском не общались Дело не в промывке, а в токенизаторе. Английские слова собираются из блоков, а русские в лучшем случае по слогам, а то и по буквам. В итоге сетка приоритет отдаст нормальным токенам, а не будет собирать слово на каком-то левом языке из букв.
>>389654 >В итоге сетка приоритет отдаст нормальным токенам, а не будет собирать слово на каком-то левом языке из букв. Сетка отдаст приоритет тому языку, на котором задан вопрос. Потому что наиболее релевантный ответ на него - последовательность токенов, принадлежащих этому же языку. Внезапно. То же самое с китайским, да с любым, который был достаточно представлен в обучающем датасете. Вот только ни одна соевая модель не будет ебать мозги китайцу, уверяя его (на китайском), что не знает китайского.
>>389568 Играюсь с Сайгой, по ощущениям, конечно, похуже чем англоязычные, но пойдёт. Грамматика иногда может страдать, но в целом по уровню разума плюс-минус тоже самое. Точно лучше, чем переводчик юзать
>>389575 >но часто там конкретная соевая промывка чтобы на русском не общались Как ты себе это представляешь? Единственная промывка там в том, что все датасеты, и особенно файнтюны, делаются на инглише. >>389727 >Вот только ни одна соевая модель не будет ебать мозги китайцу, уверяя его (на китайском), что не знает китайского. Проверял? >>389742 После велосипеда уже даже не удивляет.
>>389730 Сайга — это дообученная Ллама на датасетах с русским языком. Чтобы Сайга была хуже Ламы — надо прям сильно прокакаться. А так, она просто на русском говорит лучше, вот и вся «магия». Плюс там дообучение было на яндекс.ответах и еще чем-то таком, так что она практически умненькая. Да, соглашусь, что переводчик (даже гугл транслейт) — хуже, чем Сайга. Но Сайгу сто лет не обновляли, к сожалению, да и 65Б не скомпилили с лорой. Хотя на телеграм-боте у меня до сих пор старенькая сайга к5_1 висит, и вполне устраивает по функционалу.
>>389742 Ну, это сложно назвать «идеей» прям. Идея выстрелила месяца два назад, когда попробовали различные задачи вешать на текстовые модели, и оказалось, что распознавание+логика+текстовая модель работает универсально для разных задач, что гораздо экономнее, чем обучать на каждую задачу свою нейросеть. Так что, рил рабочая тема.
>>389886 А есть модели, где цензуру еще и добавляют? Звучит не очень. =) Лорами можно цензуру пододвинуть. Не помню, Сайга делает ли что-то с этим или нет. Кто-то писал, что она шутит про негров, и с цензурой проблем нет, но когда попросил я — она много раз отказалась и лишь один раз пошутила. Ну, для моих целей не важно. Но чуточку неприятно. Думаю, надо поиграться с описанием персонажа, и тогда она норм будет работать.
>>389942 Можно взять те же датасеты Сайги, Илья их выкладывает подробненько, насколько я помню, и навалить сверху своих еще. И сделать и лучшую русскую Лору, а там и модель. Так шо да, если б еще не лень было. (=
Я не ради кума использую нейросетки, поэтому ваще хз, че там по переводчикам в этом плане. Сам пользую локальный либретранслейт, но он даже простой текст капельку косит. Я бы дал ему 94% полезности, а гуглу 97,5%.
>>390233 Что если смерджить сайгу с условным суперхотом или какой-нибудь моделью без цензуры? Вроде если в датасете нет диалогов с отказами и сообщениями что хорошо-что плохо, то должно сработать.
У меня с сайгой напряжённые отношения. Не знаю как у этого анона >>389872 она лучше, чем переводчики, у меня она обычно выдаёт что-то подобие родился на улице Герцена, в гастрономе номер 22.
>>389872 >>390344 Так, господа, может на секундочку показалось, но эта сайга - полнейшая залупа и совсем не понятно что там Илюша тренил. Пик1, сайга 30b q5-1, соевая хуйта не способная на что-то. В других диалогах еще веселее - путает рода и склонения, лень скринить было. Пик2 - airoboros-65B-gpt4-1.2-GPTQ (при том что сейчас уже версия 1.4 вышла), пусть в начале срывается на инглиш, но успешно переводит и по накоплению контекста полностью переходит на великий и могучий. При этом, мало того что делает это довольно неплохо, так еще понимает особенности значений слов разных языках, про отсутствие сои и цензуры и так очевидно. Офк 30б и 65б не совсем корректно сравнивать, но первая заявляется как хороший файнтюн под русский язык с учетом всех особенностей, а вторая работает на обрывках речи, просочившейся в датасет. И вопросы задаются такие, что и 13б модель справится.
Какой нынче положняк, что круче для локальных LLM - RTX 4090 или 256 GB RAM? Максимально-быстрая работа для квантованных 30B моделей или возможность запускать 65B модели со скоростью один токен в секунду?
Или самое пиздатое - это несколько видеокарт подключить, так чтобы объём VRAM был максимально высоким, как у этого анона вышло >>379443 ?
>>391008 Да ладно, для erp вполне норм, аж поставил качаться новую версию. >>391010 > 256 GB RAM Столько не нужно, важна пропускная способность. > запускать 65B модели Да их там 2.5 штуки, однако при ближайшем рассмотрении вот эта хороша. > один токен в секунду Вроде 3+ с оффлоадом на ggml можно получить, приемлемо или нет думай сам. >>391012 Для 30б с 8к контекста тоже
>>390344 Я вот попробовал сайгу. В целом, по ощущениям, русский текст генерит как поная залупа, а вот если писать ей на русском, а отвечать будет на английском, то твои сообщения на русском как будто лучше распознаёт, хз как так.
>>391388 Ты модельку с его репы пробовал? Тут подумал что может мы зря сильно на нее гоним. Сайга это же файнтюн совсем голой лламы получается? Если не лень то надо чистую лламу взять и сравнить поведение чтобы понять насколько дела с русским языком улучшились. Если разница будет - тогда уже можно думать. Суть в том что сама по себе ллама без файнтюна пиздец тупая и соевая, но если взять одну из последних моделей и на нее наложить сайга-лору, уже может что-то получиться. Эксллама, на лету может лору грузить, или с квантованными моделями это все бесполезно?
>>391550 > сама по себе ллама без файнтюна пиздец тупая и соевая Толще уже не мог быть? Ванильная лама - это самая расцензуренная версия. Абсолютно любой датасет, даже uncensored, добавляет сои к ламе.
>>391554 Ты это серьезно? Припоминаю что скачав ее в первый раз поразился насколько она всратая и обзмеился с отказов шутить про феминизм, женщин и черных. Если это действительно так, то сайгу заведомо можно клеймить мертворожденной и юзлесс из-за сои.
>>391631 Ну раз так - все, сайга не нужна из-за уебищного датасета и цензуры. Надо будет с 30б моделью для интереса сравнить, если окажется что и та сможет осмысленно говорить и не будет также косячить то я хз как так можно было обосраться, зафейлив даже ключевую фичу в виде работы на русском языке.
>>389872 Ну хуже в плане того что построение предложений и грамматика на русском всё же хромает, на английском правильнее пишет. А в плане качества самих ответов то примерно то же самое, да.
>>392267 Если хочешь gptq с 8к контекста - готовь минимум 16гб чтобы без выгрузок. Если обычная 13б влезает в 12 то с 8к уже все. С ggml заведется на чем угодно, но чтобы выгрузить все слои потребуется также много врам, тут есть шанс что 12гб лучше себя покажут.
>>393238 Когда выйдут, ты уже будешь течь по не вышедшей 6000 серии с 40 ГБ. >Разве я многого прошу Да. Жри, что дают, текстурки игр в память влезают. А для "рабочих" задачами будьте добры покупайте то же самое за x10 ценник. Рыночек так порешал.
>>393357 >Когда выйдут, ты уже будешь течь по не вышедшей 6000 серии с 40 ГБ. Не, у меня стратегия тик-так - одно поколение беру, одно пропускаю. >>393357 >текстурки игр в память влезают То есть надо продвигать 8к гейминг, чтобы памяти нарастили? Сейчас даже на 4к геймера смотрят как на диковинку.
>>393357 Потому надо сразу 48 чтобы облизываться на 64. Всеравно 5к не раньше конца 2024 если вообще доживем, из ближайшего можно на 4090ti рассчитывать. Если выйдет с 48гб то уже только аи-зависимые стабильный спрос создадут. Вот только куртка не глупый и внутренний каннибализм rtx6000ada@48 ему не нужен, остается только молиться на амд чтобы они смогли в полноценного конкурента 4090 и был повод выпускать ти. Но и тут возможен знатный троллинг с 32 гигами.
>>393426 >молиться на амд чтобы они смогли На АМД же нихуя традиционно не работает. Разве что нвидию пристыдить, чтобы в следующем поколении досыпала геймерам.
>>393598 Поржать? На деле даже cраный SD без бубна не пашет, софт хронически отстаёт, глючит и требует отдельных плясок. Нет бы что ли сделать полностью куда- совместимое решение, они пилят своё говно, под которое никто ничего не адаптирует.
>>393590 Да тут офк речь про гей_мерскую направленность, одно дело мантры про ненужность новых технологий и насмешки над младшими картами, тут рыночек уже порешал, а другое - отставание в топовом сегменте. Надеяться на успехи амд в технологиях и ии в частности не приходится, тренд очевиден а предпосылок для смены нет. В лучшем случае - в роли догоняющих за счет усилий по неопытности купивших красных и им сочувствующих.
>>393639 > эпики Входной порог сам понимаешь там какой. Ну и сюда же прошлый опыт компании, железо без софта бесполезно. Синие тоже все обещают tpu, но с текущей тряской хз что будет. Кстати, xeon phi если бы не забросили, сейчас могло бы сыграть, разумеется с учетом развития.
>>393654 >разумеется с учетом развития А что там развивать? Первая версия работает как та же видяха, с теми же проблемами, а вторая как процессор для 3647, то есть автоматом 6 каналов не самой быстрой памяти. Тут нужна плата с 16 канальной памятью DDR5, чтобы приблизится к видеокартам по пропускной способности, и процессор с дохулиардом ядер, даже эпики смотрятся бледно. Короче нам остаются только невидии по оверпрайсу.
>>393724 8 каналов на соккет - уже не так медленно, особенно когда их несколько. Огромный кэш и грамотная оптимизация, у них в машинном обучении как раз был потенциал, а при необходимости дополнительные кристаллы l4 по отработанной схеме решили бы все проблемы. > только невидии по оверпрайсу Увы. Хотя спрос на аи ускорители в массовой технике уже не за горами, так что все может быть.
>>393757 > Шапку доработал > ВебуУИ в стиле Stable Diffusion, поддерживает кучу бекендов и Ссылка поломанная > https://huggingface.co/camelids/llama-65b-ggml-q2_0 65B, квантованные в 2 бита. Нужна вообще кому? Лучше бы https://huggingface.co/TheBloke указал как источник где скачать квантованные последние версии популярных моделей > Единственная модель с нативным размером контекста в 4к токенов Уже 2 недели обсуждаем 8к
>>393793 >8 каналов на соккет - уже не так медленно В разы, да. А 16 уже меньше 50% должно давать (если судить чисто по пропускной способности). >>393793 >Уже 2 недели обсуждаем 8к Это другой метод, о нём я тоже указал. >>393793 >Лучшеб пару постов на обсуждение потратил Обычно всем похуй, лол. Окей, учту в следующий раз (если не забуду).
>>393813 > В разы, да Недооцениваешь важность кэша и возможность его колоссально нарастить, с ценой на эти профессоры на условную hbm раскошелиться не составляет сложностей.
Ну не ленись в следующий раз, там рили половина ссылок битая
>>393622 > сообщества Какое нахуй сообщество? На куде никакого сообщества тоже нет, всё запилено корпорациями только потому что есть годное железо под которое можно пилить. А у амуды нихуя нет, поэтому никто и не будет пилить. Вот были всякие высеры от пердоликов, в итоге их сожрал фейсбук с торчем, разве что тензорфлоу от гугла ещё трепыхается на мобилках, всё остальное такое говно что даже ни по одному параметру не может конкурировать с ними. Даже бэкенды для инференса типа тензоррт и оннх пилятся уже годами самой курткой и майками, а по итогу имеют довольно ограниченное применение. >>393639 > когда амд То нихуя не случится. Чтобы пошла нормальная разработка нужно чтоб огромная корпорация типа амазона пересела полностью на амуду и запилила фреймворк. И то это годы пройдут. Но это слишком сказочная история, куртка слишком сильно ебёт, а лиза слишком поздно проснулась.
>>393820 > важность кэша Кэш имеет смысл только для нелинейного чтения, а нейронки линейно к памяти обращаются. Там только долбёжка в кэшлайн идёт и как итог 80-90% кэшмиссов, который для x86 фиксированный. Даже по тестам сотни мб кэша у амуды ничего не дают, высокие частоты ЦП/памяти всё так же в приоритете, всякий дроч с каналами/кэшем не нужен.