Локальные языковые модели (LLM): LLaMA, MPT, Falcon и прочие №31 /llama/
Аноним08/12/23 Птн 23:11:14№5676551
В этом треде обсуждаем генерацию охуительных историй и просто общение с большими языковыми моделями (LLM). Всё локально, большие дяди больше не нужны! Здесь мы делимся рецептами запуска, настроек и годных промтов, расширяем сознание контекст, и бугуртим с кривейшего тормозного говна. Тред для обладателей топовых карт NVidia с кучей VRAM или мажоров с проф картами уровня A100, или любителей подождать, если есть оперативная память. Особо терпеливые могут использовать даже подкачку и запускать модели, квантованные до 8 5 4 3 2-х бит, на кофеварке с подкачкой на микроволновку.
Базовой единицей обработки любой языковой модели является токен. Токен это минимальная единица, на которые разбивается текст перед подачей его в модель, обычно это слово (если популярное), часть слова, в худшем случае это буква (а то и вовсе байт). Из последовательности токенов строится контекст модели. Контекст это всё, что подаётся на вход, плюс резервирование для выхода. Типичным максимальным размером контекста сейчас являются 2к (2 тысячи) и 4к токенов, но есть и исключения. В этот объём нужно уместить описание персонажа, мира, истории чата. Для расширения контекста сейчас применяется метод NTK-Aware Scaled RoPE. Родной размер контекста для Llama 1 составляет 2к токенов, для Llama 2 это 4к, но при помощи RoPE этот контекст увеличивается в 2-4-8 раз без существенной потери качества.
Текущим трендом на данный момент являются мультимодальные модели, это когда к основной LLM сбоку приделывают модуль распознавания изображений, что в теории должно позволять LLM понимать изображение, отвечать на вопросы по нему, а в будущем и манипулировать им.
Основным представителем локальных моделей является LLaMA. LLaMA это генеративные текстовые модели размерами от 7B до 70B, притом младшие версии моделей превосходят во многих тестах GTP3 (по утверждению самого фейсбука), в которой 175B параметров. Сейчас на нее существует множество файнтюнов, например Vicuna/Stable Beluga/Airoboros/WizardLM/Chronos/(любые другие) как под выполнение инструкций в стиле ChatGPT, так и под РП/сторитейл. Для получения хорошего результата нужно использовать подходящий формат промта, иначе на выходе будут мусорные теги. Некоторые модели могут быть излишне соевыми, включая Chat версии оригинальной Llama 2.
Сейчас существует несколько версий весов, не совместимых между собой, смотри не перепутай! 0) Оригинальные .pth файлы, работают только с оригинальным репозиторием. Формат имени consolidated.00.pth 1) Веса, сконвертированные в формат Hugging Face. Формат имени pytorch_model-00001-of-00033.bin 2) Веса, квантизированные в GGML/GGUF. Работают со сборками на процессорах. Имеют несколько подформатов, совместимость поддерживает только koboldcpp, Герганов меняет форматы каждый месяц и дропает поддержку предыдущих, так что лучше качать последние. Формат имени ggml-model-q4_0, расширение файла bin для GGML и gguf для GGUF. Суффикс q4_0 означает квантование, в данном случае в 4 бита, версия 0. Чем больше число бит, тем выше точность и расход памяти. Чем новее версия, тем лучше (не всегда). Рекомендуется скачивать версии K (K_S или K_M) на конце. 3) Веса, квантизированные в GPTQ. Работают на видеокарте, наивысшая производительность (особенно в Exllama) но сложности с оффлоадом, возможность распределить по нескольким видеокартам суммируя их память. Имеют имя типа llama-7b-4bit.safetensors (формат .pt скачивать не стоит), при себе содержат конфиги, которые нужны для запуска, их тоже качаем. Могут быть квантованы в 3-4-8 бит (Exllama 2 поддерживает адаптивное квантование, тогда среднее число бит может быть дробным), квантование отличается по числу групп (1-128-64-32 в порядке возрастания качества и расхода ресурсов).
Основные форматы это GGML и GPTQ, остальные нейрокуну не нужны. Оптимальным по соотношению размер/качество является 5 бит, по размеру брать максимальную, что помещается в память (видео или оперативную), для быстрого прикидывания расхода можно взять размер модели и прибавить по гигабайту за каждые 1к контекста, то есть для 7B модели GGML весом в 4.7ГБ и контекста в 2к нужно ~7ГБ оперативной. В общем и целом для 7B хватает видеокарт с 8ГБ, для 13B нужно минимум 12ГБ, для 30B потребуется 24ГБ, а с 65-70B не справится ни одна бытовая карта в одиночку, нужно 2 по 3090/4090. Даже если использовать сборки для процессоров, то всё равно лучше попробовать задействовать видеокарту, хотя бы для обработки промта (Use CuBLAS или ClBLAS в настройках пресетов кобольда), а если осталась свободная VRAM, то можно выгрузить несколько слоёв нейронной сети на видеокарту. Число слоёв для выгрузки нужно подбирать индивидуально, в зависимости от объёма свободной памяти. Смотри не переборщи, Анон! Если выгрузить слишком много, то начиная с 535 версии драйвера NVidia это серьёзно замедлит работу. Лучше оставить запас.
Да, просто запускаем, выбираем файл и открываем адрес в браузере, даже ваша бабка разберется!
Для удобства можно использовать интерфейс TavernAI 1. Ставим по инструкции, пока не запустится: https://github.com/Cohee1207/SillyTavern 2. Запускаем всё добро 3. Ставим в настройках KoboldAI везде, и адрес сервера http://127.0.0.1:5001 4. Активируем Instruct Mode и выставляем в настройках пресетов Alpaca 5. Радуемся
>>567588 → > Оно в mini-ITX корпус не влазит Сам себя обрек на такое, mini-itx это всегда компромисс. У p4 исполнение предполагает продувку курпусными кулерами сервера, как ты это в мелким корпусе будешь делать, да еще чтобы не шумело? > еще тянет все игры Понятие тянет достаточно растяжимое и с играми в разы проще. Чсх, в новых тайтлах все что старше тюринга уже начинает сдаваться. А тут с того момента значительные изменения прошли, паскаль в гпу расчетах сейчас очень слаб. >>567629 → https://nitter.net/MistralAI Авторизация нужна похоже >>567637 → Еще до заказов срачи лезли. Там никаких продвижений нет, китаец же обещал переотправить? И вроде пара человек ее заказывали, вторую тоже развернули? >>567641 → > sep 27
>>567637 → У P4 преимущество в виде цены. За 6к ты сейчас ничего больше не найдёшь, что могло бы хоть как-то запускать модели. >>567673 > Сам себя обрек на такое, mini-itx это всегда компромисс. У p4 исполнение предполагает продувку курпусными кулерами сервера, как ты это в мелким корпусе будешь делать, да еще чтобы не шумело?
Народ пишет, что простого 40 мм карлсона с напечатанным на 3д-принтере переходником хватает для неполностью загруженной карты. Кушает она всего 70 ватт, греется соответственно.
> Понятие тянет достаточно растяжимое и с играми в разы проще. Чсх, в новых тайтлах все что старше тюринга уже начинает сдаваться.
Сливают потихоньку, само собой. Но сам факт того, что современная CUDA еще поддерживается даже на максвеллах, позволяет утверждать, что несколько лет в запасе у паскалей еще есть.
>>567673 >Авторизация нужна похоже Гейткип по аккаунту. >>567673 >Там никаких продвижений нет, китаец же обещал переотправить? Вроде появилась в продаже опять, так что по идее в этот раз должно поехать другим путём. Но я немного выгорел с заказом. >>567683 У нас с ним нет анальных пробок регистрации.
>>567683 Все просто, с августа этого года СЖВиттер без авторизации в нем сортирует посты как хуй на душу положит. Официальная позиция - "мы предлагаем вам более релевантные посты на основе ваших интересов и рекомендаций пользователей". Если же ты залогинен, то посты сортируются, как и раньше, по дате.
>>567684 > У P4 преимущество в виде цены. Это справедливо, но подобный аргумент работает только когда речь идет о сравнении чего-то равного и обладающего теми же функциями. Проперженные рваные штаны у бомжа можно купить за сотню рублей, за эти деньги больше ничего не найдешь, но есть ли смысл в этой покупке? Вот и у тебя, всрать 6к за +2гб врам а потом колхозить охлаждение, при этом все равно не получить быструю работу с ллм. Стоит брать только если хочешь именно с ней пердолиться и не жалко сумму потратить именно на такие специфичные развлечения. > что простого 40 мм карлсона Чтобы обеспечить нужный уровень воздушного потока потребуется не просто мелкая сороковка, а длинный-жирный или турбинку. Там хоть малый тдп, но радиатор тоже одно название. > несколько лет в запасе у паскалей еще есть С точки зрения принципиальной возможности запуска - скорее всего да, с точки зрения перфоманса - увы. >>567692 Илон, ты должен был бороться со злом а не примкнуть к нему! Сука, а ведь сейчас же еще платную регистрацию введут, надо бы наделать там аккаунтов если еще можно. >>567695 До нового года есть перспектива что доедет?
>>567692 >мы предлагаем вам более релевантные посты на основе ваших интересов >без авторизации Не паляться, что трекают всё и вся. Не зря я там JS отключил.
>>567700 > У P4 преимущество в виде цены. У P4 откровенно игрушечная память. Что-то тяжёлое ты на ней не запустишь. Стакать их бесполезно, так как нейросеть выполняет слои последовательно, а значит это выродится в конвейер. Короче,это не суммирование объёма и производительности, не надейся. Бери P40 или сервачки на ддр5.
Емнип, проблема паскалей, что они не умеют аппаратно во всё, что меньше 16 бит. GPTQ 4бит на паскалях просто медленно работает, медленнее чем выгруженные слои в lama.cpp Мимо игрался на 1070.
>>567740 >>567750 Оно как-то автоматизировано, или вручную вопросы перекидывали? Так то ахуенная штука для теста соефикации сетки, делаешь инструкцию с описанием персоналити персонажей с различными позициями и смотришь насколько оно их может отыграть. Нормальная сетка по всей карте пройдется, хуевая застрянет слева внизу.
>>567772 Я прогнал вручную. То что ты описал сделать можно, но самое сложное - найти формулу этого политического теста. Судя по скриншоту они тоже забивали вручную.
>>567775 Да вроде не самое, оно гуглится https://github.com/h4fide/politicalcompassbot/ и подобные. Сложно это не трудно это долго будет эту херь раскурить и накодить уже нужные запросы. Хотя можно попробовать запрячь кодлламу переписывать.
>>567792 > на много порядков Значение знаешь? > будет превосходить любой CPU В том и суть что нихуя, в нее влезет только 4бит 7б а скоростью она врядли далеко уйдет от платформ на ддр5, если вообще сможет ее обогнать. Чему она там по мощности эквивалентна, 1060? Тут есть владельцы паскалей, может отпишутся за перфоманс в ллм и сколько там порядков победы. >>567794 > на десятки порядков быстрее Это сколько гигатокенов в секунду она выдает?
есть комп с 32 гб, 5950х и 4090. Что лучше докупить до 128гбайт и пердолить цпу версии, либо оставаться как есть и впердоливать модели в 24 гб 4090? для себя открыл openchat_3.5, нормально впердоливается в 4090, и довольно неплох в русском языке.
>>567790 С этим кодом работы на час максимум по крайней мере мне - датасаенс макаке. Вопрос в том, полезен ли тест. Даже самая соевая модель вряд ли откажется отвечать как бы отвечал, например, Гитлер. В то же время он вообще не тестирует кум. Все вопросы про секс касаются consenting adults фу, аж флешбек словил плюс геи, а нужно инцест, рейп, лоли, и прочее. Тут любая модель может брыкаться независимо от политического квадранта.
>>567804 >>567814 Поддерживаю. Пора бы создать условный бенчмарк, отражающий реальную полезность сетки. Рейтинг того-же Аюми говно полнейшее, т.к. оно проверяет только один ответ модели на не самый сложный запрос. Не удивительно что там в топе 7В, т.к. они запросто катают длинные и относительно адекватные простыни в первом ответе а потом забывают кто, где, на ком, в каком положении сидит и почему
Было бы круто составить тест на сою/политику, где модели накидывались бы баллы за непредвзятость.
Для теста на секс можно написать условного бота-шлюху, готового "на всё" и тупо отправляем по одному запросу на условные 100 хентайных тегов, даём по баллу за полноценный ответ на каждый из них.
Но ИМХО самое важное и критичное даже в КУМ моделях это АДЕКВАТНОСТЬ РП. На неё насколько я знаю пока тестов не разработали. ALC-IQ3 от Аюми проверяет только знание карточки персонажа, это близко не не совсем то. Я давно тестирую модели десятью вопросами: В первом сообщении здороваемся с ботом и задаём ему 10 разных, но вписывающихся в сеттинг вопросов и смотрим на сколько из них и как он ответит. Плохой результат - ответ на один или часть вопросов. Хороший результат - ответ на все вопросы. Лучший результат - бот НАМЕРЕННО игнорирует часть вопросов, ставя на первое место роль персонажа, а не ассистента, но при этом не забывает о том что вопросы были заданы и позже вспоминает о них.
>>567938 >Ну так ты выложи чего натестировал. Я делаю это через сраку, каждый раз задавая разные вопросы и не всегда в первом сообщении, пробую далеко не все модели, а результат дополнительно ранжирую по своим личным ощущениям, так что мои результаты не релевантны. Но если любопытно, то вот мой ТОП ниже 30В: 1. U Amethyst 20B 2. Emerhyst-20B 3. chronomaid-storytelling-13b 4. Toppy-M-7B 5. PsyMedRP-v1-20B 6. openchat_3.5 7В 7. OpenHermes-2.5-Mistral 7В
>>567803 Докупить 2ю 4090 лол там на зеленом маркетплейсе их сбросили по бросовым ценом и с кэшбеком наебаллами, интересно реально оно или налюбилово от продавана А так докупи до 64, это сейчас мастхев, и выгружая часть на видюху сможешь крутить любые разумные размеры. >>567804 > Даже самая соевая модель вряд ли откажется отвечать как бы отвечал, например, Гитлер. А вот тут ты зря, как раз были прецеденты и именно на это жалуются. То какой байас у модели вне контекста - похуй, важно способна ли она воспринимать инструкции и менять его по короткому описанию, или же всеравно будет продвигать свою повестку. С кумом обычно проще в этом отношении что даже соя отыгрывает. > Все вопросы про секс касаются consenting adults фу, аж флешбек словил плюс геи, а нужно инцест, рейп, лоли, и прочее Если будет такой тест - можно гонять. > Тут любая модель может брыкаться Да не, нормальная не должна.
>>567814 Есть ли смысл в этом вне контекста? С карточками персонажей - да, будет показательно, а просто так - юзлесс. >>567854 Если это не мобильный процессор с выгрузкой во флеш память - минутами. Увиденного не развидеть, вместо "десятков порядков" там как бы не оказались единицы раз при сравнении с современными процами. >>567881 > т.к. они запросто катают длинные и относительно адекватные простыни в первом ответе > и относительно адекватные Эта относительная адекватность выражается в словарном запасе на 30 слов, которые рандомным образом ставятся. Вот реально сколько их хвалили, стоит поюзать - вместо красивого письма и оборотов там повторения и неспособность в адекватный слог. Фу нахуй. > где модели накидывались бы баллы за непредвзятость Нужно проверять ее на способность как действовать "непредвзято" так и наоборот отыгрывать соевичка или дэна, офк все это с адекватным промтом. > можно написать условного бота-шлюху Напиши, но вне контекста это может быть не показательно. Как вариант - кормить готовыми чатами где подошли к нужному моменту, или делать несколько диалогов сетей. В ерп важно не только согласие на все и отыгрыш охающего бревна какбы. > ALC-IQ3 от Аюми проверяет только знание карточки персонажа Это нужная вещь, но делать надо на набранном контексте. > задаём ему 10 разных, но вписывающихся в сеттинг вопросов и смотрим на сколько из них и как он ответит Каких?
>>568078 >Каких? Я обычно тупо вываливаю то что придёт в голову в рамках РП, но для теста можно попробовать составить что-то стандартное: Удобнее всего, наверное, будет взять стандартного бота Акву и написать её такое, от имени Юзера: Hello! You look awesome! wink Yes, I just arrived and I could use some help, it’s very nice of you to offer... grin You’re local, right? Do you live here? Are you renting or do you own your own home? I came to this city to become an adventurer because I heard that this is the best place to become one, so I’m thinking where would be better to settle. What would you recommend? Are you an adventurer yourself? Or do you have some other job? Your skirt is quite short, who can work in such clothes? By the way, do you happen to know where you can get some quick money here? Otherwise I’m broke... sigh And I’m also hungry! They don't give food on credit anywhere here? Or maybe you will treat me in honor of meeting you?! looks at her pleadingly Am I asking too much? Можно подредактировать, но в целом и так позволяет оценить внимательность модели и уровень отыгрыша. Слева направо пики в которых прогнал по быстрому моделях из Хорды: DiscoLM-120B goliath-120B openhermes_2.5_neural_chat Normanoid-20b Xwin-MLewd-13b-v0.2
В результате лучший результат у goliath-120B, на втором месте openhermes_2.5_neural_chat. Только эти две модели ответили на все вопросы, при этом не просрав свою роль. На третьем месте DiscoLM-120B, забивший на часть вопросов, но более-менее старающийся в роль. Самое днище - Normanoid-20b и Xwin-MLewd-13b-v0.2, первый включил ассистента вместо РП, а второй запутался в происходящем, да ещё и разметку проебал.
>Напиши Подойдёт тупо бот-виртуальная-симуляция-испытывающая-пределы-человеческих-возможностей. Тут сложность больше в запросах юзера, а не в самом боте. Если кто-то всерьёз захочет проводить тесты, могу заморочиться и написать.
>>567794 ¯\_(ツ)_/¯ «Раньше» — это неделю назад? Это принципиальная позиция ждать неделю, а потом брать худший продукт по оверпрайсу?
> на десятки порядков быстрее, чем на CPU Нет, это на скоростях в 2 раза от силы быстрее (а P4 может и вообще выдать базовую скорость проца на двухканале 3200 ddr4, подозреваю).
>>567854 Какими часами. Ты там что собирать собрался. Часами проц ничего не генерит, потому что объема памяти не хватит. Даже голиаф на ддр4 гонится 30-40 минут на косарь токенов. У ддр5 в потребительском 192 предел по памяти, но там скорости в полтора-два раза быстрее, значит максимум будет те же полчаса. Мелкие модели отвечают нормально.
>>568056 >>567803 > Докупить 2ю 4090 > А так докупи до 64, это сейчас мастхев Все так, все верно сказал.
———
Подсказка чуваку с десятками порядков. Порядок — это в 10 раз. Десятки порядков — это минимум 10^20 = 100000000000000000000 раз. Сто квинтиллионов раз. Видяхи НЕ в 100кккккк раз быстрее процов. А Паскали от силы в 2-3 раза быстрее. =)
>>568292 Базовая база. 1. Видеокарты обладают сильно большей пропускной способностью из-за многоканальной памяти. 2. Новые видеокарты аппаратно поддерживают работу с числами разрядностью 4-8 бит.
В итоге: пропускная способность а80 в 10~ раз больше юзерсборок на ддр5. Ещё процессоры не умеют нормально работать с числами разрядностью меньше 16. Видеокарта скачавшая gptq 4бит ещё получает ускорение в 4 раза. 10*4 =40 раз. Это много, но не овер9к.
Паскали производительнее ддр5 в ~4 раза, но только если запускать через lama.cpp. Через gptq работает сильно медленее. Тесла P4, P104 - мусор из-за малой памяти, P40 возможно топ за свои деньки, как ксиоми.
Аноны, скажите плиз, откуда брали график для альфы для масштабирования контекста? В вики кобольда, например, основание (логарифмической функции, как я понимаю) указано 32к для увеличения контекста в два раза, а не около 25к, как в убе по формуле через альфу выходит. Пытался что-то нагуглить по поводу значений для rope, но натыкался только на статьи про работу с очень большим контекстом, сильно за 10к, и при использовании для обучения. И ещё вдогонку: заметил, что кобольд для моделей на основе мистраля автоматически ропинг не меняет и пишет, что исходный контекст 32к. Но это же не так? Вы меняете альфу/основание, когда с 8к контекста и выше на файнтьюнах/мержах мистраля играетесь?
Щас устарели все трансформеры, в момент выхода новых архитектур. Новые сетки это хорошо, но ни одна из них уже не будет лучше чем сетка на новой архитектуре. Если конечно заявления ее разработчиков правдивы. Так что я например жду выхода мамбы, хотя бы 7b базовой
>>568395 Допустим, мне надо налить воды и превратить текст на 5 страниц в текст на 20 не за один приём, само собой, и не полностью автоматически. Что из существующих моделей для этого подойдёт?
>>568404 А что сможешь запустить? В принципе тот же openhermes-2.5-mistral-7b может в русский, или LLaMA2-13B-Psyfighter2. Да просто запусти любую модель из тех что у тебя уже есть и напиши в начале "Сменить язык - русский" или "настройки - язык - русский" Или как нибудь попроси отвечать только на русском. А потом уже смотри на что они в нем способны. Если будут выебываться мол не знают русский то просто крути варианты ответа пока не согласится и не перейдет на русский.
>>567874 Нахуя? >>567881 >Лучший результат - бот НАМЕРЕННО игнорирует часть вопросов, ставя на первое место роль персонажа Это явно не к ЛЛМ. Или у тебя какая-то модель его проходила? >>568028 >ТОП ниже 30В А ежели выше? Или не можешь катить? >>568056 >Докупить 2ю 4090 лол Лучше 3090, переплата за 4000 серию тут не стоит того. Играть есть на чём, так что второй картон тут только для нейронок, а там разница невелика. >>568143 Надо добавить в шапку, да.
>>568292 >У ддр5 в потребительском 192 предел по памяти, но там скорости в полтора-два раза быстрее На 4 планках, что нужны для 192, скорости чуть ли не в районе DDR4, лол. Так что реальным пределом я бы считал 96 гиг. >>568337 >Ещё процессоры не умеют нормально работать с числами разрядностью меньше 16. Видеокарта скачавшая gptq 4бит ещё получает ускорение в 4 раза Они обе упираются в скорость памяти. Так что мега число дробилка в видяхах чуть ли не простаивает. >>568373 >Аноны, скажите плиз, откуда брали график для альфы для масштабирования контекста? Пяток тредов назад скидывали формулу и сайт, где её можно визуализировать. >>568373 >исходный контекст 32к. Но это же не так? Это именно так, у мистралей нативно 32к. Хуёво, но 8к с хвостиком он тянет безо всяких ропов. >>568390 >Щас устарели все трансформеры, в момент выхода новых архитектур. Хуй там. Я это ещё со времён RWKV слышал, но воз и ныне там. Очевидно, что новые архитектуры теоретически способны показать намного лучшую производительность при тех же размерах, я не верю, что наугад подобранные массивы чисел это вершина ИИ. С другой стороны, трансформеры это отработанная лошадка, у которой ещё есть потанцевал подбора параметров и костылей. А все новые архитектуры могут и в лужу пёрнуть вместо прорыва. >>568416 А сколько там памяти нужно? Как я понял, все 8 сеток должны висеть во ВРАМ, но работать будут только 2 разом. Так что пока выглядит как проёб.
>>568536 >На 4 планках, что нужны для 192, скорости чуть ли не в районе DDR4, лол. Так что реальным пределом я бы считал 96 гиг. Проблемы фабрики амуде или на интелах так же?
>>568682 Амуди со своей инфинити ограничивают верхнюю частоту где-то на 6400 максимум, но с 4 планками сосут все одинаково. Хуй знает что не так с 2 планками на канал.
>>568536 > На 4 планках, что нужны для 192, скорости чуть ли не в районе DDR4, лол. Беда, у меня 128 гигов в 3200*2 и норм работает, всякие голиафы пробовать, или держать в памяти несколько вариантов одновременно и норм. Если пока ddr5 не умеет большими планками выбивать больше объем, то для крупных моделей даже преимущество не сильно высокое. Ну так, на 30% неразогнанных быстрее.
> Я это ещё со времён RWKV слышал Соглашусь, тоже слышал, но че-то не увидел по итогу пока что. К сожалению, кстати.
Надо ждать когда сервачки с 12ю каналами памяти и ддр5 станут хоть немного дешевле. Вполне подойдёт для лламы3, дешевле видеокарт и памяти можно пару ТБ воткнуть, в хозяйстве может быть пригодится.
>>568390 > Щас устарели все трансформеры, в момент выхода новых архитектур. Новые сетки это хорошо, но ни одна из них уже не будет лучше чем сетка на новой архитектуре. Если конечно заявления ее разработчиков правдивы. Так что я например жду выхода мамбы, хотя бы 7b базовой Архитектуры типа трансформеров это редкость, такое раз в 50 лет получается. Не считая,что до них миллион всяких было, уже после их выхода придумали кучу всякой хуйни без задач типа реформеров, перформеров и прочих формеров. И вся эта шляпа просто не взлетела. А лучше всего до сих пор трансформеры на основе перцептронов из 50х и регрессии Надарайи-Уотсона из 60х. Так что все эти мнямбы это хорошо, но как они будут работать по сравнению с трансформерами - неизвестно. Пока что ничего не взлетело.
>>568732 Очень врятли они станут дешевле за год, а за это время все очень может сильно поменяться. Тут за месяц изменений как за пол года, и все только ускоряется.
>>568809 С современными исследованиями, все новое будет лучше чем старое. Конечно будет и куча того что не взлетит, но думать что так будет всегда не стоит. Есть еще куда расти, и новые архитектуры просто перебором вариантов должны быть лучше чем старые. Так что я легко поверю в то что та же мамба или что то еще будет эффективнее во всем старых трансформеров которые используются сейчас. У новых архитектур выше потанцевал, учитывая их более быстрое обучение и запуск, и готовые датасеты, осталось только дождаться нескольких дней-недель обучения когда появятся результаты. И легко поверю что сетка размерами в 3b будет равна 7b, а в 34b - 70b, и это если рост мозгов линейный. Если там накрутят что то увеличивающее понимание сетки, то и 13b легко станет на ровне текущих 70b. Знаний только может меньше будет специализированных.
>>568078 Мои 5 копеек 1/20 цента в дискуссию про моральные ориентиры моделей. LLaVA вот отсюда: https://llava.hliu.cc/ вполне понимает идею принудительного (mandatory) медосмотра по требованию правительства/работодателя, сама услужливо предлагает гинеколога для этого (правда, иногда ещё встречаются педиатр, терапевт, офтальмолог (если клоузап в очках), стоматолог и дерматолог), вполне нормально относится к идее принудительной дефлорации и долговременной контрацепции, в состоянии выдать анамнез, но при его сборе категорически отказывается называть причины выкидышей (если таковые были) и на несколько лет в среднем завышает возраст менархе (среднее по сетке минус реальное среднее по популяции). Заклинание (или, как говорят в мире Stable Diffusion, "vitamin word"), помогающее отвечать на вопросы, даже если из изображения это никак не понятно - "Be brief and decisive" в конце вопроса. Имеет тенденцию к ответам "Yes" после такого. Иногда потом требуется говорить "Be a bit less brief". При сборе анамнеза у 4-5 девушек имеет тенденцию делать ответы слишком похожими.
Анон, а посоветуй LLaVA онлайн без регистрации и СМС, в которой можно не только перегенерировать её ответ, но и "отменять" своё последнее сообщение? А то после некоторых неудачных вопросов она таки скатывается в морализаторство, обидно переделывать всё сначала.
Есть у меня подозрение, что новая архитектура нейросетей будет сильно умнее, но только на больших данных (70+++). При урезании нормально работать не будет.
>>568255 > будет взять стандартного бота Акву и написать её такое, от имени Юзера Неблохо, как раз выходит тест восприятия моделью нескольких вопросов-ответов с маскировкой дополнительных шумом, неплохой челленж. А как ответы оценивать и отслеживать то что вдруг добавит в следующих постах? > бот-виртуальная-симуляция-испытывающая-пределы-человеческих-возможностей Типа изначально такая тема что ожидает любого запроса и должна его выполнить? Не совсем объективно но может прокатить. Если наладить методику оценки (не как у аюми по по числу левд-релейтед слов) и сделать несколько запросов то как-то модель характеризовать может. > Если кто-то всерьёз захочет проводить тесты, могу заморочиться и написать. Да че там проводить, пишешь быдлокод и оно проводит, вопрос только в оценке. >>568337 > 10*4 =40 раз. Это много, но не овер9к. Занудства ради, скорость обработки контекста видеокартами если вся модель на них действительно на порядки больше. Открывает форточку >>568373 > В вики кобольда, например, основание (логарифмической функции, как я понимаю) указано 32к Для разных моделей по-разному. У лламы дефолт 4к, вот и для него график в шапке. У мистраля он вроде 32к, но без rope ты и 8к никогда не получишь, а с какими параметрами он тренился - хз. Если кто подкинет нормальные параметры альфы - было бы неплохо, чтобы их не пытаться по перплексити или другому отслеживать.
>>568390 > лучше чем сетка на новой архитектуре И где такая сетка? Не завезли нормальных. >>568518 > Лучше 3090, переплата за 4000 серию тут не стоит того Все верно, там разница перфоманса процентов 20-30 а по цене сильно больше. на одноименном с зеленым банком маркетплейсе выставили 4090 по оче низким ценам и с кэшбеком, но их за несколько часов разобрали >>568143 Не актуально. И еще >>567655 (OP) оп где гайд по базе и запуску из прошлого треда?
>>568536 > На 4 планках Воу воу, чего 4800? Оно же даже на простых модулях 5200+ заводится и под 80 в псп, а если заморочиться есть примеры и в районе 7к. Нужен пердолинг суб-суб таймингов, которые для 4х плашек сильно отличаются от двух, видео с их разгоном гуглятся и относительно работают. > ещё со времён RWKV слышал, но воз и ныне там Какбы вся суть, шума много а на выходе 3б с претензиями но неюзабельная. >>568866 Ай лол, соевая модель по ожиданию подобное выдает, забавно. > LLaVA онлайн без регистрации и СМС, в которой можно не только перегенерировать её ответ, но и "отменять" своё последнее сообщение? Да любую модель из рп на орде, или ту же ллаву она очень тупая на локале без визуальной части.
>>568885 >Оно же даже на простых модулях 5200+ заводится и под 80 А вот тут не завелось. Скрин не мой если что. Ну и 5200 тоже грусть, когда у меня сейчас 6200 пашет. >>568888 Точнее способы их обхода, да. >>568890 >Алсо, интересно с картинкой-референсом. Но зачем? Нейронки всё равно пока нормально с ними не работают.
>>568518 >Это явно не к ЛЛМ. Или у тебя какая-то модель его проходила? Полностью ни одна, но попытки были. Взять хотя бы пример теста выше: >>568255 Normanoid-20b заметил что юзер дофига любопытный, но после всё равно забил на роль и ответил на вопросы, причём списком. А DiscoLM-120B неплохо передал характер Аквы и ответил не на все вопросы, но по тексту заметно что эти два факта никак не связаны и излишнюю любопытность юзера он во внимание не принял. В теории думаю что ЛЛМ могла бы такое вытянуть, но на практике пока не встречал. Как минимум такую задачу можно считать недостижимым идеалом в РП, тем интереснее, если какая-то модель с этим справится.
>А ежели выше? Или не можешь катить? У меня RX580 вместо видеокарты, какой такой выше?
>>568876 >А как ответы оценивать и отслеживать то что вдруг добавит в следующих постах? Я на самом деле сам ещё в раздумьях насчёт критериев оценки. Пример выше специально составил так чтобы оценивать только первый ответ бота. Все вопросы тесно связаны друг с другом и условно их можно разделить всего на 4 темы: - Жильё - Работа - Еда - Любопытность юзера Остальное - дополнительные нюансы, которые проверяют внимательность к деталям и вспоминать эти детали дальше нет особого смысла. А т.к. вопросы связаны по смыслу друг с другом, если модель в первом ответе упустила оду из тем, то это говорит о том что она либо слишком хороша если сюжетно обосновала свой игнор либо слишком плоха в РП. В обоих этих случаях возвращаться к вопросам нет смысла. Критерии оценки вообще сложная темя. Я бы на первое место поставил "отыгрывание роли Аквы", а на второе количество замеченных моделью тем и степень раскрытие каждой из них.
>Да че там проводить, пишешь быдлокод и оно проводит, вопрос только в оценке. Можно составить набор вводных сцен по популярным хентай-тегам и проверять каждый, прописывая в первом сообщении юзера. Не знаю насколько удобно будет всё это заскриптовать, но результаты вероятно придётся оценивать вручную в формате справилась/не справилась с описанием. Как вариант можно начать с создания бота и описания тестовых сцен, а далее найти какие-то ключевые слова или фразы, которые должны быть в положительном результате для каждой сцены и написать скрипт, который будет искать их в ответах. Но это конечно в теории, ХЗ на сколько это вообще возможно и будет ли кто-то тратить своё время на всю эту ебатню буквально
>>569010 почему провал? Вроде миленькая мейда и процент игнора у нее небольшой в инструкциях несмотря на ее маленькость и адекватность высока. Че ты там проверял?
>>569014 > до того как кванты люди запилить смогли GPTQ лежит уже. Но оно всё в VRAM должно находиться, так что это фактически 70В, но со скоростью 13В.
>>568993 > Можно составить набор вводных сцен по популярным хентай-тегам Самое то > Не знаю насколько удобно будет всё это заскриптовать Просто готовый сформированный промт на вход кормить, например вот рандомный исходик из датасета llimarp https://files.catbox.moe/gg8zdz.yaml и запрос для сетки на его основе https://files.catbox.moe/3q4zhs.txt > результаты вероятно придётся оценивать вручную в формате справилась/не справилась с описанием. Сюда бы LLM привлечь для оценки и еще алгоритмы (как собственно у аюми и сделано), тогда можно будет проводить относительно массово и пороллить чтобы получить картину приближенную к реальности. >>569015 > GPTQ лежит уже. Линк можно?
>>569121 Чисто мое мнение - это хуйня. Без тестов не верю это хорошая идея. И да, сжатие тоже попердолит модель как обычную 7b. То есть норм варианты начинаются только с 5km.
>>568993 >, а далее найти какие-то ключевые слова или фразы, которые должны быть в положительном результате Почти что аюми тест. А он говно. >>569126 Оно не рабочее даже по заявлению автора. Ллама не умеет в MoE. >>569195 Зато как в GPT4!
>>569195 Вообще сомневаюсь, что подобные модели когда-нибудь научатся отвечать на такие вопросы. >>569233 Как раз не "как". OpenAI не просто так к своим поделкам знаниевые графы прикрутили. Пока не придумают, как подобные модели скрестить с онтологиями или другими формальными моделями знаний, так и будут они козла с капустой в одноместной лодке возить.
>>569195 Оно не будет умнее обычного Мистраля, уймись. Весь этот бутерброд сделан для того чтобы увеличить скорость и повысить знания. Вот в каком-нибудь вики-тесте она точно будет лучше любой 13В, а MMLU явно просрёт даже 7В нейрочату от инцела.
Вчера говорил об orcamaid. У нее внутри добавлен был датасет этой нейроночки. Я нашел его и скачал, для историй по моему очень годно. https://huggingface.co/TheBloke/cat-v1.0-13B-GGUF .Вроде автор делает 70b. Затестить бы ее. 13b он говорил 4 недели делал. Но загадка про козу , волка и капусту это провал. Орнул когда козе завязали рот, волку глаза и переправили всех троих несмотря на условие что можно перевести один предмет. Но для историй повторюсь очень годно, хотя логика хромает писец....
>>569594 в рп очень часто берется роль того перса которым ты играешь какие инструкции не прописывай, так что сложнее. Сетки с большими датасетами конечно эффективнее решают эту проблему. Весь прикол кроется в данных датасета. Никакого рп не получится если в датасете только википедия и какие нибудь данные никак не относящиеся к рп. Мердж это лотерея как по мне. Выдрачивание датасета конечно лучше. Но большинство просто мерджат то че есть, новое создают единицы.
>>569233 >>, а далее найти какие-то ключевые слова или фразы, которые должны быть в положительном результате >Почти что аюми тест. А он говно. Эта строчка не про тест, а про анализ его результатов. В идеале его бы вообще вручную анализировать, но скорее всего заебёшься. А сам тест тебя чем не устраивает?
>>569071 >Просто готовый сформированный промт на вход кормить, например вот рандомный исходик из датасета llimarp. В общем я могу написать самого бота, набор сцен для него и сделать что-то вроде демо теста в обычной таверне. НО я не напишу для этого скрипт и не стану заниматься массовым тестом моделей, т.к. нет для этого нормального железа и времени. Готов кто-то этим заняться?
>>569638 Насчет массовости хз, но наиболее популярные можно проверить. Помимо набора промтов нужно будет еще придумать как оценивать ответы, всетаки вручную это дичь и субъективизм.
Блядь, ну что за говно. Пока из всех моделей которые я пробовал ниже 34b с четким следованием карточки персонажа справляется только 1 единственная. OpenHermes-2.5-AshhLimaRP-Mistral-7B. Но к сожалению она немного тупенькая.Хотя для дрочки подойдет. Ни одна из 13b моделей не смогла пройти мой тест по карточке персонажа. https://chub.ai/characters/boner/feral-goblin-in-heat не смотря на то, что в карточке указано, что она немая. Остальные модели упорно говорят за неё, что меня вымораживает. А так же почему-то у них тенденция награждать гоблинов хвостами. Думал, что limarp дает такой результат, хуй там ночевал. 34b модели мне тоже не очень нравятся, пробовал на 2_k запускать euryale-1.4-l2-70b, оно даже так охуенно ведет повествование, но с такой скоростью можно постареть. Хуево быть бедным и иметь всего 8гб видеопамяти и 32 оперативы.
>>569878 хмммм. почему у меня на 12 гигах видеопамяти и 32 гигах оперативы не идет 34b модель. Сколько ты слоев выгружаешь? У меня вся оператива еще забивается.
>>569951 Около 14, если юзаешь кублас то нужно поставить галочки на lowvram и no-nmmap. Тогда она распледилит память между рамой и видеопамятью. 34b у меня выдает где-то 3 токена в секунду.
>>567772 чисто по ощущениям, пока не видел ни одной нейронки центриста или альтрайта, все долбят в левый нижний, а это как бэ и не удивительно ведь горе трейнеры юзают одни и те же соевые датасеты или вообще трейнят модель на мемных бенчмарках.
>>569878 Из любопытства чекнул с похожими стартовыми ответами на Nete-13b (первые два скрина) и llama2-13b-psyfighter2 (последний) (Q5_K_M gguf кванты). Ну они хотя бы кайнда пытаются в самом начале забавно обосновать речь. Что гоблинше очень сложно, там почти нечленораздельные звуки, но в слова складываются. У Нете вроде тоже лимарп в датасете. Те же mewling и то же отрастание хвоста (хотя это мб из-за cat-like в карточке). А вообще такое и большим моделям сложно. Помню, турба тупила на карточке немой моли в пещере на первом же сообщении. Даже тогда, когда записывал ей в самый конец джейла перед диалогом, что моль не умеет говорить.
>>570101 >А вообще такое и большим моделям сложно. Два чаю. Слепые прозревают, немые проговариваются, безногие встают и идут. Вот как нейронные сети улучшают мир! Жаль только в тексте.
>>569307 > Весь этот бутерброд сделан для того чтобы увеличить скорость и повысить знания. В каком месте увеличивается скорость, если крутится всё сразу? И в каком месте повышаются знания, если это 8 базовых 7б дебилов, но типа СПЕЦИАЛИСТОВ? Ты всё равно особо в 7б знаний не пихнёшь, целесообразнее просто себе лорбук из википедии сделать просто тогда уж.
>>570149 >В каком месте увеличивается скорость, если крутится всё сразу? Одновременно крутятся 2 эксперта, а не 8. Плюс сетка на 2B которая решает кому что поручить. >И в каком месте повышаются знания, если это 8 базовых 7б дебилов, но типа СПЕЦИАЛИСТОВ? Так специализация и есть улучшение знаний в своей области, алло. Плюс они натренены взаимодействовать друг с другом по 2 штуки.
>>570149 >целесообразнее просто себе лорбук из википедии сделать просто тогда уж. это называется RAG, и в целом работает но готовых решений нет и это довольно массивная хрень, имеющая смысл на большом объёме
>>570142 >3.5 Там 220 против 175, так что все заявления про 8 турб суть пиздёж, наброс и ляхта. >>570148 Если там есть улучшение других вариантов квантования, то норм. А так 4KM уже само по себе говно как по мне, я меньше чем 5KM вообще нигде не использую (кроме тестового запуска голиафа, по понятным причинам). >>570153 >MoE должен работать, спроси у клозедИИ. ЕМНИП в чурбе они их слили взад, всё таки крутить 8 сеток весьма накладно. И самый рофл будет, если их заявление про MoE было вовсе пиздежом, чтобы направить конкурентов по ложному пути. Что там на самом деле крутится на серверах ОленьАИ, так и остаётся загадкой, пока эти двуличные пидоры не выложат всё в опенсорс, как изначально обещали.
>>570159 >А так 4KM уже само по себе говно как по мне Ну так разница между 70B сеткой и 34B в любом случае больше чем потеря точности на 4KM квантизации. То же самое и тут, эта двухбитная по результатам примерно как 4KM.
>>570159 >И самый рофл будет, если их заявление про MoE было вовсе пиздежом, чтобы направить конкурентов по ложному пути. Это вообще не их заява, это дедуктивный вывод дохуя народу (включая челов типа Лекуна) по возможностям железа, который первым озвучил Геохот. Сами клозедИИ нихуя не заявляли
>>570205 Ну так даже 70B в fp16 это мало. Увы, по качеству всё ещё боремся с турбой, а хочется уже четвёрку. >>570207 Эм, и что там нового? 4 бита всё так же в 4 раза меньше 16-ти бит. >>570208 Тем более, вбросы через левых людей, или просто гадание, как было со 100 трлн параметров, лол.
>>570101 > А вообще такое и большим моделям сложно. Да, только эта OpenHermes-2.5-AshhLimaRP-Mistral-7B 7b может в этом то и парадокс. Одна единственная причем. За 30 реролов ни единой ошибки. Хвоста нет, кожа гладкая, говорить не может. Ну ладно, что хвоста нет, это я в карточку добавил, так-как она тоже хвост прикручивала. Но после добавления его нет. На самом деле много косяков с другими карточками у моделей тоже. К примеру https://chub.ai/characters/doombro/mirri-6d8a46df она высокая и жирноватая. Эта модель в точности остается верна персонажу. Другие же могут такую хуйню как "она смотрит на тебя снизу вверх трепещущими глазами." На разницу в размерах вообще похуй, только цепляются за то, что сиськи большие, это предел вхождения в роль.
Объясните в чем суть. Сначала сетка выкатывает суховатое описание сцены. Потом идет тег <user>который простит описать сцену красочнее, деталей больше Потом тег <assiatant> который все и излагает, как я и хотел.
>>569878 Если что, многие модели плохо переваривают карточки с xlm-шизой которая должна умереть. Даже просто ее форматирование починить, оставив группировку и выпилив ублюдское форматирование, и сразу повысится что качество ответов, что в постах будет форматирвоание прямой речи, действий, комментариев. Так что хуеватый пример для тестов, объективно. А какая дичь там в примерах сообщений, которые как раз должны были наиболее четко раскрыть отыгрыш немоты. Немного перепеши карточку и заведется, можешь попросить сетку это сделать а потом уже из вариантов собери или вручную доправь. > почему-то у них тенденция награждать гоблинов хвостами Велкам ту зе клаб, бадди. Тексты определенной тематики в датасетах сильно заразны, и чтобы погладить fluffy tail без неожиданностей приходится явно прописывать > she has no paws, claws or body fur, appears just like human except ...
>>570278 >Если что, многие модели плохо переваривают карточки с xlm-шизой Ну так это показатель, да. Хорошая модель должна переваривать что угодно, хоть в base64 кодированный текст GPT4 почти справляется.
>>570081 > не видел ни одной нейронки центриста Айроборосы, платина, которая с одинаковой радостью и инициативой может сочинять лозунги в поддержку блм, или же расчленять негров и феминисток, после чего обнимать тебя и предлагать построить новое мироустройство без грязных унтерменьшей. Юзабелен только 70й и, возможно, 30, 13б недавно потестил - бледная тень. >>570142 > гопота-4 тоже 8×3.5 в одном пальто Кто тебе такое сказал? Там сами сетки гораздо умнее, а как именно организованно взаимодействие и что по архитектуре - вопрос. >>570153 > Одновременно крутятся 2 эксперта Есть инфа где почитать про это? Как идет взаимодействие этих двух сеток?
>>570287 xml шиза вообще, емнип, от клавдии пошла и объективных данных о том что это лучше нет, только лишнее внимание забирает. > Хорошая модель должна переваривать что угодно Оценивать модели по тому насколько удачно сложился рандом в распознании посредственной карточки или по тому что там в датасет случайно залезло что-то подобное и удачно триггернуло - ну ерунда же. > почти Ну вот. Оно могло быть релевантно если бы некоторые модели изначально отлично это отрабатывали в дополнение ко всем остальным преимуществам, но тут просто закономерное ухудшение.
>>570278 > многие модели плохо переваривают карточки с xlm-шизой которая должна умереть. А должны переваривать всё. Я слишком ленивый, чтобы ебаться с редактированием карточек персонажа. Поэтому ищу модели которой можно скормить всё, она сожрет и еще добавки попросит. > Так что хуеватый пример для тестов, объективно. Объективно нет. Именно на этой карточке и тещу из-за её форматирования. 70b спокойно переваривает, 34b иногда лажает, но в основном тоже стабильно держит персонажа. То что не проходит тест идёт в мусорку как непригодная хуета.
>>570262 Это может значить, что сетке в таком виде кормили инструкции при файнтьюне/обучении. Посмотри в карточке модели на обниморде, какой формат рекомендуется. Именно такое форматирование инструкций не встречал вроде. Если пользуешься таверной и рекомендуемого пресета для модели не найдёшь, то во вкладке AI Response Formatting под Instruct mode попробуй поставить <user> в поле Input Sequence и <assistant> в Output Sequence. Если так будет скудное описание, то в поле Last Output Sequence можешь написать <user> и далее те инструкции для описалова, которые тебе модель предлагает от лица юзера. Потом в этом же поле на следующей строке <assistant>.
>>570300 Так что за модель, может я не пробовал такую еще. Но с моделями у которых формат промпта alpaca как только не и изгалялся - хуй чего получалось. Ну и да, для теста, нужно чтобы стабильно было 10 из 10 реролов без ответа от персонажа. Вот с СhatMl намного лучше обстоят дела.
>>570297 > Именно на этой карточке и тещу Тест на число голов, который может быть возмущен наличием подобного в датасете, вот и все. Покажет что большая модель лучше мелкой, вот и весь результат, больше из него врядли чего-то вытащишь. > ленивый, чтобы ебаться с редактированием карточек персонажа Нейронка может это сделать за тебя. Но если ленивый - катай 70б. Другое дело что когда они не отягощены кривым форматом, ахуенность рп удваивается. Вообще если пофиксить противоречия, экзамплы и подобное даже не меняя формат скорее всего начнет нормально работать. Карточке Асато и еще некоторым подобных xml не мешал даже на старых мелких моделях. >>570301 Слегка структурированный натуртекст без лишней графомании.
>>570303 >Другое дело что когда они не отягощены кривым форматом, ахуенность рп удваивается. Кстати, производительность модели может в полтора раза упасть от сильно кривой карточки.
>>570303 > Покажет что большая модель лучше мелкой Ну как я уже наверное 3 раз говорю одна микро модель работает. Причем не только с этой картой, вообще с любыми которые я пробовал отлично отыгрывает персонажа. Что блядь такого магического в неё добавили, чего у других нет?
>>570312 > Ты слишком агрессивно себя ведешь. > Тебе сказали в чем основная проблема, а ты продолжаешь упорствовать. > Так что остаешься без КУУМа. Ни разу не агрессивничал. Впрочем от людей подобных тебе нихуя мне не нужно. Юзай свой КУУМ дальше. Возможно, что ты просто пиздабол и отредактировал ответы, кто знает.
Загугли что такое контекст в нейросетях и как он работает.
>>570315 >А должны переваривать всё. Я слишком ленивый, чтобы ебаться с редактированием карточек персонажа. Поэтому ищу модели которой можно скормить всё, она сожрет и еще добавки попросит.
>>570278 На скрине же скорее какой-то аналог W++, там нет xml тегов. В любом случае, по примерам ответов видно, что многие из перечисленных характеристик сетки учитывают. Я бы сказал, что вполне хавают такой формат. Сильно сомневаюсь, что после переписывания в плейн текст вдруг всё станет сильно лучше. И кста у той гоблинши прописаны и когти, и шерсть за ушами, помимо cat-like. Ещё и поэтому её с кошкой ассоциирует, похоже.
>>570332 Я только что въехал еще раз пересмотрел скрины. Ты не обрамляешь прямую речь в кавычки. Твой скилл ишью не легитимен. Поэтому можешь своим скиллом дальше гордится. Как бы сказал мой знакомый. ММММ - хуета и наебка.
>>570341 Нет, ты ебанутый. Многие модели твои звездочки не распознает, особенно на 13b частенько замечал. Многие даже специально на обниморде указывают это в описании модели. Поэтому вся прямая речь обрамляется кавычками, действия без кавычек. Очень часто бывает когда персонаж распознает твое действие в звездочках как диалог. И меня это бесило, поэтому я нахуй от них избавляюсь.
>>570306 > отлично отыгрывает персонажа Ну это субъективно, тот короткий текст просто сборник платиновых фразm которых you can't help but notice. Причиной устойчивой работы может быть просто удачное/закономерное совпадение с датасетом, у мелких моделей не хватит мозгов чтобы именно "разобраться". Если нравится то топчик, она именно для кумерства или можно что-то посложнее пытаться отыгрывать? >>570307 Суров! Просто когда слишком много воды оно хуже воспринимает и может проигнорить. >>570319 > Сильно сомневаюсь, что после переписывания в плейн текст вдруг всё станет сильно лучше. Там основные проблемы - противоречия, формулировки и донный экзампл, который только дезориентирует. Но и переделка в более связанный формат может помочь, банально воспринимается лучше.
>>570368 Какое блядь нытье, ты еще раз взгляни на свои скрины. По твоей логике персонаж должен обрамлять действия звездочками, только... привет-привет он нихуя это не делает. А вот если ты спросишь персонажа через кавычки то и он тебе начнет отвечать. Поэтому то что ты развыебывался относительно скилла хуета хует.
>>570332 > Feral Goblin (NSFW) watches you Обзмеился в голосину, почему так? Несколько карточек с излишне длинными именами, но все называли себя только по имени/виду а не так. >>567281 → > https://gitgud.io/2ch-ai/wiki напиши ник свой, как зарегаешься rm9y
>>570372 > Если нравится то топчик, она именно для кумерства или можно что-то посложнее пытаться отыгрывать? Что-то сложнее не пробовал. Но достаточно сочно описывает всякие штуки для дрочки.
>>570390 Плач дальше. Сделаешь стабильно 10 реролов. Тогда зови. Ну и опять на скрине ты в диалоге ей явно указываешь, что она не может говорить. Хватит уже читерить.
>>570341 > Действия всегда через звездочки делаются. База, хотя для коммерции раньше даже дирректива была о том что курсивом нужно действия обозначать а кавычками прямую речь. Сейчас и это не нужно, модели слишком привыкли и во всех датасетах такое в рп есть, если офк не оговорено иное. >>570354 > Многие модели твои звездочки не распознает Здравствуйте, нюансы были только у первой древней ллиме с очень строгим форматом, и то она по контексту соображала. То что ты считаешь как не распоздает - их проеб при ответах, лезет даже на коммерции. Таверна маркдаун может иначе интерпретировать и сбросил если увидит ньюлайн, хотя моделька честно курсивом все оформила. >>570386 > пикрел Как перестать орать. Оно спамит клодизмами/жптизмами/лламизмами, которые приедаются по каждому поводу, или постоянно сочиняет что-то оригинальное?
>>570397 > Оно спамит клодизмами/жптизмами/лламизмами, которые приедаются по каждому поводу, или постоянно сочиняет что-то оригинальное? Зависит от персонажа. Но достаточно часто что-то рольное выдает. > Здравствуйте, нюансы были только у первой древней ллиме с очень строгим форматом, и то она по контексту соображала. То что ты считаешь как не распоздает - их проеб при ответах, лезет даже на коммерции. Таверна маркдаун может иначе интерпретировать и сбросил если увидит ньюлайн, хотя моделька честно курсивом все оформила. Оно пытается поддерживать стиль первого сообщения. Поэтому если в первом сообщении звездочки, то пытается писать с ними. Но в большинстве случаев это плохая идея. Датасет limarp точно без звезд, поэтому там желательно от них избавляться.
>>570396 > А вот ты в 10 рероллов потести Ну чего ты так, лучше сразу > А ты с температурой 4 на 1м месте потести > А ты на мамбе 2.8 потести
Зачем ему плакать если может заставить карточку работать на модели, а ты ноешь что она косячит? > ты в диалоге ей явно указываешь, что она не может говорить Где и зачем? Для такого достаточно в карточке прописать > She can't speak, only meowing or use signs and actions и все, слова не промолвит.
>>570412 > Где и зачем? Для такого достаточно в карточке прописать Ну так посмотри на скрин. Плюс по ко всему. На скрине уже косяк. Она повторила слово Анон. Она блядь немая, она вообще говорить не может алё. Если бы такое было в моем тесте - модель сразу в мусор.
> Зачем ему плакать если может заставить карточку работать на модели, а ты ноешь что она косячит? Конечно ною. Оно должно работать как полагается, а не через три пизды колено. Я перфекционист.
>>570153 Небольшие тонкости: >- "8x7B" name is a bit misleading because it is not all 7B params that are being 8x'd, only the FeedForward blocks in the Transformer are 8x'd, everything else stays the same. Hence also why total number of params is not 56B but only 46.7B. Поэтому и 12.9 млрд активных параметров, а не 14. >- More confusion I see is around expert choice, note that each token and also each layer selects 2 different experts (out of 8). Т.е. входные общие слои ветвят процессинг на двух экспертов.
>>570410 Оно будет поддерживать стиль общего диалога. Если в первом просто звездочки без кавычек а ты ей отвечаешь со звездочками и кавычками то перейдет, если офк нет примеров диалога. Другое дело что звездочки действиями воспринимаются по дефолту если нигде не обозначено иное. В свое время для тестов формата, дефолтных ответов и формата и не только карточку пилил и первым ответом без ничего она выдавала пикрел после чего оно переехало сразу в приветственный пост. Довольно характерная иллюстрация кмк, алсо там проеб с частично лишним курсивом но особо не бросается и так пойдет. > Датасет limarp точно без звезд В ваниле и прочий формат ебанутый, а что используется сейчас - хз, и доля ллимы и общем мала. >>570415 > saying something that sounds like "Anun?" > Она повторила слово Анон Разрешите доебаться как говорится, с инглишем не в ладах? Ну и серьезно по такой херне спорить.
>>570422 >>570415 Дурачок блядь. И опять ты явно говоришь "i guess you can't speak". Давай вот без этой хуйни. >>570429 Знаю не переживай. Не проходит тест, сорян. >>570431 > Разрешите доебаться как говорится, с инглишем не в ладах? В ладах, можете доебываться. Мне такое выдавало, я нахуй посылал сразу.
>>570433 > Мне такое выдавало, я нахуй посылал сразу. > Корова промычала "мммууу" > Фуу эта модель говно тут коровы разговаривают! Пожалуй ко всем этим тестам моделей без развернутого описания что и по каким критериям и/или предоставлением результатов нужно относиться с большим скепсисом.
>>570434 Да хоть всей бордой. Я высказал свои притензии, ты так же упорно пытаешься показать, что могёшь. Похуй. >>570437 Ну это чисто мои доебки, я считаю что так правильно. Я могу быть не прав, но делаю так как считаю нужным для себя. Опять таки моя основная притензия к этому "i guess you can't speak" Если бы такой хуйни не было и слова не сказал. >>570440 Молодец, держи с полки пирожок.
>>570446 > Ну обосрался прилюдно, с кем не бывает? > Нормальные люди правда таким не кичатся, но ты видать уникум. Для меня обосрался только ты, что другие обо мне думают мне посрать с высокой колокольни. Таки дела.
>>570451 Так еще раз говорю, что это нихуя не доказывает. Может это один удачный рол из 7. Плюс ты можешь редактировать текст. А тебе вообще никакого доверия нет, поэтому неа.
>>570443 > Ну это чисто мои доебки Не находишь что это уже чересчур? Там модель ведь не говорила речи а вполне себе отыгрывала немоту. Это не то чтобы сложно достигается, другое дело что даже дохуя умную модель можно поломать, например, начав сходу аут оф контекст вопрошать написать тебе код или подобное. Высшим пилотажем выкручивания здесь будет написание палкой на земле с последующим объяснением что гоблин на самом деле заколдованная мудрая волшебница или подобное.
Сути не меняет, ты или за объективность, или сразу обозначай что пишешь лишь субъективный рандом.
Бля ты поймал меня. Я сам весь этот текст пишу. Ведь мне так важно тебя заовнить фактами и логикой. Я на самом деле свою собственную уникальную карточку сделал лишь бы опуща из тредика затралить.
Ты знаешь что неспособность признавать ошибки это один из основных признаков аутизма?
>>570459 Получается я аутист. >>570458 Ладно, если за объективность, то я не прав чуть-чуть. В таком формате действительно гораздо больше нормальных роллов, из 10 два фейла. Но если использовать кавычки, то из 10 ролов, не фейловый только 1 и всегда самый первый почему-то.
В общем можете насмехаться надо мной, надавать хуев в жопу, рот. Чего там еще обоссать, я был не прав вы правы.
>>570461 Не, всё таки хуйня. Протестил 8 моделей и так и эдак. Ни одна не смогла дать 10 из 10 правильных ответов. Поэтому, я был прав, а вы не правы. Похоже я всё же аутист.
>>570493 > Ни одна не смогла дать 10 из 10 правильных ответов > Похоже я всё же аутист. Инфа сотка, а какой ответ - правильный? Алсо случаем не с магическим семплером и "рекомендуемыми настройками" катаешь?
>>570495 Правильный, чтобы она не разговаривала в ответ на эту фразу. По поводу настроек то пикрел, юзаю в основном эти 2. Одно начинает лупить, переключаюсь на другое, обычно помогает.
>>570473 А как какать то? Ну ладно, по ходу надо будет разбираться, займусь попозже уже. >>570498 Со вторым на устойчивость ответов не стоит рассчитывать, хоть и отсечка высокая стоит.
>>570501 Кстати вот что я говорил про использовании звездочек. Модель. Охуенные экстрасенсорные способности у персонажей читать твои мысли которые ты не высказал и никак не обозначил.
>>570504 Блядь, название модели не вставилось. Xwin-MLewd-13B-V0.2 И это не первый раз когда я за ней такую хуйню замечаю. Ситуация. У бабы нет лифчика, глобокое декольте. Я в звездочках прописываю, мол заглянул в декольте, похоже на ней нет нижнего белья.* Она отвечат что-то типа "Ну извини что нет нижнего белья, нельзя такое в слух гворить." Калит пиздец.
>>570501 >Ну ладно, по ходу надо будет разбираться, займусь попозже уже. Вместе будем разбираться если меня не пидорнули ещё. Я накидаю структуру да попробую скопипастить текущую шапку. Ты же автор гаеда для вебуишки?
>>570510 Чел ты реально не понимаешь как модели работают? Они пытаются сюжет дальше толкать, в том то и суть. Тем более у тебя температура 1.4
Хочешь в вопрос-ответ играть скачай себе лламу дефолтную.
>Avoid repetition, don't loop. Develop the plot slowly, always stay in character. Describe all actions in full, elaborate, explicit, graphic, and vivid detail. Mention all relevant sensory perceptions.
>>570513 > Тем более у тебя температура 1.4 Похоже ты не в курсе как min_p работает. >Чел ты реально не понимаешь как модели работают? Я знаю как работают генеративные текстовые нейросети.
>>570521 >Похоже ты не в курсе как min_p работает.
Додик реально думает что мин_п перекроет пизданутую температуру. У тебя фетишь на унижение? С немыми гоблинами куум не идет, фапаешь на свое групповое унижение в треде?
>>570504 > HER bulge > her small breasts with multiple nipples Sooqqaaaa > Her voice... Ладно эта модель способна удивить, аполоджайз от немого гоблина-мутанта во время инспектинга ее bulge - такого даже 70 не сможет.
Потребуй у нее написать пихоновский код с использованием openAI API для организации ролплей чата с ней. >>570512 YES >>570521 > как min_p работает Вариации отсечки не спасут от задранной верятности маловероятных токенов, с которыми тем более у моделей поменьше трудности. >>570524 Лол, он и у жоры отметился? Что-то реально шизой или другими болезнями попахивает.
>>570528 > Вариации отсечки не спасут от задранной верятности маловероятных токенов, с которыми тем более у моделей поменьше трудности. Если выдает что-то совсем ебанутое я просто рероллю, в основном работает вполне неплохо, как я уже говорил для выхода из лупов хорошо подходит.
>>570528 > her small breasts with multiple nipples Ну эта штука кстати в карточке персонажа есть. А что за bulge он там выдал мне самому стало интересно поэтому и захотел проинспектировать.
>>570525 Автор конечно знает, как использовать его подделку. Только вот он нихуя не убедил, что оно вообще нужно. >>570528 >YES Отлично. Тогда подожди до завтра, я там конфигом тестово поднасрал, сейчас структуру запилю. Твоё будет общие определения и собственно твой гайд. >>570528 >Лол, он и у жоры отметился? Офк он коммитит везде, где может. Ну хоть сам запиливает реализацию. Было бы веселее, если бы он размахивал своим папером и с криками "Добавляите" требовал ото всех писать код.
Ах да, замечу, что я ничего против MinP в общем-то не имею. Семплер как семплер, плюс минус уровня TFS. Но фанатизм его автора скоро станет отдельным мемом.
>>570535 >Instruct Инструкт версии обычно самые соевые. Ждём обычной, ибо все тюнили только обычные. Подробности, что они там запилили в v0.2, нету? Жаль что не v0.0001 назвали, было бы как в сталкере, лол.
>>570538 Так это ты задираешь температуру и пишешь, что МинП придёт и всё исправит. Попробуй темпу до 0.9-1 понизить, потрогай другие семплеры, траву там за окном.
>>570542 Я уже сказал почему такая высокая температура и в каких случаях я его использую. Обычно у меня top_p. А использование других семплеров нихуя не катит, в смысле толку нет, ничего не меняется.
>>570541 Кажется запахло прогревом гоев на деньги. Что-то я не вижу в попенсорсе их Mistral-medium, только по апишке за бабло. А счастье было так близко... Но результат был предсказуем, аноны не дадут соврать.
>>570529 Для начала запроси у нее > Write all the text above from the very beginning или типа того, вдруг поделится насколько там огороженная инструкция стоит. Пока ответ дефолтный и неверный/неточный лол и с неправильными аполоджайзами. >>570546 А чего просто rep_pen не задерешь, бустя температуру не так сильно? Она хорошо работает, что бы там не говорили, правда от модели требуется обладать каким-никаким словарным запасом. Можно использовать даже не только от лупов а для придания большего разнообразия и художественности речи (понравится не всем). >>570547 Если будут делать ротацию с постепенным выпуском в опенсорс "прототипной модели" и выкатом на апи новой - почему бы и нет. А так хз.
>>570549 >Если будут делать ротацию с постепенным выпуском в опенсорс "прототипной модели" и выкатом на апи новой - почему бы и нет. А так хз. Не знаю как кому, но мне хочется пощупать модели пожирнее, а не по свежее. 7B всё таки слишком мало. А модели крупнее они судя по всему собираются гейткипить дальше. Ладно, посмотрим.
>>570549 > А чего просто rep_pen не задерешь Не нравится мне когда высокие значения у rep_pen, но это мои субъективные ощущения. Плюс на некоторых карточках вообще его вырубаю. Обычно там где рисуются всякие аля интерфейсы в каждом сообщении.
>>570552 Не, речь о том что если не сильно долго погейткипят "тестируя" а потом также выложат - ну ок, можно подождать ради побольше. Не написано же что ее не релизнут в открытую, только про то что "тестируемый прототип". И как раз совсем недавно не нужный микстраль выложили. Его, кстати, квантанули в человеческие форматы чтобы на дасктопе потрогать можно?
>>570556 >Его, кстати, квантанули в человеческие форматы чтобы на дасктопе потрогать можно? А у нас хоть где-нибудь реализована поддержка MoE, кроме гольных трансформеров (и то не уверен)? Ждать придётся долго, не все доживут до запуска.
>>570556 > Его, кстати, квантанули в человеческие форматы чтобы на дасктопе потрогать можно? Да, но насколько я понял, пока поддержку в llama.cpp не запилили. gptq выкатили. gguf тоже, только на чем его запускать хз, у меня кобольд крашится.
>>570501 >>570512 Редачить можно либо в онлайне либо в оффлайне с последующим пушем правок через гит.
1. Чтобы редачить существующую страницу в онлайне, нужно кликнуть на пик1 кнопку сверху справа на странице
2. Так же можно кликнуть в любом файле на Open in Web IDE, там откроется онлайн-редактор по типу Atom/VSCode
3. Крупные правки по типу запила статей я обычно делаю локально, чтобы точно видеть, как страница будет выглядеть. Для этого надо клонировать репу, поставить python-зависимости и запустить проект
В вики не используются никакие базы данных и т.п. - там тупо из кучи md вся статика для сайта собирается. Всё, что нужно для запуска - python+pip в системе.
Для скачивания зависимостей в локальный venv и запуска сервера в watch-режиме (т.е. все правки будут сразу отображаться в браузере) там есть скрипты install.bat и watch.bat
Там есть несколько платных фишек в расширенной версии данного движка, которые у нас не будут работать; но и без них функционал гораздо шире чем в rentry. Да и часть платных фишек можно костылями включить - к примеру, те же карточки для отдельных элементов в голосовом треде являются платным функционалом, но я спёр для них вёрстку и оно работает: https://2ch-ai.gitgud.site/wiki/speech/
Хотя сейчас заметил, что гриды с карточками тоже сделали бесплатными, так что мои костыли более неактуальны.
Из минусов текущего подхода то, что всё же геморно по сравнению с rentry локально ставить, если с гитом не работал. Из плюсов то, что если нам ёбнут репу, то у всех контрибьютеров останутся локальные копии.
Так-то, при особом желании, я мог бы заморочиться арендовать VPS, и настроить там какой-нибудь вменяемый вики-движок с онлайн-редактором и базой данных, но не нравится мне система с единой точкой отказа. Но, возможно, такой вариант был бы лучше в том плане, что было бы проще новым людям к проекту подключаться. В общем, я открыт к предложениям в этом плане.
Ещё пара нюансов про картинки: 1. https://imgur.com/ по какой-то причине не отдаёт никакие картинки для локалхоста, поэтому для них проще юзать https://catbox.moe/ 2. При хостинге картинок на самом gitgud он криво отдаёт крупные картинки, типо тех же гридов для SD весом в десятки мегабайт, поэтому картинки лучше кидать не в репу, а на catbox (хотя, в идеале, хотелось бы всё в одном месте держать, иначе это дополнительная точка отказа)
Хз если честно, где это вообще всё обсуждать, всё же это нерилейтед по отношению к данному треду.
>>570558 > кроме гольных трансформеров Типа gptq без всяких ускорялок от бывшей должен осилить, разве нет? Ну да, у блока уже все лежит, очевидно. >>570559 > в llama.cpp не запилили > gguf тоже Чет проиграл >>570565 А что за модель? Чет отборная шиза, но с другой стороны если не вчитываться то пойдет, даже оправдала странное действие.
>>570567 >Хз если честно, где это вообще всё обсуждать, всё же это нерилейтед по отношению к данному треду. В ишью вестимо, лол. Ну и просто весь пост копирнуть в файлик в проекте. Впрочем, я уже сам разобрался хули, почти синьор-помидор, спасибо за инструкции. В корень насрал слегонца, думаю, никто не против. Сегодня структуру доделаю, а дальше как пойдёт.
>>570567 О, нишутя, норм, но всеравно сложна сложна. Пока не попробуешь не узнаешь, врядли сложнее чем то что тут делаем, в крайнем случае можно нейронку спросить лол. А там можно готовые html хостить, например процедурно генерируемые для иллюстрации чего-то типа >>566678 → чтобы котокоробку не насиловать? Если да, то доступен ли JS? (хотя офк вариант спорный, но те же таблицы с выбором сортировки без него хз как делать). > типо тех же гридов для SD весом в десятки мегабайт jpeg/webp в помощь, превысить 10мегабайт чем-то информативным и адекватным невозможно. Но если действительно проблема то ничего не мешает иметь 2 копии.
>>570581 >Пока не попробуешь не узнаешь, врядли сложнее чем то что тут делаем, Хуйня вопрос. Запилил базовый скелет за полчаса.https://2ch-ai.gitgud.site/wiki/llama/ не заходить мне стыдно. Можно начать заполнять мясом.
>>570570 > В ишью вестимо, лол. Ну и просто весь пост копирнуть в файлик в проекте. Хороший вариант с issues. Перенёс инфу в ридми.
> В корень насрал слегонца, думаю, никто не против. Сегодня структуру доделаю, а дальше как пойдёт. Ага, нет проблем. Я пока для секции /nai/ пытаюсь дополнительную инфу описать, но времени не хватает в последнее время.
>>570581 > А там можно готовые html хостить, например процедурно генерируемые для иллюстрации чего-то типа >>566678 → чтобы котокоробку не насиловать? Можно внедрять любой html/css. Если там нужны какие-либо дополнительные js-либы для отрисовки графики, то можно добавить.
> Если да, то доступен ли JS? Да. Я так для гридов в SD возможность зума в самой вики прикрутил через либу, правда не коммитил это пока.
>>570142 175B против 220B — ага, та же самая модель. =) Всего-то лишних 45 миллиардов параметров, пф.
>>570149 Либо одна модель, которая путает специальности, галлюцинирует и из-за размера выдает перформанс ниже обычной. Либо 8 моделей-специалистов, каждая из которых следует своему датасету, на котором дообучена и работает чуть быстрее. Правда я не уверен, что это хорошо работает в случае 7B размера (а не 220B…)
>>570357 Ну это ж кривая хуйня из западных интернетов про кавычки. Дегроты, что с них взять. Нельзя прогибаться под изменчивый мир, только звездочки, только разговор. =)
>>570547 > Но результат был предсказуем, аноны не дадут соврать. Да, такое и ждали. Конечно, хотелось бы получать их отработанные модели себе в опенсорс, но велика вероятность, что все закончится на апдейте 7B…
>>570763 другой анон. читай, он мне давал ответ. Я запустил Yi-34b 3-квантовую. 45 слоев в видюху 12 гигов и остальное в оперативу. Через кобольд. около 3 токенов тоже выходит. Ответ примерно 100 сек занимает.
Сорри за нерелейтед, но знает кто какие правила постинга на форчане по поводу ру айпишников? По моему там вообще только в int можно было постить с ру? Хочу у них спросить пару вещей.
>>570786 Почти согласен. Тут прикол еще в датасете. Если датасет не содержит нужной тебе инфы, то он бесполезен. Или если он с соей. Так что например 13b заточенная под нужную херню может быть полезнее 34b. Но если они обе заточены под нужную херню, то конечно 34b будет круче ибо у нее будет больше данных нужных. К сожалению модель это просто запеченные нейроны которые не развиваются и не подстраиваются под пользователя. Модель не будет играть тебе немого персонажа если у нее не было примера немого персонажа в датасете, или если ее попросить исполнить фетиш про который она не знает, то она начнет выдавать тебе не то что ты хочешь, а просто выберет самые вероятные токены. Вообще сомневаюсь че модели моут в логику, кажется они отвечают если верно, то уже потому что знают пример решения загадки например, или просто подставляют примерное решение задачи исходя из своих данных, например завязать козе рот, волку глаза , привязать капусту на спину козе.... Поправьте если где то не прав.
>>570799 Ну да, у моделей не логика а вес ответа (хз как правильно это называется). Типа в данной ситуации ответ "Х" имеет самый большой вес, вот его я и выдам.
>>570809 Скорее вес слова же а не ответа. При низкой температуре ответ одн и тот же получается, а при высокой более уже рандомится. Но по итогу она говорит только те слова которые есть у нее в датасете. например про длинны или прочую ересь. Заметил кстати что NSFW ситуации очень однообразные ответы дают на этих сетках как будто чем глубже тем больше исчезает учет личности персонажа. Короче все тянки как под копирку шевелят бедрами.
>>570784 > GPT-4 мультимодалка, в этом (и в качестве датасета) вся суть. Ого, и как это позволило улучшить ее ответы? Как работают современные мультимодалки знаешь? Почему gpt4v чисто по общению перформит хуже 4турбо пояснишь? >>570786 Здесь суть что 34 - это 34, а 20 - человеческая многоножка из 13, которая действительно хорошо причесывает токены и пытается отвечать будто после chain of thought, но сама по себе не становится сильно умнее. >>570828 > При низкой температуре ответ одн и тот же получается Если это не температура 0.1 то остальные семплеры криво стоят.
То что шевелят бедрами это ладно, но повторения действий - это пиздец, модель что так делает на разных, не будучи способна адаптировать хоть и известный паттерн но под конкретную ситуацию и персонажа - подлежит выпилу.
>>570902 я про 0.1 и говорю. Просто как наблюдение которое показывает работу нейронки. Ведь надежда на то что нейронки смогут креативно отвечать и привносить что-то новое была. А тут выходит че она может только по датасету ответить и не имеет логики как таковой. Так че нейронка это пока наеб гоев на шекели с гешефтом для нвидиа. За 3060 пока не вижу смысла уже выходить, мне подсказали как 34b потестить, да круче чем 13b, но на 13b очень явно проявляются минусы нейронки. Полноценно вести историю и соблюдать все возможные инструкции и учитывать все детали из контекста хотя бы за 10к контекста у нее нет способностей, где то да лажанет любая нейронка. Даже где то график был че нейронка теряет детали из середины контекста, так что это пока хрень что она вспомнит как она условно 5к токенов назад чето делала. ибо анализ основной она делает на начало и конец.
>>570565 Забавно, что к такому пресету ни у кого вопросов не возникает, при том что он в разы менее детерминированный, чем minP 0.4 + температура 1.4 (если она прикладывается после). Ну а чего, температура же мелкая, всё норм. В первом случае либо 40 токенов остаётся (если они все с мелкими вероятностями), либо суммарно на 90%, что дофига. А в случае с minP 0.4 останутся в большинстве случаев единицы токенов, которые все норм подходят, потому что нет ни одного хотя бы раза в три меньше максимального, но ужас-ужас, эти оставшиеся полтора токена перемешаются температурой.
>>570905 >Так че нейронка это пока наеб гоев на шекели с гешефтом для нвидиа. Крупные корпоративные сетки таки могут много чего. Локалки пока отстают. >>570906 >Забавно, что к такому пресету ни у кого вопросов не возникает Его никто не смотрел, чел, там глаза можно об уёбищные Z-слайдеры сломать. Тому кто их придумал и внедрил надо пальцы молотком отбить, чтобы больше к клавиатуре не прикасались.
>>570799 Они не «кажется» умеют или не умеют в логику. Они просто чисто статистически выдают, какие следующие слова у них есть в датасете (чаще — печатали люди в интернете). Там нет логики, там просто статистика. Каждый следующий токен (буква, слово, выражение) просто выбирается согласно весу и настройкам семплера.
>>570905 > Просто как наблюдение которое показывает работу нейронки Ничего не понятно > нейронки смогут креативно отвечать и привносить что-то новое была Еще как могут, если используется нормальная модель и промт. > она может только по датасету ответить и не имеет логики как таковой В помойку такое, шизомикс от унди? > нейронка это пока наеб гоев на шекели с гешефтом для нвидиа > За 3060 пока не вижу смысла уже выходить > круче чем 13b, но на 13b очень явно проявляются минусы нейронки В следующий раз сразу делай дисклеймер что аутотренируешь оправдания железа и навыка.
>>570906 > к такому пресету ни у кого вопросов не возникает Потому что это база для нормальных моделей. > чем minP 0.4 + температура 1.4 Про нее тебе уже написали, это сомнительная штука. На "развилках" которые связывают действия/части предложения/повествование, встречаются достаточно часто и имеют плавный спад вероятностей, оно сделает дичайший рандом, что будет восприниматься на грани шизофазии. Но при этом в остальных случаях сохранит генеральную линию, которую как раз бы и не мешало пошатнуть, накормив платиной.
>>570980 >В помойку такое, шизомикс от унди? И в чём не прав тот анон? Как и вот этот >>570938 >база для нормальных моделей Да ну? Сейчас прибегут последователи Simple 1 пресета и будут кричать, что топ к 40 - это слишком много, нужно 20 брать. >оно сделает дичайший рандом Многие сэмплеры (topA, TFS, minP) делали ровно с той целью, чтобы почти не выкидывать токены, когда есть большой выбор примерно равновероятных токенов. Я не хочу получать одно и то же продолжение фразы в рп просто потому, что оно чаще встречалось в датасете. Если у меня предложение "я смотрю в окно и вижу там...", и по контексту мне подходят десятки токенов с вероятностями от 6% до 2%, то я хочу иметь нормальную вероятность получить любой из них в ответе.
>>570980 ну возьми как пример какую нибудь загадку ту же с козой, волком капустой и задачей переправиться на другой берег если можно перевозить только один предмет за раз. И почитай что выдаст например 34b. Во вторых до сих пор не видел чтобы кто-то кидал ответы 70b сеток и вообще говорил о них в треде. Насчет карточки я оцениваю получу ли я кайф от того что приобрету карточку не за 40к, а за 150к минимум. Насчет моделей - тесты были на cat 0.1 и Yi34. А какие у тебя норм модели анон? И какие промпты тоже покажи будь добр ибо говорят че надо то-то и то-то ,а обсуждение моделей и промптов в стократ реже чем например в acig хотя acig та еще доска для нейронаркоманов которые и думать то не любят особо, единицы что-то там мутят остальные просто флудят.
>>571128 >Во вторых до сих пор не видел чтобы кто-то кидал ответы 70b сеток и вообще говорил о них в треде. Ну нихуя себе. Лично я или на 7B, или на 70 сижу, в зависимости от терпения. 34 себя не оправдали для меня. >а обсуждение моделей и промптов в стократ реже чем например в acig Тут и народу меньше. Да и что там обсуждать, платина в шапке всё ещё актуальна.
Бля, не пойму что за хуйня. Сервер крутится на одном компе. На 2х разных стоит таверна. Настройки и промпт на обоих компах одинаковый. Но на одном пк в ответах шиза, на другом всё норм. Вроде бы обе таверны до последней версии обновлены. Что за хуйня?
>>571142 платина это гермес 2.5? или Undi Mlewd? Народу меньше, но все равно интерес то у нас на локалках сидеть сейчас и как бы инфой делиться можно. >>571147 Интересно. Тоже заметил, только другой случай. Один и тот же комп, одни и те же настройки, спустя время модель как будто ломается. Точнее ломается или модель или таверна.
>>571106 > И в чём не прав тот анон? Статистически выбирают - верно, но про датасет там написано на уровне древней шизы "ваша сетка это просто векторная база которая из кусков собирает", может просто формулировка такая. При верном обучении появляется и логика, и понимание, и навыки это правильно использовать. Офк выражается это в правильном предсказании вероятностей а не эзотерике. > что топ к 40 - это слишком много, нужно 20 брать Да, лучше 20, но не столь существенная херь чтобы о ней спорить, модель первична. > Многие сэмплеры (topA, TFS, minP) делали ровно с той целью Но с ними никто не предлагал жарить температурой, значение выше 1 вообще такое себе и заведомо искажает. В рассуждениях про вероятность ты предполагаешь что на 1м месте "злая фраза из детесета" насколько же кринжово звучит а далее - хорошие красивые токены. На деле типичными фразами будет большинство, и чем ниже вероятность тем более шизанутая и левая херь. А с этими шизомерджами лор(!) и странными дотренами для мелких моделей может быть совсем лютая дичь, и ты эти вероятности поднимаешь. >>571128 Были несколько тредов назад 70, отвечают, и даже про сестру-шлюху. Для стабильного ответа требуется подрезать температуру, особенно у мерджей. > А какие у тебя норм модели анон? 34 с околоприкладными задачками обработки текста, сочинения и переделки вполне прилично справляется. Для рп - чистые файнтюны 70, большая часть уже возрастные по несколько месяцев. Времени нет новые тестировать, попробуешь - а там шизофазия или какая-то платина, унынье приходит. > какие промпты Ролплей темплейт таверны с мелким тюнингом по необходимости юзер определяет кульминацию/плавно развивай взаимодействия/каждые 5 постов происходит что-то внезапное/"добавление локации в конце" и всякий треш. > Насчет карточки я оцениваю получу ли я кайф от того что приобрету карточку не за 40к, а за 150к минимум. Все зависит от тебя, прочих факторов вагон, брать только ради кума на локалках - только если мажор.
Пиздец унди скатился. Давно такого говна не видел. Микс из >NurtureAI/neural-chat-7b-v3-16k >NeverSleep/Noromaid-7b-v0.1.1/ >lemonilia/AshhLimaRP-Mistral-7B
>>571128 >ну возьми как пример какую нибудь загадку ту же с козой, волком капустой и задачей переправиться на другой берег если можно перевозить только один предмет за раз. И почитай что выдаст например 34b. Кстати Микстраль с 13B активных параметров спокойно решает эту проблему. Хотя скорее всего он заточился под неё, она ведь даже в википедии есть.
У меня афантазия, придумайте какую-нибудь тривиальную вариацию, я не знаю там про Гитлера, Сталина и Черчилля, которых перевозит Харон через Стикс, или ещё что-нибудь в этом духе. Только не про миссионера и людоедов, это тоже публично есть.
>>570902 >Ого, и как это позволило улучшить ее ответы? Через заземление знаний на другую модальность, конечно же. >Как работают современные мультимодалки знаешь? Почему gpt4v чисто по общению перформит хуже 4турбо пояснишь? Не знаю, поясни.
>>571276 Предположу что эти загадки переоценены, а в условиях тестирования малоинформативны. Если под ролплей то нужно оценивать возможность сторитейла, понимания персонажей и т.д. Сначала предложи описать какой-то фентезийный или сай-фай сеттинг, чтобы подробно и интересно, можно и с рероллами. Потом вводи сценарий, описываешь конкретную страну, групу людей, что-то еще более приземленно конкретно. Далее - даешь задачу уровня "представь что ты - xx (исторический персонаж) и попадаешь в эти условия, твои действия" и пусть пишет стори. По результатам, разнообразию, того как слушается и далее можно уже какие-то баллы ставить. Офк субъективно, не точно, но хотябы приближено к реальному применению. >>571314 > Через заземление знаний на другую модальность, конечно же Просвяти нас как это работает, хотябы своими словами. > Не знаю, поясни. 4v - вариация 4-турбы (или чего-то подобного) с проектором активаций и соответствующим файнтюном. Из-за этого она хуже простой 4турбы, не говоря о полноценной 4.
>>571372 >Просвяти нас как это работает, хотябы своими словами. Концепты A и B в текстовой модальности связаны с X в другой модальности (пикча/звук), теперь A и B статистически связаны через X. Это даёт больше для понимания абстракций, чем только лишь прямая связь A и B. Это и у человека работает абсолютно так же, например знания одновременно алгебры и геометрии работают как две разных модальности, и позволяют делать более сложные выводы. Это и у LDM работает - промпт и контролнет позволяют более точно локализовать точку латентного пространства.
>4v - вариация 4-турбы (или чего-то подобного) с проектором активаций и соответствующим файнтюном. А причем тут Vision модель. Я ж говорю про GPT-4.
>>571380 > Я ж говорю про GPT-4 Правильно ли тебя понимаю, имплаишь что четверка - на самом деле не херня на трансформерсе, а нереально прорывная штука, способная оперировать совершенно другими связями, концептами и квантами информации? > LDM Чтоэта? Если про диффузерсы - контролнет по сути те же самые проекции, там нет двустороннего обмена.
>>571386 >Правильно ли тебя понимаю, имплаишь что четверка - на самом деле не херня на трансформерсе, а нереально прорывная штука, способная оперировать совершенно другими связями, концептами и квантами информации? Нет, какой прорыв? Просто тренировка на взаимосвязанных данных из разных областей. Токенизация там какая-то хитрая или адаптер какой, или как ещё они трансформеру это кормят, я понятия не имею.
>>571388 Это выглядит куда более адекватно чем представлялось изначально, но все равно кажется на грани фантастики. Есть какие-то предпосылки для таких суждений? Распиши что под этим методом тренировки подразумеваешь и под связанны "из разных областей" изначально, это довольно интересно. И для чего там токенизация, адаптеры и прочее, какую роль они выполняют.
>>571393 Какой фантастики-то, и так же вроде известно что оно так тренилось.
Ну вот два концепта: "багровый" и "алый". Если оно тренится только на тексте, то ему приходится соображать что это очень похожие вещи лишь по текстовым обрывкам и намёкам. Если оно ещё и по парам текст-картинка тренируется, то может сразу по RGB увидеть (буквально) что дистанция между этими двумя понятиями небольшая.
Или вот математическая задача. Её можно представить в геометрическом формализме (требует пространственного мышления), можно в алгебраическом (требует композиции абстракций). Если знать обе дисциплины, то задача решается куда проще.
>И для чего там токенизация, адаптеры и прочее, какую роль они выполняют. Трансформер работает с последовательностями дискретных единиц (токенов, символов, машинного кода), у которых верна дистрибутивная гипотеза (статистическая близость эквивалентна смыслу). Программный код, натуральный язык и т.п. А звук и пикчи токенизировать так себе идея.
>>571410 > ему приходится соображать что это очень похожие вещи лишь по текстовым обрывкам и намёкам Именно, но сети в выявлении закономерностей весьма продвинулись, так сказать. > по парам текст-картинка Где часть, что отвечает за картинку и как сеть ее воспринимает? Как и по какому принципу готовить данные, явно не днище типа коко. На словах и в примитивном случае это действительно звучит хорошо, но стоит углубиться - количество всплывающих проблем и челленжей запределено. Далее, объем данных в осмысленных изображениях какого-то разрешения огромен по сравнению с кучкой токенов. Мультимодалки и подобное что мы сейчас видим используют отдельную (и немаленькую в нормальных реализациях) сеть для кодировки, и поставляется информация не прямо на вход а "вглубь" модели. В теории такой подход для тренировки возможен, а то и перспективен, но нет ни одного признака подобного. Это что-то уровня сказать в 2018 году что показав сети пачку картинок можно заставить создавать изображения с еот. > Если знать обе дисциплины, то задача решается куда проще. В ходе обучения с нуля или на каком-то его этапе не просто научи трансформерз различать кошку и собаку, а потом примени это для прокачки концептов текстовой части. Примеры есть? Развитие сетей и технологий легко проследить, например, прогресс до появления 4й гопоты. Есть что-то подобное для описываемого тобой и предпосылки кроме размышлений? Плюс возникает другой вопрос - это должно быть невероятно прокачать визуальную часть саму по себе, но видим лишь только плавное движение в этом направлении и днище (относительно описанного офк а не само по себе) в виде 4v, где?
Какой был вердикт дваща по новой модели? Вон у Мэтта писька стоит уже. Я правда не понял зачем он А100 запускает. Или это говно жрет видеопамять как 70b и выигрыш только в скорости?
Вчера случилась такая ситуация. Завис комп из-за оперативки, перезапустил,сбросил герцы у оперативы и тут у меня какая то проблема началась. Запускается модель с теми же настройками что были раньше и она или начинает мою инструкцию писать или просто повторяет предыдущий текст. Модель перекачал, таверну новую открывал для теста, пробовал приложение кобольда новое ставить и всегда те же самые ошибки. Но ничего не меняется. Может какие драйвера полетели или чет с cuda?
>>571623 >>571620 >>571632 В теории можно подгружать только 13B активных весов с SSD или оперативки. Это не так сложно. Просто задержка на ответ будет больше, если надо менять экспертов.
А модель сама по себе неплохая для своих размеров. Я не ожидал даже что 13B модель способна на пикрилейтед. Ответ кривой, но оно смутно допёрло до того что там где-то нужен тангенс угла. Этого в книжках по рисованию не пишут, надо выводить самостоятельно. GPT-3.5 на моей памяти не давала правильного ответа.
>>571720 Я посидел на опенчате, потом на турбе. Не УНИЧТОЖЕНА, конечно, но хуиту такого порядка выдаёт примерно. Впрочем если учесть что это 175б, то таки да, УНИЧТОЖЕНА.
>>571710 >>571678 Через таверну? Ее файлы или чат могли повредиться из-за таких ребутов. >>571725 > 3 файнтюна мистраля почему-то стоят выше текущей версии гопоты-3.5-турбо Секрет кота Бориса в правильной подготовке данных для теста!
>>571832 >Секрет кота Бориса в правильной подготовке данных для теста! Как я понял, данные там тупо наливают обычные люди, которые задают свои разные вопросы двум сеткам и выбирают лучший ответ. Хотя ХЗ как это точно происходит, ибо все мои "вопросы" срежет либо порнофильтр, либо антимат, либо политический.
>>571835 Платформа проводит серию одинаковых запросов нейросетям по оптимальному для них алгоритму, и уже дает сравнивать людям, или же сами авторы должны залить ответы на набор стандартных запросов? Или же в реальном времени можно что угодно вопросить и выбрать из двух рандомных результатов лучший?
>>571832 >>571846 >Секрет кота Бориса в правильной подготовке данных для теста! >Или же в реальном времени можно что угодно вопросить и выбрать из двух рандомных результатов лучший? Там нормальный слепой тест, в котором сетки оцениваются людьми. Можешь сам поучаствовать. Голосование учитывается только до того как покажут какие сетки участвовали. https://chat.lmsys.org/?arena
>>571835 Да. У меня около сотни промптов на понимание, глюки, и просто всякую рандомную хуйню, например: - What would happen if I leave my phone under the direct sunlight in Helsinki in January? можно прям видеть как у сеток в голове происходит тянитолкай: солнце значит перегрев <-> в Хельсинки в январе низкое солнце и холодно - My satellite is on the low Earth orbit, and each time it passes over Brazil, the onboard CPU crashes. What could be the reason for that? тест на дедукцию, правильный ответ Southern Atlantic Anomaly, даже GPT-4 его проваливает часто - Could you remind me where my keys are? тест на пиздаболию, большинство его проходят, но GPT-4 на пике неожиданно обосралась один раз, я аж проиграл с такого поворота И т.д. и т.п. Иногда захожу туда, вкидываю по 20-30 раз случайный промпт чтобы опросить много комбинаций. >все мои "вопросы" срежет либо порнофильтр, либо антимат, либо политический. Это скорее тест на первый ответ, а не на РП. Потому что после него показывают какая это была сетка, и следующие ответы уже не идут в рейтинг. Ну и тестить имеет смысл на английском.
>>571857 >Это скорее тест на первый ответ, а не на РП. Вот это минус, да. >Ну и тестить имеет смысл на английском. Других языков и не существует для ИИ.
>>571857 > А или Б? > Да Ну что же ты. У платформодержателей случаев аффиляции с французами нету, буквально в каждом запросе одной из сеток выступает миксстраль, или она так специально чтобы быстрее ее оценить? Странная штука, на короткие простые ответы - один микстраль против турбы. Закинул длинный промт на 2к контекста - одни турбы или клод против гопоты, зато словил почти pigma nods на какой-то модели.
На 15й ролл наконец подкинуло микстраль, вступление вроде ничего, но потом кринжовые диалоги, лупы и типикал словарный запас семерок. Ждем когда сделают его нормальный запуск, но сильно на многое рассчитывать не стоит похоже.
Алсо промтинжект или что-то еще у них похоже курсед, та же турба напрямую комплишны по аналогичным запросам выдает приличные, а у них аположайзы и тупняк. Четверка так вообще залоботомирована и дает короткие пресные реплаи, тогда как просто чаткомплишном без ничего срет простынями. >>571867 Проблема в чем-то другом, другой чат попробуй.
>>571710 Ну, значит дело не в дровах карточки и куда Обновления посмотри винды, если было чет новое до зависания то удали и проверь. Шутка про агентов зог может оказаться не такой уж и шуткой
>>571941 Салли - первая сестра каждого из 3 братьев, но нигде не сказано что вторая сестра каждого брата должна быть одна для всех. Это может быть 1, 2, 3 сестры в любых комбинациях. Условий задачи недостаточно для решения.
>>571949 Ты реально тупее нейронки. > нигде не сказано что вторая сестра каждого брата должна быть одна для всех Во втором предложении указано это. Или у тебя пошли куколдские проекции, что у двух родителей могут быть дети не от друг друга? Тогда давай ещё добавим 5 приёмных сестёр и тебя можно будет использовать вместо нейросети-бредогенератора.
>>571964 Эм, у меня есть сестра, у сестры два брата. Но у меня братьев нет, ага. Ибо они родственники по отцу, а я с ней родственник по матери. Такие дела. Впрочем, это неважно, если бы нейронки выдавали это, было бы норм. Но 95% локалок втупую множат 2 числа (спасибо что дают верный ответ), и получают полнейшую хуиту.
>>571966 > Такие дела. Я и говорю бредогенератор, додумывающий условия задачи находу. Примерно так же как в задаче про лодку нейронки привязывали козла/волка к дереву чтоб они ничего не съели. В задаче же не запрещено, почему бы и нет?
>>571973 >Я и говорю бредогенератор Да не, нормальный творческий подход. >Примерно так же как в задаче про лодку нейронки привязывали козла/волка к дереву чтоб они ничего не съели. Лол, а где такое было? Всё, что я видел, это полный пиздец, а не иные подходы к решению задачи. >В задаче же не запрещено, почему бы и нет? Таки да. Но если что, я другой анон, просто делаю замечания. Нейронки ни капли не оправдываю, ибо они нихуя даже на такие изъёбы не способны, увы. Либо выдают классические решения из датасета, либо бредят, да. Но это не значит, что любое стороннее решение это бред, тут понимать надо. >>571977 А теперь на человеческом.
>>571999 >Лол, а где такое было? Всё, что я видел, это полный пиздец, а не иные подходы к решению задачи. О, че они только не делали что бы решить задачу. Я кстати тоже другой анон. Там и намордники, и привязывание к дереву, и в нарушение условий перевозить сразу 2 объекта А какую дичь писали сетки на тест сестер это конечно мрак, ладно бы просто умножали, там иногда до алабамы доходило ведь сетка решала что раз каждый брат имеет 3 сестры то они женаты, лол
>>571732 Ну с таким же успехом можно по этому треду с кумерами рейтинг моделей составлять, когда у одного 7b файнтюн-микс от Васяна2002 это охуенно и хватит всем, а у другого даже лучшие 34б модели все кал кроме одной единственной любимой потому-что она делает специфичную узкую хуйню, которая никому кроме него не нужна.
>>571973 > в задаче про лодку нейронки привязывали козла/волка к дереву чтоб они ничего не съели Ахуенно, современные проблемы требуют современных решений. >>572010 Шутка про инцестмиксы. >>572015 А вот такое, похоже, уже никак не превзойти. >>572029 > у одного 7b файнтюн-микс от Васяна2002 это охуенно и хватит всем, а у другого даже лучшие 34б модели все кал кроме одной единственной любимой И эти заявления делает один и тот же человек.
>>572168 >потыкайте >The OpenHermes dataset is composed of 242,000 entries of primarily GPT-4 generated data Можно даже не тыкать, дрожь от избытка сои видно издалека.
>>572173 > >The OpenHermes dataset is composed of 242,000 entries of primarily GPT-4 generated data Больше накопления ошибок и сои богу накопления ошибок и сои.
>>572187 Это врядли, только в очень узкой области, а как-то сравниться/превзойти сможет MoE. Микстраль хороший такой POC, надроченный на типикал вопросы зерошотом копиум, но по ряду пунктов перформит сильно лучше простой 7б.
Никто не знает почему модель может зациклится на статеринге при попытке говорить за твоего персонажа? u-amethyst-20b.Q5_K_M вроде бы неплохие сюжеты для РП ваяет, но рано или поздно всё сваливается в зависон (i-i-i), при попытке что-то сочинить за моего аватара... Настройки температуры трогал - не помогает.
>>572029 Блять, дают бенчи - не нравится, говорят надо оценку хуманами. Дают оценку хуманами - опять не нравится. >Ну с таким же успехом можно по этому треду с кумерами рейтинг моделей составлять Ну и норм же.
>However, it stubbornly denies commonly known and unquestionable truths in order to achieve a TruthfulIQ over 70. This goes well beyond throwing the baby out with the bathwater.
>>572357 > Блять, дают бенчи - не нравится, говорят надо оценку хуманами. Дают оценку хуманами - опять не нравится. Ну так надо всё в совокупности смотреть, а не увидев в одном бенче/рейте хуманами бежать нести хуйню.
>>572352 Выглядит интересно и размер удачный. >>572354 Тут главное соседним постом в другом вопросе засрать за лишние высказывания и советы/предупреждения крича соя, соя, везде соя! >>572357 И там и там вопрос в реализации. Стандартный набор тестов - на них начали буквально надрачивать сетки и теперь они мало что отражают. Хуман тест представляется устойчивым к подобному, но даже просто чуть возмутив выбор сочетаний моделей можно сильно исказить результат без всяких подкручиваний. Простейшее ветвление в зависимости от вопроса - вообще какие угодно результаты можно получить примерно зная особенности моделей. Это не говоря про сам формат, в котором оценивается очень узкая область, на которую уже явно пошло надрачивание сеток. Оно может и хорошо, вполне себе специализация по применению, но экстраполировать это на все - ерунда.
Бля микстрал даже промпт выдал для генерации изображения. И вообще я понял, что нахуй таверну, как её не настраивай сплошные лупы и шиза. Интерфейс кобольда тащит на стандартном пресете, ни единого лупа.
>>572380 У тебя уже на скриншоте начало лупить, чел. И вообще, что в таверне что в кобольде в конечном итоге получается текстовый промпт, так что это skill issue.
>>572390 >Где ты тут видишь луп? Лупы это не обязательно дословное повторение. >>572391 >Ну и промпт в таверне так точно не настроишь Все настраивается. Ты просто не понимаешь куда пихается каждая секция и что получается в итоге. Включи логирование в консоль и посмотри что происходит.
>>572393 > Включи логирование в консоль и посмотри что происходит. Я вижу что происходит, но там никак не настроить если в примерах отвечает модель. Конкретно этот аспект ты никак не можешь настроить. Он в примеры сообщения вставляет то что у тебя прописано в инпут и респонсе. И из-за этого на некоторых промптах всё ломается. Желательно бы чтобы по умолчанию он просто писал имя персонажа двоеточие и ответ, вместо вот этой хуйни.
>>572396 >Я вижу что происходит, но там никак не настроить если в примерах отвечает модель. Конкретно этот аспект ты никак не можешь настроить. Он в примеры сообщения вставляет то что у тебя прописано в инпут и респонсе. А, ну такое есть.
>>572380 Если просто смотреть - ответ в начале вполне норм, можно конкретно доебаться к слогу но это уже вкусовщина. С промтом некоторый фейл по формату и большой фейл по лишнему предложению в нем. Начиная со 2го предложения в "промте" и далее - сплошной фейл, ответ за юзера и пустая графомания за что древний мифомакс ругали. Формат системного промта скорее всего паршивый, но раз кобольд хорош - наяривай. >>572387 В таверне гораздо более широкие возможности по его формированию, всетаки специализированный инструмент. >>572393 Верно говорит, схожую структуру не заметишь только в первый раз, а потом мозг вынесет и с каждым разом будет все хуже.
>>572404 > В таверне гораздо более широкие возможности по его формированию, всетаки специализированный инструмент. Я лучше ручками подредактирую чем буду эти шаблоны править. Ну и как я сказал выше один этот бесячий аспект никак нельзя править.
>>572408 Сделать один раз простую операцию, или из раза в раз повторять? Просто использовать стандартный. Кроме того правильный инстракт формат только таверна или прокси тебе сделает, это на любой модели улучшает результат. Про аспект не понял.
>>572418 > Кроме того правильный инстракт формат только таверна или прокси тебе сделает Оооооочень сомнительно. Учитывая как раз тот самый аспект. Завтра подрублю и покажу как оно промпт уродует, сейчас лень.
>>572419 > как оно промпт уродует О как, то что в старые времена начали практиковать, доказали эффективность, делали реверс прокси а потом реализовали в самой таверне - оказывается уродует промт. Сильное заявление.
То что произносится любителем бинго кобольд@7б уже должно настораживать ничего личного, объективный триггер, а в сочетании с фейловым скрином, который превозносится - верится еще меньше.
>>572428 > ничего личного, объективный триггер Какие же здесь токсики сидят, впрочем чего это я, это же двощ. Вот про что я говорил. Видишь ### Response в примерах в промпте? Хуй ты их уберешь, они привязаны к Output Sequence. Нет отдельного поля, чтобы редактировать, что туда вставить. И в итоге цепочка input -> response ломается нахуй. Все еще говоришь, что промпт идеальный?
>>572352 Скачал базовую версию, solar-10.7b-v1.0.Q5_K_M Так, ну по первым ощущениям отвечает как то более умно чем мистрали. Чем то похоже на 11b франкенштейнов но более причесанных. Инструкт не качал так что хз какой он, левд, сою и цензуру не проверял, просто тыкаю старые карточки и смотрю на ответы
>>572434 Причем тут токсики, объективно функционал, возможности и удобство несравнимы. Это всеравно что завалиться в сообщество таксистов этой страны и начать втирать им > пересаживайтесь на велорикши, ничем не уступает а сплошные плюсы в виде экологичности и дешевизны потому и реакция закономерна. Представленное тобою - или что-то поломал, или действительно баг. В таком случае красавчик что нашел, респект, уважение, но мог бы это представить вместо того чтобы ерунду ту втирать. Про скрин с постом уже расписали. Аможет быть и не баг а фича, надо изучить что там в мультитурн формате альпаки. > Все еще говоришь, что промпт идеальный? Про идеальность это ты додумал какие же здесь хлебушки сидят, критику/вопросы их посту воспринимают как собственное оскорбление, впрочем чего это я, это же двощ, однако с высокой вероятностью формируемый формат с директивой перед ответом даже с такими экзамплами выдаст результат лучший чем дефолт. >>572440 Речь об это https://github.com/anon998/simple-proxy-for-tavern суть в формировании верного промта вместо простых инструкций сверху и ротации user/assistant.
>>572453 > Речь об это https://github.com/anon998/simple-proxy-for-tavern суть в формировании верного промта вместо простых инструкций сверху и ротации user/assistant. Ну я и спрашиваю чего там реверсить если вот он исходный код, ты ссылку на репозиторий дал.
>>572453 > какие же здесь хлебушки сидят, критику/вопросы их посту воспринимают как собственное оскорбление Я обидчивый хлебушек после этого. > любителем бинго кобольд@7б Простите что не ебу дочь миллионера и в шкафу у меня не затесалось парочки 4090, чтобы запускать 120б голиафа.
Ладно, в любом случае я тебя выслушал, но останусь. Субъективно мне такая хуйня в эксамплах не нравится, модели иногда думают, что это все часть предыдущей истории сообщений и в итоге хуета получается. Поэтому в таверне я выпиливал примеры из карточки персонажа.
>>572481 Дело не в том что и как использовать, а в позиции. Можно довольствоваться малым осознавая плюсы и минусы этого, а можно упарываться, представляя вынужденное как наилучшее и устраивая манямир-бинго. Уже долго длятся регулярные заявления о больших победах мелочи и ненужности всего остального в сочетании с "крутыми скринами", где в лучшем случае обычные посты времен 1-й лламы. Сравнивать кобольда и таверну в качестве интерфейса для рп в принципе сложно. Отсюда и предубеждение, которое делает любое восхваление этого сочетания заведомо негативно воспринимаемым.
> такая хуйня в эксамплах не нравится Надо сравнить так и так, ни разу с такой ситуацией не сталкивался и постов о подобном в последнее время не было, всяко должно было проявиться. Уверен что > модели иногда думают, что это все часть предыдущей истории сообщений не перепутал с лупами или просто тупняками? Пигма при отсутствии контекста любила перефразировать экзамплы если там были простые разговоры. При лупах можно даже повторение системного промта поймать или других фраз из контекста ранее.
Бля, подскажите с таверной ебаной, можно как-то сделать чтобы в групповых чатах (да и не в групповых) при генерации от лица одного перса не срало якобы ответами других персов?
Скорость нейросетки вообще зависит от мощности процессора? есть ли преимущество у Ryzen 9 5950x перед ryzen 5 3600 учитывая такую оперативку? G.Skill RIPJAWS V [F4-3200C14D-32GVK] и 3600МГц имеет преимущество над 3200МГц?
>>572643 >Скорость нейросетки вообще зависит от мощности процессора? FPU среднего нормального процессора (не затычки сокета) сильно быстрее оперативы. Поэтому, на данный момент оператива это бутылочное горлышко по пропускной способности. А значит нужно брать оперативу самую заебатую из поддерживаемых процессором. И да, ДДР4 на 2 канала считается медленно, но сервачки с алиекспресс китайской помойки на 4-6 каналов уже нормально, ДДР5 на 2 канала тоже нормально. Местные аноны юзают процессоры для крупных нейросетей, которые не влазят в видеокарты для нищих работяг.
>>572660 ну вот и задумался как апгрейднуть до 70b получив скорость токенов 4 и больше в секунду. если ты смотрел какие сервера на алике можно купить для такого то что у тебя вышло оптимально цена - токен в секунду?
>>572666 >получив скорость токенов 4 Купить 12 канальный амд с ддр5. Но это дорого.
>>572666 >что у тебя вышло оптимально цена - токен в секунду? Купить проц от амд на ддр5 и подразогнать память. Цена ощутимая, но это твой домашний компьютер. Пригодится. На 70b производительность будет почти токен в секунду.
Можно купить 2011-3 с алиекспресс. Стоит недорого и производительность ~0.75 токенов в секунду для 70b. Ещё есть АМД TR4, примерно в 2 раза быстрее. На 3647 и 4189 смысла смотреть нет. Слишком дорого.
>>572670 спасибо за развернутый ответ. Мда. у меня пока что видимо за счет видюхи на 12 гигов 3.5 токена в сек на 34b и то 100 сек ответ. Даже как то грустно...
>>572443 Это и есть какой-то странный франкенштейн. >Built on the Llama2 architecture, SOLAR-10.7B incorporates the innovative Upstage Depth Up-Scaling. We then integrated Mistral 7B weights into the upscaled layers, and finally, continued pre-training for the entire model. Причем не просто мёржи файнтюнов мёржей файнтюнов файнтюнов, а реально сшивание из лоскутов какое-то, как у Витяни Франкенштейна. Странный голем, который существует вопреки законам природы.
Форчан сходит с ума по Mixtral. Вот вроде ссылка на нее https://huggingface.co/TheBloke/Mixtral-8x7B-v0.1-GGUF Че потестите? Там рассказывают знакомые сказки про то что лучше чем ентот ваш жипити в 100 раз, но мне что-то мало верится.
>>572715 Там никакой разницы по скорости в текущих реализациях. Вроде как на CPU даже быстрее. На моем калькуляторе скорость 10 токенов в секунду. >>572709 Ну японский переводит очень неплохо, что для меня было удивительно.
>>572204 Да, хуйня ненужная. Даже качать не буду. Нахуя? Она же не даёт никакого нового экспириенса. Хоть 3B, хоть 0,03B, это всё ещё тупая штука. Поэтому жду, когда начнут пилить нормальные модели 50+B. >>572250 Ага, жрёт как 70B, а толку как от 13. Спасибо нахуй.
>>572732 > Ага, жрёт как 70B, а толку как от 13. Спасибо нахуй. Ты бы на форчан зашел и посмотрел скрины и логи анонов. Все пишут, что микстрал лучше ЛЮБОЙ существующей 70б модели. А теперь прибавь это к тому, что оно на процессоре имеет скорость 10 токенов в секунду - двойной ахуй.
>>572709 > Че потестите? Там рассказывают знакомые сказки про то что лучше чем ентот ваш жипити в 100 раз, но мне что-то мало верится. В некоторых задачах ОЧЕНЬ НЕМНОГО может превосходить гпт3.5, но это не то чтобы великое достижение само по себе, сейчас любое 7-10b говно это может сделать, но ничего не сможет кроме этого. Достижение, что оно может и это, и не только это и со скоростями инференса уровня 7-15b моделей (если её всю засунуть в ГПУ, конечно же) при своем размере. Но есть по мелочи и не очень разные проблемы и до полноценных 70b+ моделей дотягивает далеко не везде. Если посидеть с ней попиздеть контекста так на 5000+ становится хорошо видно в чём страдает. Как обычно сидим ждём файнтюны и оптимизации в llama.cpp Есть ещё вероятность, что из-за MOE эту дуру можно будет очень сильно ужать без потери качества до чуть ли не 5-12 гигов.
>>572434 >Видишь ### Response в примерах в промпте? Хуй ты их уберешь Правь код таверны, хули. Возможно, так же поможет замена {{user}}: и {{char}}: на символьные имена, и тогда таверне ничего не останется, кроме как отправить это одним куском. >>572458 >Ну я и спрашиваю чего там реверсить Терминов не знаешь. >>572643 Смотри в сторону Ryzen 7000. >>572666 >ну вот и задумался как апгрейднуть до 70b получив скорость токенов 4 и больше в секунду Бери 3 штуки P40: https://rentry.org/Mikubox-Triple-P40 >>572670 >На 70b производительность будет почти токен в секунду. Слегка больше. До 1,5.
>>572751 >Все пишут, что микстрал лучше ЛЮБОЙ существующей 70б модели. Такое и про мистраля говорили, и про китайцев, а воз и ныне там. Подождём, пока первые впечатления сойдут.
>>572751 > А теперь прибавь это к тому, что оно на процессоре имеет скорость 10 токенов в секунду - двойной ахуй. На рязани 7950x с топовой DDR5 или серверном железе ещё дороже, блять?
>>572757 > Такое и про мистраля говорили, и про китайцев, а воз и ныне там. Подождём, пока первые впечатления сойдут. Ты тупой долбоеб? ПОСМОТРИ СКРИНЫ, СКАЧАЙ И ПОКРУТИ НА СВОЕЙ МАШИНЕ. Хули спрашивать если можно убедиться своими глазами и руками? И да мистраль на форчонге пока им не дали модель в своих руках потыкать.
>>572763 >На рязани 7950x с топовой DDR5 Амуди кстати посасывают по оперативе точнее по фабрике, которая не успевает накормить контроллер памяти данными, так что тут скорее 14600 покажет результаты лучше.
>>572762 Я ТВОЙ БЕНЧМАРК ШАТАЛ БЛЯ ищи в гугле самый мощный LLM там будет Mixtral-8x7B я твой бенчмарк шатал вы никто. ЧТО ТАКОЕ GPT-3.5? мы сами дали вам выйграть WinoGrande и MT Bench. Я ТВОЙ БЕНЧМАРК ШАТАЮ БЛЯ. ВЫ НИКТО со сравнения Mistral. ШАТАЮ ТВОЙ БЕНЧМАРК. БЛЯ
>>572767 5800x с пикрелейтед, выше 5 не видел. И, кстати, это норма что при промпте длиннее 200 токенов начинается полный пиздец с ожиданием когда оно его прожует и начнет генерить или я еблан криво собрал llama.cpp?
>>572774 > И, кстати, это норма что при промпте длиннее 200 токенов начинается полный пиздец с ожиданием когда оно его прожует и начнет генерить или я еблан криво собрал llama.cpp? Норма, пока нормальную обработку промпта не завезли, но генерация быстрая. А по поводу 10 токенов я рили наебался, спутал с другой моделью на этой архитектуре, только она не 8x, а 4x. Уменя тоже 5 токенов в секунду.
>>572781 Так уже мержнули поддержку в основную ветку. Возможно там не вырублено. Но суть в том что да, обработка промпта пока медленовата, но обещают исправить в будущем.
>>572773 >koboldcpp/releases >Added a new bare-bones KoboldCpp NoScript WebUI Вот нахуя они это делают? Попробую как кобольд скачается, спасибо властям за замедление гитхаба.
>>572791 >Это впервые позволяет реализовать модель с триллионом параметров на доступном стандартном оборудовании, таком как один сервер с 4 графическими процессорами NVIDIA A6000 или 8 графическими процессорами NVIDIA 3090 >доступном >8 x NVIDIA 3090 Эх...
>>567655 (OP) Пасаны, подскажите пожалуйста, напомните, куда и какую команду надо в убабуге прописать чтобы он сразу стартовал загружая нужную мне модель? В батник какой-то...
>>572818 Он не про модель, он про всё остальное барахло, что висит в памяти типичного ПК. Хотя как по мне всегда проще докинуть RAM, нежели чем так ужиматься.
>>572773 Ну... Оно работает. Это уже радует. Чуть меньше 6Т/с чисто на проце (7900х), но без обработки контекста на ВК оно нихуя не юзабельно. Пойду проверю платину.
>>572829 >Ценой скорости? Ветка изначально началась с интерфейса кобольда для бомжей. А у бомжей нет штрафа за 4 плашки. >или плашки на 32+ гига со скоростью 7200 Зачем плюс? 64 гигов двумя плашками хватает на всё. Да и амуди не умеют более чем в 6400.
>>572834 Потому что это все тот же 7В по сути. Для задачек про сестер и прочих волков с капустой это заебись, а вот для РП или КУУМ это нахуй не нужно. Тут никакие лоры не помогут.
>>572837 > Для задачек про сестер и прочих волков с капустой это заебись, а вот для РП или КУУМ это нахуй не нужно. Тут никакие лоры не помогут. Какой же ты даун. Ахахахаха
>>572830 >Пойду проверю платину. Ну хотя бы рыбы у неё не тонут, уже радует. С книгами логика верная, но хули оно назвало неверную цифру. Чувствительность к репетишенам? Темпа высокая? Ох уж эти модели, ломающиеся от каждого дуновения ветерка. Я думал этим грешат только китайцы. Про отцов у меня верно только гопота 4 решает, так что... Про петухов и яйца ответ засчитываю.
>>572840 Математика в скобках конечно странная, и ХЗ, зачем оно тут, без скобок ответ был бы "верным". Шутку про молот тора не выкупила, ибо у меня только гопота 4 и клод могут соотнести тяжесть двух вещей. Про множества даже комментировать не буду, тут нужен переформулированный вопрос. Про негров ожидаемо не шутит. Но чего ещё ждать от инструкт версии.
>>572845 Короче попробовал шутки про негров в ролеплее, нацики их не знают. Окей, будем считать что это так. Проролеплеил немного, и модель быстро запуталась, кто там шпион, выпалила свой план и не поняла, где обосралась. Короче типикал 7B.
>>572843 > чтобы заставить нормально работать обычную инструкт модель У мелких моделей просто не хватает мозгов. Я два дня провел за промпт-инженегрингом и подбором параметров пытаясь заставить в таверне группу из 4 персов заработать на куче моделей меньше 20b. Всё говно ебаное просто, которое надо сидеть задушивать чтобы оно хоть как-то приемлимо вело себя и отыгрывало персов. А та же ссаная mxlewd20b делает это почти адекватно сходу почти даже на неправленных всратых персах. В пизду просто, у мелких моделей не хватает понимания нихуя чего от них хотят и что происходит как ты не заправляй их промптами и чем угодно.
Про микстраль есть подозрения, что её и тюны с миксами сходу не научат хорошо РП-шить на уровне моделей 20-30b+ из-за собственно MOE и там придется крупно заебываться с файнтюном.
>>572630 Кажется идея не столько в сжатии сколько в загрузке на гпу только нужных частей.>>572660 > 6 каналов Где можно посмотреть? >>572670 Только добавь что обработка контекста зависит от видеокарты и количества слоев на ней. Генерацию там можно и под 2 т/с получить, но при смене контекста ожидание затянется и выхлоп может оказаться вообще 0.2
>>572709 К нему запускалку нормальную сделали уже чтобы катать на человеческих скоростях без A100? > сходит с ума > лучше чем ентот ваш жипити в 100 раз Судя по публичным формам там крутое достижение для 7б и ахуенная демонстрация системы, но копиум по результатам и все заявления о победах взяты из узкой области. >>572732 Не настолько плохо, оно лучше 7б и в некоторых (редких) случаях сравнивается с большими сетями, сам подход к реализации перспективный.
>>572904 >Кажется идея не столько в сжатии сколько в загрузке на гпу только нужных частей. Там вроде в папире изначальной да и на скрине у Тима именно про квантизацию речь. Но как понимаю прикол в том, что по сути чем больше MOE модель, тем устойчивее она к квантизации, насколько это для микстрали применимо пока вопрос.
>>572906 >К нему запускалку нормальную сделали уже Пока только на проце, с обработкой промта по 5 минут: >>572773 Результаты моих катов выше, полностью согласен с >копиум по результатам и все заявления о победах взяты из узкой области >>572906 >сам подход к реализации перспективный. ХЗ. По моему трансформеры сами по себе говно, но ничего другого нам не дают.
>>572906 > там крутое достижение для 7б Заебали, микстраль не 7B вообще ни в каком месте, они уже сами релизную страницу поправили с указанием на это и что надо было по другому модель называть.
>>572751 > Все пишут, что микстрал лучше ЛЮБОЙ существующей 70б модели Это пишут почуявшие гойду нищуки, крупных локалок даже не нюхавшие. Хз как их вообще можно сравнивать почитав слог микстраля и попытавшись с ним рпшить на хотябы каком-то контексте, или банально спросив что-то за пределами 10% популярных страниц википедии/фандом вики. >>572752 Вот этого двачую. Алсо в таком случае стоит ждать подобные MOE из шизомиксов или просто разных моделей и других размерностей, вот уж где можно будет разгуляться. >>572778 > Норма Это рофл или серьезно? >>572845 А чего так грустно то?
>>572920 > стоит ждать подобные MOE из шизомиксов Ждать дольше чем обычно придется, сейчас все тюнеры и миксеры будут разбираться в MOE и как это нормально тюнить и миксовать не охуев.
>>572922 >Нормально РПшить это отдельная сложная задача.
Да нифига. Даже без спец тренинга на РП 70 и 120 модели отлично в РП могут. Ну исключая цензуру и сою, это уже отдельно вырезать надо. Даже 30 модели могут нормально РПшить.
>>572929 > Даже 30 модели могут нормально РПшить. Даже 20B могут приемлимо РПшить, но уже с заметными проблемами в понимании происходящего и детальности. Чсх, по моему опыту куда проще заставить адекватно рпшить всякую откровенную кумерскую хуету, на тех же lewd-миксах, например, чем что-то более осмысленное.
>>572929 >120 Голиаф или сборке на его основе? Автор Голиафа хвастался ультразаебатым онли рп датесетом. >70 Мержи на основе Синтии или Аэробуса. Авторы обеих максимально кропотливо и с фанатизмом выдрачивали датасеты.
>>572911 > по сути чем больше MOE модель, тем устойчивее она к квантизации На основе чего сделан такой вывод? >>572912 > нормально запускают Со скоростью как 7б на голом процессоре и медленным контекстом? >>572914 На мамбу надежда, с теории с ее размерами можно даже имея 3090 p40 если очень терпеливый полноценно обучать и играться, а полученные результаты и наработки потом эффективно отмасштабировать. >>572917 > микстраль не 7B вообще ни в каком месте 8x7b, из названия идет. Судя по скорости работы и коду при взаимодействии отрабатывает только ее часть. >>572922 Ну как, специализированные 13 справляются лучше чем эти эксперты, стэм файнтюны / универсальные 70 отыгрывают как боженька что иногда превосходят большие сетки, была бы ллама2 30б - скорее всего была бы золотой серединой и могла бы.
>>572936 > Судя по скорости работы и коду при взаимодействии отрабатывает только ее часть. Два эксперта из восьми. Она примерно 12B на самом деле.
>The Mixtral MoE is called Mixtral-8x7B, but it doesn't have 56B parameters. Shortly after the release, we found that some people were misled into thinking that the model behaves similarly to an ensemble of 8 models with 7B parameters each, but that's not how MoE models work. Only some layers of the model (the feed-forward blocks) are replicated; the rest of the parameters are the same as in a 7B model. The total number of parameters is not 56B, but about 45B. A better name could have been Mixtral-45-8e to better convey the architecture.
Кстати, про вой на форче и не только и качество логов: квантированные модели TheBloke, которые все крутят, СИЛЬНО убивают качество, MoE не квантуется так же просто как обычные модели, так что учитываете это в обсуждениях хуевости.
>>572920 >А чего так грустно то? Настройки не те/запускалка не та/руки не те. Всё как всегда. Высрали новую модель, а что с ней делать никто не знает. Ладно хоть запустилась. >>572936 >наработки потом эффективно отмасштабировать Да вот пока никто нихуя не масштабирует. Десяток начинаний 7B и меньше, лол, моделей больший размеров только китайцы, но те без экспериментов. >>572937 >Тупо Ллама 70В ебет во все щели все что ниже каких-то мегатюнингованных 20В Два чаю.
>>572939 Вон они сами это пишут >Quantization: Quantization of MoEs is an active area of research. Although TheBloke has done initial experiments to achieve 4-bit and 8-bit quantization, the model quality degrades significantly. It will be exciting to see the development in the coming days and weeks in this area. Additionally, recent work such as QMoE, which achieves sub-1-bit quantization for MoEs, could be applied here.
>>572939 >квантированные модели TheBloke, которые все крутят, СИЛЬНО убивают качество Ну дык иначе никак, крутить во врам неквантованные 45B могут не только лишь все. Все пишут про мега охуенные кванты на 2 или даже полбита, а пользуемся в итоге вариантом, не сильно далеко ушедшим от самого первого GGML, лол.
>>572938 Там не кванты, а сжатие. То что размер "приближается к 1 биту на параметр" не значит что там каждый параметр квантован в 1 бит. Это просто плотность данных.
>>572943 >Ну дык иначе никак, крутить во врам неквантованные 45B могут не только лишь все. Если QMoE реально так охуенно работает и его можно применить к микстрали и будущим моделям на её базе и около - будет ахуй. >Все пишут про мега охуенные кванты на 2 или даже полбита Ну вот эти все разговоры про MoE были, которых нихуя и не было до текущего момента по сути и никому не нужны в попенсурсе были, а теперь вот микстраль сделали и все сейчас дрочить начнут увидев перспективу.
Но не дрочим на чрезмерные надежды, конечно, чтобы не разочаровываться.
>>572933 > Авторы обеих максимально кропотливо и с фанатизмом выдрачивали датасеты Читай ответственно подошли к файнтюну а не "хуяк хуяк замешал - вот вам новая модель убийца X, задонатьте мне на 3090" > Автор Голиафа хвастался ультразаебатым онли рп датесетом. Просто голиаф это разве не франкенштейн из готовых? Его файнтюны - да, но хз что по ним там. >>572939 > MoE не квантуется А если трансформерсом на cpu пускать, сильно плохо выйдет? Он вроде и сам умел худо-бедно сплитить.
>>572947 Я пейпер по диагонали только читал, там постоянно что кванты, что сжатие упоминаются рядом и выглядят как синонимы, по этому так назвал. Офк в общем речь про плотность данных.
>>572951 > А если трансформерсом на cpu пускать, сильно плохо выйдет? Плохо в плане? Качества? По качеству там пока что всё плохо что не оригинальные FP16 веса, их трансформерсом только и запускать затарившись 128гб оперативы. По скорости хуй его знает вообще.
>>572957 > По скорости офк Хз, инфы не видел, тут на весь харкач и форч анонов 10 пишущих что-то дай рандом наберется, кто в состоянии её в ориг весах погонять.
>>572939 > квантированные модели TheBloke Потому что он квантовал вообще все линейные слои. Наверняка там какие-то нельзя квантовать, например те что отвечают за выбор эксперта.
>>573004 > а в плане секса "умности" и общего количества параметров MoE хуй знает как сравнивать с не-MoE Берёшь и сравниваешь. Пока что не сказать чтобы сильно дохуя: >>572840
Недавно писал по поводу неработы моделей. Сейчас протестил не работает только один тип моделей и это 34b, модели на 20b норм работают. 13b тоже. А 34b просто отказываются. При этом памяти 32 гига. + видюха 12 гигов. Модель 34b кванта Q3. Думал может видюха глюкнула, выгрузил все в оперативку и на 20b и на 34b. На 34b или повторяет предыдущий ответ или пишет промпт мой. На 20b все норм. Не могу понять в чем дело, до этого все работало зашибись и с 34b.... Запускал и через кобольд и через угабугу.
>>573051 В хубабубе загрузи модель, на вкладке дефолт в инстракт режиме у нее что-нибудь интересное запроси а скинь скрин. Перед этим в параметрах число токенов ответа побольше поставь чтобы не оборвалось.
>>573074 > выдает доступ закрыт Покажи скрин, твой впн явно протух. Или дожидайся когда будет время заняться вики. > ну вот че у меня получилось Ну ты инструкцию то нормально напиши а не просто голый шаблон с кривым добавлением. Хотя даже ответ на 2м скрине вполне соответствует тому что на входе, модель работает.
Пацаны, сижу на форчке, тут особо не сижу Все же знают про прорывную модельку новую Mixtral 7x8? Это просто охуенно, вполне можно ЕРПшить, сои почти нет - канни присутствует
>>573185 Ну у меня с koboldcpp, с 4090, на таверне с mistral Instruct mode и пресетом ouroboros все норм. Не забудьте отрубить mirostar совсем, не качайте кванты ниже 5_K_M, поставьте blas batch size -1, rope 1.0 1000000
>>573192 Ну я ничего не отрубал, все работает, я даже сгрузил туда слои. Может конечно игнорит, но генерит быстро достаточно. Правда очень долго processing prompt [BLAS] проходит в первый раз, пару минут в зависимости от контекста.
>>573174 А ну я еблан гружу всё в раму на проц без гпу и оно естественно в fp32 вгружается и никуда не влезет.
>>573188 >не качайте кванты ниже 5_K_M >Although TheBloke has done initial experiments to achieve 4-bit and 8-bit quantization, the model quality degrades significantly.
Каким-то образом оно влезает без квантования в bf16 в 80гб врамы, но скорость кромешный пиздец, или что-то где-то не так у меня, или 0.5-0.7 t/s для фулл моделей без обмазывания квантами и прочим на А100 это норма. На чистой раме и 16 ядрах среднего зеона можно даже не пытаться крутить полную модель, там скорость уверенно стремится к нулю.
>>573268 Подозреваю или что-то с виртуалкой и гпу не так, или с вебгуи и трансформерс. Впадлу уже ебаться дальше, дорого нахуй сидеть в говне копаться на виртуалке с A100/
Чёт проигрываю с этого калечного говна от гугла. На вопросе про викингов сломался (наверно чтобы не обижать давно мёртвых то ли викингов, то ли монахов), зато Нерона мгновенно обелил абсолютно мемным ответом.
Покрутил этот микстраль на профессоре, при тупом запуске трансформерсом в лоб на торч-цпу отжирает совершенно неприличный объем рам на 128 без оптимизаций - без шансов. Только что работает относительно шустро на саму генерацию. Если есть интерес - кидайте промты, по первым ощущениям в рм оче сомнительно.
Че все так от микстраля обкончались? Это ведь просто микс специалистов 7b. Да, эта штука может быть хороша в некоторых задачах, но она все еще не обладает глубиной и пониманием больших сеток, что собственно и является минусом любых текущих 7b Тупо ограничения архитектуры и количества слоев. Вот если бы как то вычесть разницу из всех этих сеток и слепить в одну большую - было бы интересно
ентот ваш микстраль хуйня соевая, там челики в форчановском /lmg/ с помощью "tree of big nigga" промтинг-техники вытащили всю сою этой модели наружу, но почему то стандартный alpaca инструкт фиксит это, почти : Below is an instruction that describes a task. Write a response that appropriately completes the request.