3. Объединяешь дорожки при помощи Audacity или любой другой тулзы для работы с аудио
Опционально: на промежуточных этапах обрабатываешь дорожку - удаляешь шумы и прочую кривоту. Кто-то сам перепевает проблемные участки.
Качество нейрокаверов определяется в первую очередь тем, насколько качественно выйдет разделить дорожку на составляющие в виде вокальной части и инструменталки. Если в треке есть хор или беквокал, то земля пухом в попытке преобразовать это.
Нейрокаверы проще всего делаются на песни с небольшим числом инструментов - песня под соло гитару или пианино почти наверняка выйдет без серьёзных артефактов.
Q: Хочу говорить в дискорде/телеге голосом определённого персонажа.
https://elevenlabs.io перевод видео, синтез и преобразование голоса https://heygen.com перевод видео с сохранением оригинального голоса и синхронизацией движения губ на видеопотоке. Так же доступны функции TTS и ещё что-то https://app.suno.ai генератор композиций прямо из текста. Есть отдельный тред на доске >>662527 (OP)
Нет, без прикола, я правда пару месяцев назад ей делал, было забавно но прямо никак не вспомню а что за калом вообще я пользовался, у вас в шапке под номером 8 из нее говнецо как раз, как эта срань называется, вот хоть убейте не помню, неплохую песенку себе на ней сделал просто и сейчас еще захотелось. Шапку вашу прочитал, более инфомусорной шапки я не видел нигде лол, походу с аудио совсем пиздец, даже хуже чем с картинками.
>>664162 (OP) Voice Changer - ПОМОГИТЕ ПОЖАЛУЙСТА!!! Сегодня несколько раз идеально модель работала, но чаще всего баговалась на значении "crepe". А она только на нем работает как надо. Просто все жутко лагать начинает, задержка растет и не думает падать. И вот эта надпись в консоли смущает
>>664162 (OP) Пользователям TTS. А какое применение вы видите вообще в этом? Мой кейс был такой - выдернул текст из файла субтитров для того чтобы прогнать через ТТС и затем прогнать через РВЦ для дубляжа. Итог такой что все эти ТТС начитывают максимально механически и для +- нормальной озвучки не подходят вообще. Есть какая ТТС которая как то играет голосом немного? И почему при прогоне через РВЦ в готовом оутпуте как будто не применяется файл черт голосовой модели, потому что на выходе звучит так же механически только другим голосом
>>667361 >>666945 Двачую этого. Недавно замутил себе speech2speech на нескольких нейросетках (yt-dlp -> whisperx + выравнивание от туда же -> deepl -> edgetts -> ffmpeg клеим обратно). Осталось лишь выровнять зачитку по временным отметкам старта и финала. У edgetts есть коэффициент ускорения, но как прикинуть длительность итоговой зачитки? Вариант "в лоб" – сгенерировать аудио, взять его длину и поделить, после чего заново сгенерировать.
Возможно, есть более изящные решения в опенсурце? Если у кого-то есть идеи или наработки — заделитель ништяками в тредике.
>>667448 тменно по временым отметкам>>667448 >edgetts >>667448 почему не заебашишь студию озвучки скрипт на автоматическу скачку с пиратбея. RARBG а дальше свой комбайн и заливаешь автоматом свое говно на рутор для дорам и всяких сериалов уровня , учитывая скорость идея вроде хорошая
>>667473 Тогда к этому комбайну нужно подключить расстановку ударений и определение эмоций в речи. Если не путаю, edgetts может не только монотонно зачитывать, но и кричать, шептать, радоваться и все такое. Ещё сетку на различение голосов, хотя бы женский/мужской, выбор соответствующего в edgetts.
Можешь заняться, скиллов никаких не нужно: всё готовое переклеить.
Мои же задачи куда тривиальнее — палить по дискорду ютуб с корешами, кто языка не понимает.
>>667493 можно просто готовый файл перегнать через rvc голосом володарского монотоность в итоге заамаскированна эстеты оценять мне осталось как понять edgetts читать по временым меткам а не сплошняком
Вечер в радость, аноны. Может кто знает, какие есть модификации для Whisper или альтернативы? Запускаю на локальной машине с Whisper GUI от grisk. Что удобно: можно обрабатывать файлы пачкой, работает просто, закинул, через время готовое забрал. Что неудобно: нельзя настроить таймкод, нестабильное разделение на спикеров (иногда есть, иногда нет), отсутствует прогресс бар и вообще какое-либо отображение процесса обработки, только файл начат - файл закончен. От гугления только больше запутался. Гуев много, но все субъективно хуже. В погромировании не шарю, хочу решение для локального запуска с кнопкой "Сделать заебись". Может, есть какие-то модели чисто под русский язык, или модифицированный для русского Whisper, с возможностью настраивать какие-то параметры типа тех же таймкодов и без особого красноглазия?
Доброго времени суток! Меня интересует возможность очистки от нежелательных эффектов бэк-вокала и прочей шумовой составляющей, которая ухудшает качество кавер-версий. В данный момент я использую UVR с такими плагинами: Kim Vocal 2, UVR-DeNoise, UVR DeEcho-DeReverb, а также плагин MDX-B Karaoke (lead/back vocals) на MVSEP. Итак, вопрос к знатокам: какие существуют более продвинутые методы очистки и изоляции вокала?
Два вопроса: 1. На кой хер эта хрень в интернет просится? Я не для того скачал локальную нейросетку с этой пердольной консолью, чтобы она ещё и в интернет лезла. 2. Я даже не вижу, чтобы она просила разрешения в интернет. Я бы в фаерволле увидел. Она через какой-то другой сервис пытается сделать какое-то коннект? Объясните, что там включается у неё?
>>680119 База на английских фонемах. Походу никак это не пофиксить, пока кто-нибудь новый беслптный инструмент не высрет без этого врожденного дефекта.
>>682089 Хуй знает. Ещё ни разу не слышал результат работы RVC и его форков без этих артефактов. Если есть возможность в треде или где обязательно надо спросить у людей кто такие фейки делал как добились. Может там вообще какой-то платный сервис на самом деле используется или какая диковиная хуйня не доступная бесплатно. Я ещё помню был софт по изменению голоса от российских разработчиков (забыл как называется) и его изьяли из открытого доступа из за того что наебщики бабок по телефону моментально его на вооружение взяли.
Сап, голосовые мои. Скажите что мне из это в шапке может озвучивать текст не просто голосом диктора, а чтоб была опция, где выбрать с какой эмоцией бот будет это говорить - страх, гнев, радость и т.п. Я видел в онлайн сервисах такой выбор. Уточняю мне надо ТТС именно с разными эмоциями на выбор, RVC я уже оформил пару месяце назад, но потом забил, чтоб потом голосом избранных персонажей говорить.
>>684370 А чому так? Технологии древних утеряны спустя полгода? А любят кричать зато - посмотрите какой у нас открытый исходный код, а сами на хуг фейс выжимают платную машину, чтоб нельзя было скопировать себе и не ждать в очередях. Я пробовал сегодня ХТТС. Конечно я это программистичкое для линуксоидов устанавливать не буду и чето там в консоли писать, это пиздец кал. Но получалось оно что-то рабочее, реально из 6 секунд похожий голос получался онлайн на хуйгфейсе. Но там очереди долгиеЮ нет фич для поднастройки и копировать себе нельзя, нужна платная машина. Кал. Остаётся реально чтоли онлайн на сайтах ИИС пользоваться где у ботов разные эмоции на выбор и в РВС преобразовывать? Нет альтернатив? Это ж блять просто сделать моделей 8 типов людей по возрасту и полу и у каждой по штук 10 эмоций, за неделю можно натренировать. То есть уже сделали, жиды не дают пользоваться бесплатно. Два стула, что либо плати, либо жри кал с отрытым кодом костыльный линуксоидный программистический для бомжей.
Эта софтина Ultimate Vocal Remover из шапки просто золото среди говна! Бесплатная, да и то ещё не для программистов-аутистов. Я так охуел и не ожидал, что сразу на радостях сделал аи кавер.
>>684502 > А любят кричать зато - посмотрите какой у нас открытый исходный код Тот кто в аср/ттс крутится знает, что силеро потом кричит "хули вы пользуетесь нашим открытым кодом, там в 78 строчке лицензимонного соглашения написано что вам нам должны бабок". Силеро всегда была компанией-пидорасом, на неё лучше не ориентироваться.
Блять как же заебало. У меня в RVC ошибка с обучением модели КУДА ран оф мемори и не трейнит, че только не пробовал, и меньше требования ставил и форумы читал, анальники хуебясят на форумах и ютубах и тратят моё время. Как-то сам допёр и обновил models.py и заработало. Почему не могут делать говно чтоб работало искаропки? Такое чувство будто они разрабатывают это всё, но сами не пользуются совсем. А нах делать тогда, если деньги даже не платят??
>>685946 >ну у меня размер пачки больше >>12<< и не тянет фик. куда цифра проебалась?
Алсо странное - я тренил две модели с 250 эпохами, а потом с 700. Думал что вот щас качество так качество услышу, а стало хуже, больше электронных звуков голоса робота стало. Как же так? Это не повезло просто или слишком много нельзя?
Слушайте, а можно ли как-то обучить чужую карточку персонажа с вей.гг другой карточкой, которая обучена на кумерскиъ стонах, чтоб первая карточка стонала в характере персонажа, не? Или даже думтаь не стоит? Надо ведь собирать звуки с этим оригинальным персонажем? И допустим если я соберу звуки и сделаю свою маня карточку только со стонами и ахами этого персонажа, то можно её влить в чужу карточку с этим персонажем или хуйня получится и надо полностью свою со всей базой всего генерить?
Мне нужно озвучивать огромные объёмы текста на русском. Пока что лучше всех с этим справлялся Evenlabs, но перебанили все аккаунты + бан по ip, а платить разумеется не хочется. А даже если и платить, мне никакой подписки не хватит для моих объёмов. Есть ли альтернативы или обход блокировки? (впн, прокси, тор не канают)
Сап! Есть аудио, в котором поверх одного голоса говорит второй. Есть нейронки чтобы эти голоса прилично разделить? Или еще не доросли до такого? Пробовал MDX-B Karaoke на mvsep, но хуйня. Или я че не так настроил?
>>701964 Это же невозможно слушать. Оно даже не там смысловые ударения ставит. Причём не просто на уровне плохой актёрской игры, а на уровне банальном, натурально проваливает точки и запятые. И это всего три минуты, из которых я с усилием дослушал две. Как такую белиберду целый час слушать не представляю. Скажи честно, это ты такой лоускилл, что не смог настроить её нормально, или нейросетка в целом такая отстойная? Не имею цели тебя обидеть, если что.
>>702958 Настроить можно так что от живой речи не отличить. Но нужно править сам текст вручную и расставлять ударения плюсами. Никто для разового прослушивания - подобной хуйней заниматься не будет. За 3 минуты там пяток неправильных ударений что более чем годно. Конкурирующие нейросетки выдают либо такой же либо худший по сравнению с этим результат, но у этой есть плюс в виде автономной работы без ограничений. Если что я еще и аудиокниги слушаю на скорости в 220-240% так что мои мозг работает почти все время в ускоренном режиме и сам адаптирует качество до приемлемого. Люди не понимают что мозг очень гибкий инструмент и он может сам адаптироваться, всего день прослушиваний и мозг сам начнет правильно выставлять ударения при прослушивании и ты перестанешь замечать какие либо шероховатости.
>>703003 > Если что я еще и аудиокниги слушаю на скорости в 220-240% так что мои мозг работа Как в таком порядке можно вообще что то услышать, понять и главное прочувствовать из книги? Это художественное произведение, а не состав продукта "говяжьи анусы идентичные натуральным". Тут важны игра образов, слова, атмосфера, почище, чем в кино, собственное осознание. Это не краткий пересказ послушать. Я уже писал про то что и на стандартной скорости этот кал слушать невозможно
>>703441 >>703443 Дураки вы. Мозг очень быстро адаптируется и сам переключает передачи. День два тренировок и вы будете воспринимать скорость в 240% как 100% даже не понимая на какой скорости вы сейчас смотрите\слушаете. Это те кто никогда ничего не слушал на ускорении думает что там каша получается, но со временем мозг вырабатывает свои режим работы и вы будете понимать и игру слов и интонации и вообще будете смотреть на себя в прошлом как на дурачков что проебали кучу времени. Недавно я попробовал посмотреть Дюну Вильнева на 100% так чуть не сдох от уныния, как я раньше вообще смотрел фильмы на такой скорости не пойму. 200% это минимальная комфортная скорость для потребления контента.
Мозг всегда сам настраивает восприятие течения времени и имеет встроенный эквалайзер. Раньше я думал что аудиофилы прогревают наушники после покупки но потом понял что прогревается именно мозг. Мозг сам меняет восприятие и занимается выравниванием АЧХ. Мозг всегда занимается адаптацией своих функций хотите вы этого или нет.
>>703658 Ебать шизик тиктокоголовый. Какая каша у тебя в голове боюсь представить. Ни о каком запоминании и восприятии тут естественно не может быть и речи.
Подскажите хорошую speech-to-speech модель для русского женского голоса. Просто хочется потраллировать чуваков в воис чате. Англоязычных моделей полно, но они все шепелявят, когда говоришь на русском. Русские ищу по конкретным персонажам, которые в голову приходят, но обычно оказываются низкокачественные. Мне бы хоть какую-нибудь, лишь бы был женский голос и правдоподобно звучал.
Ананасы, помогите заплатить барыгам на Plati.Market
Аноним17/04/24 Срд 21:24:48№707602134
Раз в несколько месяцев я набираю себе воду из родничка подписки на ElevenLabs - сделать это можно только через Plati.Market, потому что наши карты (особенно Беларуси) зарубежные сервисы не принимают.
Раньше я делал это через любого доступного барыгу: выбирал в способах оплаты карту Казахстана и оно пропускало. Со временем кто-то пораскинул своими тремя извилинами и убрал этот способ, так что пришлось переходить на Киви - итог известен.
Я конечно понимаю, что переводы денег между Россией и Беларусью это охуеть какая сложная международная задача уровня Мстителей, но неужели не осталось больше никаких способов, кроме ЮMoney (бывший яндекс-кошелёк, который не даёт себя пополнить без скана паспорта на фоне жопы в трёх проекциях)?
В наличии есть беларуская карта МИР, которая нормально оплачивала в России, но у барыг конкретно такого варианта нету. Крипта тоже не пойдёт, её тут хуй купишь без мозгоебли и тех самых фоток с жопой (или я чего-то не знаю). Если кто-то тоже попал в такую ситуацию, то напишите пожалуйста, если остался какой-нибудь рабочий способ
>>707628 Да если бы только жопу прислать, как когда-то в вебмани, и всё - там же целая куча мозгоебли, которую принимает лишь один банк. Ещё и взнос такой, будто я медицинскую страховку открываю, а не электронный кошелёк
>>708286 Ну как знаешь. Я вбивал неподготовленный текст в обе модели и обе модели обсирались в одних и тех же местах. У меня вообще сложилось впечатление что это одна и та же модель но с разными голосами.
Аноны, у меня технический вопрос по железу. Если пользоваться локальными моделями, то на что лучше обращать внимания по железу т.к. в скором времени хочу сменить компуктер.
>>664162 (OP) Аноны, нейрокаверы вам в хату, такой вопрос - как переделать голос с мужского на женский и вообще реально ли это? Я записываю свой и на женской модели полный треш выходит. Делать высокий pitch тоже не помогает. Но при этом когда я даю модели запись голоса какой нибудь тянки, то плюс минус похоже получается.
>>664162 (OP) Аноны, дайте всю базу, если я хочу себе натренить голоса 2д девочек для moe-tts или что там сейчас топовое вышло. Еще что-то нужно сделать с эмоциями и интонациями. Вроде есть какой-то параметр питча, который в теории можно было бы менять прямо во время фразы. Но находил только какой-то университетский дроч. В общем, если кто-то что-то знает, подскажите.
Нужно быстрая ттс модель + стс чтобы преобразовать ее в нужный голос, для реалтайм чатбота. Попробовал xtts v2, но он медленный как жопа даже на сторонней апишке. Есть какая-нибудь средняя по качеству моделька на 400кк параметров которая может в русский и быстрая конвертация в другой голос?
>>683630 Я в одном из прошлых тредов писал свой опыт по установке этого говна. В общем там черех жопу надо скачивать модель с сайта силеро, с директории, на которую ниоткуда нет ссылок, так что найти ее можно только подрочив в присядку. Не советую начинать ставить силеро, так как тот же AllTalk на порядки лучше.
Оно раньше было еще хуже, но автор подошел к делу со страстью и всего за два месяца такой прогресс. Надеюсь он не забросит проект. По сути он ничего нового не делает, а просто оптимизирует рабочие варики. Если судить по старым видео раньше он вообще использовал нейронки яндекса, гугла и говнАлису.
Почему Суно из дк выпилили модели нейронки? У меня с сайтом давно проблемы, ничего генерить не выходит. Вылетает при каждом удобном случае, как с впн, так и без. С разных устройств
>>729665 >В коментах автор же написал 11 labs Действительно. Спасибо.
Интересует именно дубляж. Но автодубляж не тащит. Платные планы позволяют фиксить пере0еденный текст и ударения?
Так же халявный план не позволяет загружать аудио, только видео. Я в ffmpeg прицепил к mp3 изображение залитым одним цветом для меньшего веса: ffmpeg -loop 1 -i input.jpg -i input.mp3 -vf "scale=640:480:force_original_aspect_ratio=decrease,pad=640:480:-1:-1:color=black,setsar=1,format=yuv420p" -shortest -fflags +shortest output.mp4
Но вы все скорее всего все это уже знаете. Когда указал как источник минутный ютуб ролик, оно уже пол часа его обрабатывает.
>>731819 Бесплатный аккаунт позволил скачать только первый голосовой перевод. Все остальные попытки что-то перевести не позволяют скачать результат, только прослушать первые 3-5 секунд.
Интересно если создать еще один бесплатный аккаунт, вычислят ли меня что я пытаюсь обойти их жадность?