Ответы на пост «Higgs Audio Studio: локальная озвучка на 100+ языках с клонированием голоса и AI-режиссёром — для подкастов и аудиокниг»

Ответ на пост «Higgs Audio Studio: локальная озвучка на 100+ языках с клонированием голоса и AI-режиссёром — для подкастов и аудиокниг»⁠⁠

10 часов назад

Сделал форк - так как на 3090 не завелась. Чутка допилил напильником для длинных текстов и внешней LLM в ML Studio.
https://github.com/SaidAuita/HiggsAudio-Studio/

🔌 Совместимость с RTX 3090 / 4090 — изоляция процессов llama.cpp и PyTorch через фоновый демон-процесс (director_daemon.py); устраняет конфликты CUDA-контекстов и падения инференса; выгрузка моделей «на лету» для освобождения VRAM.

🧬 Длинный клон — озвучка сверхдлинных текстов и книг с автоматической разбивкой на фрагменты, пофрагментным авто-обогащением, синтезом частями и бесшовной склейкой с настраиваемой паузой.

🌐 Внешние LLM — глобальная интеграция с LM Studio / Ollama / OpenAI API (External API); перенаправление автоулучшения со всех вкладок на внешнюю модель; настраиваемый системный промпт режиссёра.

🧪 Тест подключения — кнопка быстрой проверки связи с внешним API и интерактивный редактор промптов с выводом подробных кодов ошибок в интерфейс.

💾 Автосохранение настроек GUI — сохранение и автоматическое восстановление всех параметров (моделей, голосов, слайдеров температуры/top-p) между запусками в локальном файле gui_config.json.

💻 Только CPU — переключатель в интерфейсе для полной обработки TTS и LLM на центральном процессоре (без использования видеокарты), что полностью освобождает VRAM.

🌑 Всегда темная тема — принудительное включение темной темы при первой загрузке без светлого мигания.

Только на CPU - работает, но ооооочень не быстро. Учитывая тест на 5950x :)

Показать полностью

Nerual.Dreming

Искусственный интеллект

Higgs Audio Studio: локальная озвучка на 100+ языках с клонированием голоса и AI-режиссёром — для подкастов и аудиокниг⁠⁠

13 дней назад

Озвучка текста нейросетью — давно не новость. Но почти всё хорошее живёт в облаке: платишь за символы, отдаёшь свой текст чужому серверу и упираешься в лимиты. Higgs Audio Studio разворачивает эту историю на 180°. Это портативная обёртка вокруг свежей модели Higgs Audio v3 TTS (4B) от Boson AI, которая целиком крутится на твоей видеокарте. 100% оффлайн, без подписок и без отправки данных наружу — скачал папку, запустил, говоришь.

В чём прорыв v3. Это не «читалка вслух», а модель, обученная говорить — сама расставляет интонацию, паузы и эмоции по смыслу фразы. И скачок поколения тут реально огромный: на мультиязычном тесте Higgs-Multilingual средняя ошибка распознавания (WER) упала с 52,2 у прошлой версии до 3,6 у v3, на MiniMax-Multilingual — с 49,9 до 2,7. На классическом SeedTTS — 1,11, лучший результат среди 11 моделей в таблице (Fish Audio S2 Pro, Qwen3-TTS, VibeVoice-7B, IndexTTS-2 и др.). И всё это при весе всего ~4 млрд параметров.

Главное — выразительность. В слепом тесте Emergent TTS, где судья сравнивает живость речи, v3 берёт лучший общий результат и первое место в самых сложных категориях: паралингвистика (68,6% побед), вопросительная интонация (61,4%), сложный синтаксис (60,7%). Там, где другие модели «бубнят», эта играет голосом. Она умеет шептать, кричать и даже петь, а в текст можно вставлять 43 управляющих тега: 22 эмоции, стили и 9 звуков — смех, вздох, кашель, чихание и прочее (<|emotion:amusement|>, <|sfx:laughter|>, <|prosody:pause|>).

Как это устроено (на схеме в начале поста). Авторегрессионный декодер жуёт вперемешку текстовые и аудио-токены. Звук кодируется собственным Higgs Tokenizer в 8 кодбуков на 25 кадрах/сек, проходит через общий «костяк» модели и де-кодируется обратно в волну 24 кГц. Отсюда живая, многоходовая речь — модель держит контекст диалога, а не озвучивает фразы в вакууме. На серьёзном железе это ещё и быстрее реалтайма (около 7 секунд звука за секунду счёта), но и на домашней видеокарте работает бодро.

AI-режиссёр. Локальная LLM (Qwen3.5-9B / Gemma-3-12B) сама нормализует числа и даты, расставляет эмоции и разбивает длинный текст по ролям — одной кнопкой, без ручной разметки. На видео ниже режиссёр сам превратил кусок прозы в размеченный по спикерам сценарий.

Клонирование голоса. Zero-shot по одному референсу + авто-транскрипт (Moonshine ASR) — модель снимает тембр с короткого образца и говорит им. Подачу можно докручивать тегами эмоций и просодии, есть библиотека пресетов и докачка 743 русских голосов.

Подкаст и аудиокнига. В режиме подкаста достаточно задать тему — сценарий диалога модель пишет сама, раздаёт реплики нескольким дикторам (каждому свой голос) и выравнивает громкость спикеров (LUFS −16, как в индустрии). Режим аудиокниги — рассказчик плюс персонажи с постоянными голосами, длинная форма с переносом тембра. На видео — генерация подкаста на трёх спикеров из одной строки темы.

Что ещё умеет: форматы MP3 / WAV / FLAC / OGG, пакетная озвучка списком с лайв-логом, кнопка «Стоп» на лету, квантизация (bf16 / 8 / 4-бит) + torch.compile ≈2× ускорение, интерфейс RU / EN, тёмная тема. Всё внутри папки — удалил папку = удалил приложение.

Что нужно: NVIDIA GPU от 8 ГБ VRAM (для nf4; 16+ ГБ рекомендуется), 16+ ГБ RAM, ~15 ГБ на диске. Windows, а через Pinokio — ещё Linux и macOS. Установка на выбор: в 1 клик через Pinokio (сам поставит CUDA, Python, PyTorch), zip-установщик под Windows (install.bat → run.bat), готовое окружение (распаковал → run.bat) или git clone.

⚠️ Модель отдана под research/non-commercial лицензию: для себя и экспериментов — пожалуйста, а вот коммерция и клонирование чужого голоса без согласия запрещены.

🔗 GitHub: timoncool/HiggsAudio-Studio

🔗 Модель на HuggingFace: bosonai/higgs-audio-v3-tts-4b

⬇️ Portable-установщик (zip) · готовое окружение под Win11 + RTX4090 · установка в 1 клик через Pinokio

⭐️ Если проект зайдёт — поставьте звезду на GitHub, другим будет проще его найти.

👾 Пост вышел в канале НЕЙРО-СОФТ — делаем нейросети доступнее

Показать полностью 5

Контент нейросетей Tts Озвучка Нейронные сети Open source Видео Вертикальное видео Короткие видео Telegram (ссылка) Длиннопост

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества

Теги

Популярные авторы

Сообщества