Нейросети. которые работают со звуком

На фото работа Надежды Абзаевой – основательницы одноименного бренда. Бусины, которыми украшена сумка созданы по визуализации молитвы на бурятском, ее семейном наследии. Недавно мы разговаривали на Трендкофе об этом и других проектах с Деархивацией и визуализацией, и меня спросили какие нейросети умеют переводить звук или текст в изоборажение? Есть несколько интересных нейросетей, работающих в направлениях Text-to-Sound (генерация звука по тексту) и Sound-to-Picture (визуализация звука). Вот подборка актуальных решений:

Text-to-Sound (Генерация звука по тексту)

ElevenLabs – продвинутый AI-голосовой синтез, подходит для создания озвучек и голосовых эффектов.
Riffusion – создаёт музыку на основе текстовых промтов, генерируя бесконечные AI-мелодии.
Google MusicLM – превращает текстовые описания в музыкальные треки разных жанров.
AudioGen (от Meta) – генерирует звуковые эффекты (дождь, шаги, городские шумы) по текстовому описанию.
Boomy – позволяет создавать музыку с нуля на основе текстовых запросов.

Sound-to-Picture (Визуализация звука и аудиоспектрограмм)

Google DeepDream Audio Visualizer – создаёт абстрактные анимации и визуальные паттерны на основе аудиофайлов.
Runway ML – предлагает инструменты для преобразования звука в динамические визуальные эффекты.
NSynth Super (от Google Magenta) – визуализирует и анализирует музыкальные паттерны, создавая новые формы звучания.
Spectrogram to Image AI (GANs-based tools) – превращает аудиоспектры в художественные изображения.

Пробуйте, рассказывайте что получилось! Послушать Трендкофе с Надей можно по этой ссылке.

Курс Капсула Времени – нейроные сети для визуальных профессий.

Нейросети, которые работают со звуком

Text-to-Sound (Генерация звука по тексту)

Sound-to-Picture (Визуализация звука и аудиоспектрограмм)