На фото работа Надежды Абзаевой – основательницы одноименного бренда. Бусины, которыми украшена сумка созданы по визуализации молитвы на бурятском, ее семейном наследии. Недавно мы разговаривали на Трендкофе об этом и других проектах с Деархивацией и визуализацией, и меня спросили какие нейросети умеют переводить звук или текст в изоборажение? Есть несколько интересных нейросетей, работающих в направлениях Text-to-Sound (генерация звука по тексту) и Sound-to-Picture (визуализация звука). Вот подборка актуальных решений:
Text-to-Sound (Генерация звука по тексту)
- ElevenLabs – продвинутый AI-голосовой синтез, подходит для создания озвучек и голосовых эффектов.
- Riffusion – создаёт музыку на основе текстовых промтов, генерируя бесконечные AI-мелодии.
- Google MusicLM – превращает текстовые описания в музыкальные треки разных жанров.
- AudioGen (от Meta) – генерирует звуковые эффекты (дождь, шаги, городские шумы) по текстовому описанию.
- Boomy – позволяет создавать музыку с нуля на основе текстовых запросов.
Sound-to-Picture (Визуализация звука и аудиоспектрограмм)
- Google DeepDream Audio Visualizer – создаёт абстрактные анимации и визуальные паттерны на основе аудиофайлов.
- Runway ML – предлагает инструменты для преобразования звука в динамические визуальные эффекты.
- NSynth Super (от Google Magenta) – визуализирует и анализирует музыкальные паттерны, создавая новые формы звучания.
- Spectrogram to Image AI (GANs-based tools) – превращает аудиоспектры в художественные изображения.
Пробуйте, рассказывайте что получилось! Послушать Трендкофе с Надей можно по этой ссылке.
Курс Капсула Времени – нейроные сети для визуальных профессий.