Тренды и прочие ценные наблюдения

Нейросети, которые работают со звуком

2025-03-24 15:42 Капсула времени: курс по Midjourney и Chat GPT
На фото работа Надежды Абзаевой – основательницы одноименного бренда. Бусины, которыми украшена сумка созданы по визуализации молитвы на бурятском, ее семейном наследии. Недавно мы разговаривали на Трендкофе об этом и других проектах с Деархивацией и визуализацией, и меня спросили какие нейросети умеют переводить звук или текст в изоборажение? Есть несколько интересных нейросетей, работающих в направлениях Text-to-Sound (генерация звука по тексту) и Sound-to-Picture (визуализация звука). Вот подборка актуальных решений:

Text-to-Sound (Генерация звука по тексту)

  1. ElevenLabs – продвинутый AI-голосовой синтез, подходит для создания озвучек и голосовых эффектов.
  2. Riffusion – создаёт музыку на основе текстовых промтов, генерируя бесконечные AI-мелодии.
  3. Google MusicLM – превращает текстовые описания в музыкальные треки разных жанров.
  4. AudioGen (от Meta) – генерирует звуковые эффекты (дождь, шаги, городские шумы) по текстовому описанию.
  5. Boomy – позволяет создавать музыку с нуля на основе текстовых запросов.

Sound-to-Picture (Визуализация звука и аудиоспектрограмм)

  1. Google DeepDream Audio Visualizer – создаёт абстрактные анимации и визуальные паттерны на основе аудиофайлов.
  2. Runway ML – предлагает инструменты для преобразования звука в динамические визуальные эффекты.
  3. NSynth Super (от Google Magenta) – визуализирует и анализирует музыкальные паттерны, создавая новые формы звучания.
  4. Spectrogram to Image AI (GANs-based tools) – превращает аудиоспектры в художественные изображения.
Пробуйте, рассказывайте что получилось! Послушать Трендкофе с Надей можно по этой ссылке.
Курс Капсула Времени – нейроные сети для визуальных профессий.