- Регистрация
- 12.04.17
- Сообщения
- 19.095
- Реакции
- 107
- Репутация
- 0
С начала года появилось сразу несколько новых систем ИИ, способных синтезировать видеозапись с говорящим человеком на основе аудио. Расскажем, кто и с какой целью занимается подобными разработками. Также поговорим о других инструментах, позволяющих редактировать аудиозаписи.
[SUP]Фото
Что делают
В декабре 2019-го специалисты из Мюнхенского технического университета и Института информатики Общества Макса Планка опубликовали научную работу, посвященную системе
Для генерации видеозаписи ей нужен лишь аудиофайл с голосом человека и его фотография. Процесс
Разработчики говорят, что Neural Voice Puppetry воспроизводит ролики высокого качества, однако им еще предстоит решить некоторые проблемы, связанные с синхронизацией звука.
Аналогичную технологию
Где применяют
В будущем дипфейки позволят создавать реалистичные видеоаватары — личности для голосовых ассистентов. В 2017 году энтузиаст Джарем Арчер (Jarem Archer)
Разработчики дипфейк-технологий отмечают, что их системы лишь инструмент. И к сожалению, его неизбежно будут использовать в противозаконных целях. Первое такое преступление
Какие еще есть проекты
Есть инструменты, которые
[SUP]Фото
В одно время с Descript появились и другие проекты. Инженеры из университета в Принстоне
В будущем такие сервисы пригодятся журналистам и медиакомпаниям, создающим аудиоконтент. Также они помогут людям со специфическими заболеваниями, которые общаются с помощью систем речевого синтеза. VoCo и аналоги сделают их голос менее «роботизированным».
Дополнительное чтение в нашем блоге «Мир Hi-Fi»:
You must be registered for see links
[SUP]Фото
You must be registered for see links
/ Unsplash[/SUP]Что делают
В декабре 2019-го специалисты из Мюнхенского технического университета и Института информатики Общества Макса Планка опубликовали научную работу, посвященную системе
You must be registered for see links
.Для генерации видеозаписи ей нужен лишь аудиофайл с голосом человека и его фотография. Процесс
You must be registered for see links
из трех этапов. Сперва рекуррентная нейросеть анализирует речь на записи и строит
You must be registered for see links
, отражающую особенности произношения спикера. Она направляется в обобщающую нейронную сеть, которая рассчитывает коэффициенты для построения трехмерной модели лица. Далее, в дело вступает рендер-модуль, который генерирует финальную запись.Разработчики говорят, что Neural Voice Puppetry воспроизводит ролики высокого качества, однако им еще предстоит решить некоторые проблемы, связанные с синхронизацией звука.
Аналогичную технологию
You must be registered for see links
инженеры из Наньянского университета в Сингапуре. Их система позволяет объединить запись речи одного человека с видеозаписью другого. Первым делом она формирует 3D-модель лица для каждого кадра на целевом видео. Далее, нейросеть анализирует ключевые мимические точки, и модифицирует трехмерную модель так, чтобы её выражения совпадали с фонемами исходного аудиофайла. По словам авторов, их инструмент превосходит по качеству аналоги. Во время слепых тестов респонденты
You must be registered for see links
55% записей как «настоящие».Где применяют
В будущем дипфейки позволят создавать реалистичные видеоаватары — личности для голосовых ассистентов. В 2017 году энтузиаст Джарем Арчер (Jarem Archer)
You must be registered for see links
помощника Cortana из ОС Windows 10 в виде голограммы. Системы искусственного интеллекта для формирования дипфейков переведут подобные решения на новый уровень. Еще одна
You must be registered for see links
таких алгоритмов — игровая индустрия. Генерация лицевой анимации по звуковой дорожке упростит работу гейм-дизайнеров, настраивающих мимику виртуальных персонажей.Разработчики дипфейк-технологий отмечают, что их системы лишь инструмент. И к сожалению, его неизбежно будут использовать в противозаконных целях. Первое такое преступление
You must be registered for see links
в 2019 году. Директор английской энергетической компании перевел 240 тыс. долларов мошеннику. Тот сымитировал голос главы концерна из Германии с помощью нейронных сетей и попросил совершить транзакцию. Поэтому специалисты из университетов активно работают с правоохранительными органами и политиками, чтобы предотвращать подобные ситуации. Например, Колорадский университет в Денвере
You must be registered for see links
инструменты для распознавания поддельных аудио и видеозаписей. В будущем подобных проектов будет становиться только больше.Какие еще есть проекты
Есть инструменты, которые
You must be registered for see links
редактировать аудиозаписи также легко как обыкновенный текст. Например, Descript предлагает аудиоредактор, который транскрибирует слова спикера и позволяет отредактировать их в текстовом виде. Можно добавить паузы, переставить фрагменты местами — все правки синхронизируются с аудиозаписью. Разработчики говорят, что система обрабатывает файлы в .m4a, .mp3, .aiff, .aac и .wav, а точность транскрибирования
You must be registered for see links
.
[SUP]Фото
You must be registered for see links
/ Unsplash[/SUP]В одно время с Descript появились и другие проекты. Инженеры из университета в Принстоне
You must be registered for see links
«фотошоп для аудио» — систему VoCo. Она позволяет не только редактировать записи в текстовом виде, но и синтезировать фразы голосом спикера (с учетом интонаций).В будущем такие сервисы пригодятся журналистам и медиакомпаниям, создающим аудиоконтент. Также они помогут людям со специфическими заболеваниями, которые общаются с помощью систем речевого синтеза. VoCo и аналоги сделают их голос менее «роботизированным».
Дополнительное чтение в нашем блоге «Мир Hi-Fi»:

You must be registered for see links

You must be registered for see links

You must be registered for see links

You must be registered for see links

You must be registered for see links