HimeraSearchDB
Carding_EbayThief
triada
CrackerTuch
d-shop
HimeraSearchDB

НОВОСТИ Кто занимается дипфейк-аудио и зачем это нужно

Bonnie
Оффлайн
Регистрация
12.04.17
Сообщения
19.095
Реакции
107
Репутация
0
С начала года появилось сразу несколько новых систем ИИ, способных синтезировать видеозапись с говорящим человеком на основе аудио. Расскажем, кто и с какой целью занимается подобными разработками. Также поговорим о других инструментах, позволяющих редактировать аудиозаписи.


[SUP]Фото / Unsplash[/SUP]

Что делают


В декабре 2019-го специалисты из Мюнхенского технического университета и Института информатики Общества Макса Планка опубликовали научную работу, посвященную системе .

Для генерации видеозаписи ей нужен лишь аудиофайл с голосом человека и его фотография. Процесс из трех этапов. Сперва рекуррентная нейросеть анализирует речь на записи и строит , отражающую особенности произношения спикера. Она направляется в обобщающую нейронную сеть, которая рассчитывает коэффициенты для построения трехмерной модели лица. Далее, в дело вступает рендер-модуль, который генерирует финальную запись.

Разработчики говорят, что Neural Voice Puppetry воспроизводит ролики высокого качества, однако им еще предстоит решить некоторые проблемы, связанные с синхронизацией звука.

Аналогичную технологию инженеры из Наньянского университета в Сингапуре. Их система позволяет объединить запись речи одного человека с видеозаписью другого. Первым делом она формирует 3D-модель лица для каждого кадра на целевом видео. Далее, нейросеть анализирует ключевые мимические точки, и модифицирует трехмерную модель так, чтобы её выражения совпадали с фонемами исходного аудиофайла. По словам авторов, их инструмент превосходит по качеству аналоги. Во время слепых тестов респонденты 55% записей как «настоящие».

Где применяют


В будущем дипфейки позволят создавать реалистичные видеоаватары — личности для голосовых ассистентов. В 2017 году энтузиаст Джарем Арчер (Jarem Archer) помощника Cortana из ОС Windows 10 в виде голограммы. Системы искусственного интеллекта для формирования дипфейков переведут подобные решения на новый уровень. Еще одна таких алгоритмов — игровая индустрия. Генерация лицевой анимации по звуковой дорожке упростит работу гейм-дизайнеров, настраивающих мимику виртуальных персонажей.

Разработчики дипфейк-технологий отмечают, что их системы лишь инструмент. И к сожалению, его неизбежно будут использовать в противозаконных целях. Первое такое преступление в 2019 году. Директор английской энергетической компании перевел 240 тыс. долларов мошеннику. Тот сымитировал голос главы концерна из Германии с помощью нейронных сетей и попросил совершить транзакцию. Поэтому специалисты из университетов активно работают с правоохранительными органами и политиками, чтобы предотвращать подобные ситуации. Например, Колорадский университет в Денвере инструменты для распознавания поддельных аудио и видеозаписей. В будущем подобных проектов будет становиться только больше.

Какие еще есть проекты


Есть инструменты, которые редактировать аудиозаписи также легко как обыкновенный текст. Например, Descript предлагает аудиоредактор, который транскрибирует слова спикера и позволяет отредактировать их в текстовом виде. Можно добавить паузы, переставить фрагменты местами — все правки синхронизируются с аудиозаписью. Разработчики говорят, что система обрабатывает файлы в .m4a, .mp3, .aiff, .aac и .wav, а точность транскрибирования .

adkbf1x5vbr6kh0fmg9emjhpvx8.jpeg

[SUP]Фото / Unsplash[/SUP]

В одно время с Descript появились и другие проекты. Инженеры из университета в Принстоне «фотошоп для аудио» — систему VoCo. Она позволяет не только редактировать записи в текстовом виде, но и синтезировать фразы голосом спикера (с учетом интонаций).

В будущем такие сервисы пригодятся журналистам и медиакомпаниям, создающим аудиоконтент. Также они помогут людям со специфическими заболеваниями, которые общаются с помощью систем речевого синтеза. VoCo и аналоги сделают их голос менее «роботизированным».


Дополнительное чтение в нашем блоге «Мир Hi-Fi»:

1osf72wkwrjhzpl2bwl5hcmwnbq.png

1osf72wkwrjhzpl2bwl5hcmwnbq.png

1osf72wkwrjhzpl2bwl5hcmwnbq.png

1osf72wkwrjhzpl2bwl5hcmwnbq.png

1osf72wkwrjhzpl2bwl5hcmwnbq.png
 
Сверху Снизу