16.04.2022

Технологии обмана. Как нейросети создают фальшивые голоса и лица

Виртуальная реальность просачивается и вживается в нашу подлинную реальность, и отличить одну от другой становиться все сложнее. Имитировать голос Лица-отмычки

Каждый день мы читаем о новых достижениях нейронных сетей, которые учатся диагностировать болезни, создавать новые лекарства, искать полезные ископаемые и управлять автомобилями. Но в то же время искусственный интеллект совершенствует еще и свое умение обманывать.

Имитировать голос

К сожалению, человеческий голос не уникален и искусственный интеллект может «разговаривать» нашим голосом.

Последние достижения в области глубокой машинной учебы вызвали появление широкого спектра инструментов, способных имитировать голос конкретного человека. В руках злоумышленника такой инструмент может причинить немалый вред.

В частности, он мог бы обойти системы аутентификации на основе голоса, уже развернутые в автоматизированных телефонных линиях обслуживания клиентов (например, в крупнейшем американском банковском холдинге JP Morgan Chase и крупнейшем британском банке HSBC), так же как и в некоторых мобильных сервисах для обмена сообщениями (например, в китайской платформе WeChat). Это также нарушит контроль доступа на основе голоса пользователей в устройствах IoT (интернет вещей), таких как цифровые домашние помощники (например, Amazon Alexa, Google Home).

Кроме того, такие инструменты могут обманывать непосредственно людей, дополняя традиционные фишинговые мошенничества знакомым человеческим голосом. The Wall Street Journal рассказала, как в марте 2019 г. мошенники использовали имитированный нейросетью голос руководителя немецкой компании, чтобы заставить руководителя дочерней британской компании срочно перевести 220 тыс. евро какой-то венгерской фирме. Британец был уверен, что говорит с немецким боссом, потому что четко узнал его акцент и мелодию его голоса.

Конечно, хотелось бы надеяться, что подобные мошенничества не получат широкого распространения, поскольку они сложны в технологическом плане. Так ли это, выяснила команда исследователей из Чикагского университета. Свои результаты она обнародовала в сентябре 2021 г. В финансировании исследования приняли участие NSF (Национальный научный фонд США) и DARPA (Агентство передовых оборонных исследовательских проектов минобороны США). Их эта проблема, похоже, пугает всерьез.

Чикагские исследователи поставили себя на место злоумышленника, желающего сымитировать чей-то голос. Для этого нужны три шага, которые они описали в своей статье. Прежде всего злоумышленник получает голосовые образцы от жертвы — либо путем тайной их записи, либо путем загрузки доступных носителей. Затем злоумышленник использует систему синтеза речи для создания ложной речи, имитирующей голос жертвы. Третий шаг – злоумышленник использует эту фальшивую речь, чтобы выдавать себя за жертву, например, пытаясь получить доступ к личной или финансовой информации или осуществить какое-либо мошенничество.

Исследователи использовали записи голосов 90 человек из публичных датасетов VCTK, LibriSpeech и SpeechAccent. Общая длина записи одного голоса – не более 5 минут. Для создания ложных речей были использованы общедоступные алгоритмы SV2TTS и AutoVC. Исследователи опробовали эти речи, чтобы ввести в заблуждение современные системы распознавания Resemblyzer и Microsoft Azure. И вот результат эксперимента: «Используя комплекс всесторонних экспериментов над 90 разными говорящими, мы выясняем, что инструменты синтеза речи на основе нейросетей высокоэффективны для введения в заблуждение современных систем распознавания говорящих (50–100% успеха)».

Также исследователи попытались обмануть системы WeChat и Amazon Alexa. Эти системы связаны с индивидуальными учетными записями, поэтому для эксперимента были приглашены 14 добровольцев. Они пытались войти в собственные аккаунты, используя синтезированные образцы речи. Alexa был одурачен всеми людьми, а войти в WeChat удалось 9 из 14 участников эксперимента.

Кроме того, 200 добровольцев приняли участие в опросе, проведенном с целью оценить способность людей различать подлинных и поддельных говорящих. Оказалось, что человеческая точность – на уровне 50%. Общий вывод исследования: «Наши результаты демонстрируют, что синтетическая речь, созданная с помощью общедоступных систем, уже может обмануть как людей, так и современные популярные программные системы, и существующих защитных средств недостаточно».

Лица-отмычки

Все чаще мы сталкиваемся с системами биометрической аутентификации по чертам лица. Они применяются в таких областях, как пограничный контроль, обслуживание и регистрация пассажиров, допуск в офисные помещения, работа с электронными идентификационными документами и картами. Распознавание лица – это также модный тренд в авторизации пользователей смартфонов. Кроме того, системы распознавания лица очень популярны у различных государственных и частных служб, следящих за общественной безопасностью. Этому способствует растущее использование видеокамер в местах скопления людей, таких как улицы и площади, аэропорты, железнодорожные и автовокзалы.

Но как надежно идентифицируют людей такие системы? Этим вопросом заинтересовались исследователи из Тель-Авивского университета. Их работу профинансировал Европейский исследовательский совет (ERC) в рамках программы исследований и инноваций Европейского Союза Horizon 2020.

О своей работе израильские исследователи отчитались в августе 2021 г. Они разработали нейронную сеть StyleGAN, способную генерировать лица-отмычки для систем распознавания. В качестве базы данных они использовали общедоступное хранилище Labeled Faces in the Wild (LFW) Университета Массачусетса, содержащее более 13 тыс. изображений лиц. Перед StyleGAN была поставлена задача, используя лицо из LFW, создать небольшое количество, менее десятка, "обобщенных лиц", которые можно было бы использовать в качестве отмычек для систем распознавания лиц. Для этого было разработано три метода.

Работа нейросети была испытана на трех общедоступных системах распознавания лиц: Dlib, FaceNet и SphereFace. Для каждой из этих систем нейросеть генерировала девять "обобщенных лиц". После этого проверялось, сколько лиц из базы данных LFW система определит как идентичные одному из этих «обобщенных лиц».

И вот результат тестирования для метода, который оказался лучшим: Dlib – 63,92%, FaceNet – 43,82%, SphereFace – 44,15%. Эти цифры означают, что всего девяти лиц-отмычек достаточно, чтобы обмануть системы распознавания лиц примерно в половине случаев (44–64%). «Наши результаты свидетельствуют о том, что аутентификация на основе лица чрезвычайно уязвима», — резюмировали исследователи.

НиТ писал о том, как можно восстановить старое фото при помощи нейросетей буквально за несколько кликов. Другая нейросеть на удивление хорошо обрабатывает фотографии, с ее помощью можно легко, удалять людей и объекты.

Карен Шапиро 25 января 2022, 11:34

Источник: naukatehnika.com

На нашей информационной площадке "ДайджестВизард" вы сможете найти больше новостей IT

Информируем Вас о наших курсах для IT-специалистов по администрированию в среде Linux, FreeBSD и информационной безопасности:

    Информационная безопасность и шифрование данных
    ALSE-1605. СПЕЦИАЛЬНЫЙ КУРС ОС ASTRA LINUX
    Администрирование FreeBSD (Базовый курс)
    Использование сетевого оборудования Cisco. Коммутация в сетях Cisco / авторский

Посмотреть больше курсов