СУРМА

Штучний інтелект може імітувати ваш голос. Його створили українці

Карабах прокинувся. Хто з ким і проти кого

28/09/2020 admin 0

Азербайджан вже назвав конфлікт з Вірменією вітчизняною війною Кремль грається Пашиняном, Анкара вибудовує «тюркський мир», а Україна… Вірменія та Азербайджан відновили бойові дії в районі регіону Нагірний […]

Ви чуєте аудіозапис: на ньому вашим голосом звучать слова, яких ви ніколи не вимовляли. Колись це було фантастикою, тепер — цілком реальна технологія.

Українська компанія Respeecher вже два роки працює над штучним інтелектом, здатним синтезувати голос будь-якої людини.

Не без успіху. У компанії вже є контракт із голлівудською студією, яка застосовує цю технологію в кіно, а відео, що наочно демонструють можливості Respeecher, збирають сотні тисяч переглядів на Youtube.

BBC News Україна поговорила зі співзасновником Respeecher Олександром Сердюком про те, як працює технологія, як далеко їй до ідеалу і чи є хоч якісь шанси, що подібні інструменти рано чи пізно не потраплять в погані руки (здається, жодних).

Як змусити Ніксона сказати те, чого він не говорив

Нещодавно у мережі з’явилося відео, на якому відбувається щось дивне: Річард Ніксон, президент США у 1969-1974 роках, розповідає про загибель астронавтів місії “Аполон-11”, яка у 1969 році мала першою доставити людей на Місяць.

В реальності місія пройшла успішно, жоден з астронавтів не загинув. Про що ж тоді говорить Ніксон?

Він не говорить. Відео — підробка, створена у Массачусетському інституті технологій. Ніксона “змусили” зачитати промову, текст якої колись був написаний на випадок провалу космічної місії, але з якою президент так ніколи й не вийшов на публіку.

Щоб створити це відео, авторам знадобилися дві основні технології. Перша — штучний інтелект від Respeecher, який синтезує голос Ніксона.

Друга — штучний інтелект від компанії Canny AI, який змінив архівний відеозапис однієї зі справжніх промов президента США так, аби рухи губ та міміка Ніксона збігалися з тим текстом, який він вимовляє завдяки Respeecher.

Проєкт не лишився непоміченим. Про “звернення” Ніксона написали десятки західних ЗМІ — від спеціалізованих видань про науку і технології до Newsweek та Euronews. У листопаді ширшу версію відеозапису показали на Міжнародному фестивалі документального кіно в Амстердамі.

Як це працює

На місці Ніксона може бути хто завгодно: Трамп, Черчилль, Роберт Де Ніро і навіть ви.

Приміром, Respeecher має навчитися імітувати ваш голос. Для початку потрібні дві аудіодоріжки: на одній — запис вашого голосу, на іншій — запис актора, який слово в слово повторює вимовлений вами текст.

На цьому етапі програма тренується: порівнює обидва записи і виявляє, чим один голос відрізняється від іншого.

Тепер, коли штучний інтелект розуміє різницю, він здатен перетворювати голос актора на ваш — який би текст той не зачитував.

Аби програма спрацювала ефективно, їй потрібно проаналізувати принаймні годину запису цільового голосу — того, який треба зімітувати. З високою ймовірністю за цей час вона почує достатнє різноманіття слів та звукосполучень, проаналізує особливості цільового голосу та зрозуміє, як їх варто відтворювати.

Що це за голоси, каже співзасновник Respeecher Олександр Сердюк, немає значення: низький голос можна перетворити на високий, чоловічий на жіночий, а дитячий на дорослий.

“На ринку є два основні підходи до синтезування голосу. Більшість продуктів працює за принципом “text to speech”, коли голос генерується з тексту. Ми принципово від них відрізняємось: Respeecher синтезує потрібний голос з голосу іншої людини“, — пояснює Сердюк в розмові з BBC News Україна.

“Такий підхід більш ефективний. Коли ти генеруєш голос із тексту, твої можливості дуже обмежені. Ти не маєш змоги контролювати емоційне забарвлення голосу і результат виходить дещо механічним. У нас цю проблему вирішує актор, який може підібрати потрібні інтонації”.

“Окрім того, інструменти, які синтезують голос із тексту, подекуди потребують до 20 годин запису цільового голосу — саме стільки їм потрібно, аби натренувати штучний інтелект. Нам достатньо години”, — розповідає Сердюк.

У листопаді галасу у соцмережах наробило підробне відеозвернення британського премєр-міністра Бориса Джонсона, в якому він закликав виборців підтримати свого політичного опонента Джеремі Корбіна.

Візуальна складова відео — результат роботи штучного інтелекту. Для підробки голосу жодних технологій не використовували, його зімітував професійний актор.

Чи заговорить Том Хенкс українською?

Потенційні можливості використання Respeecher здаються мало не безмежними, передусім, у сфері розваг: від кіно і реклами до індустрії відеоігор.

Можна, приміром, синтезувати голос історичної постаті для фільму, а можна озвучити аудіокнигу голосом знаменитості. Без фактичної участі самої знаменитості.

“Є багато замовників, які хотіли б використовувати у своїх проєктах голоси відомих акторів чи співаків. Але той-таки Snoop Dogg, приміром, навряд чи буде в захваті від ідеї два тижні просидіти в студії лише для того, щоб його голос з’явився в якійсь відеогрі. Зрештою, йому може просто бракувати на це часу. Наш інструмент дозволить іншому актору зробити всю роботу за нього”, — пояснює Олександр Сердюк.

Головні орієнтири компанії — на Заході. У Respeecher вже є контракт з однією з великих голлівудських студій, ще з кількома ведуться розмови про майбутні проєкти.

“За умовами контракту, на жаль, поки що не можу говорити, що це за студія і що це за фільм. Але це дуже амбітна історія, стрічка має вийти на екрани незабаром. Для неї ми відтворили голос актора, якого вже немає серед живих”, — розповідає співзасновник Respeecher.

Вирішення деяких завдань лише попереду.

“Серед кіношників є великий інтерес, аби оригінальні голоси акторів зберігалися при дублюванні фільмів іншими мовами. Тобто, щоб герой Тома Хенкса говорив голосом Тома Хенкса не лише в англомовній версії фільму — щоб він буквально заговорив українською, російською або німецькою. Поки що наша технологія не дозволяє цього зробити, але ми дивимося у цьому напрямку”.

Минулого року видання Buzzfeed створило підробне звернення Барака Обами, де він міркує про поширення фейкових новин і називає Дональда Трампа “недоумком”. Голос Обами озвучив режисер Джордан Піл.

Як далеко до ідеалу?

Судячи з відгуків у ЗМІ та соцмережах, потенціал Respeecher вражає багатьох вже зараз. Проте розробникам ще є над чим попрацювати, визнає Олександр Сердюк.

“Працюємо над покращенням діапазону емоцій, які здатен синтезувати штучний інтелект. Зараз система стабільно справляється зі спокійним голосом, але різні екстремальні голосові ситуації — скажімо, крик, спів чи шепіт — з цим поки є певні труднощі”.

Є й інші завдання, які тільки доведеться вирішити: “Зараз процес синтезування голосу займає певний час, а нам би дуже хотілося, щоб це відбувалося в режимі реального часу. Це інженерна задача — є впевненість, що ми зможемо її вирішити десь за пів року. Окрім того, працюємо над тим, аби система навчилася не лише змінювати голос, а й нівелювати акцент його носія”.

Якщо це вдасться, перед Respeecher відкриються ще ширші перспективи: “Приміром, багато кол-центрів західних компаній знаходяться за межами США, звідки оператори й обслуговують американських клієнтів. Вони говорять англійською, але з відчутним акцентом, і компанії дуже зацікавлені в технології, яка б дозволила мінімізувати його в реальному часі”.

Вже боятися чи ще ні?

Чи стане колись технологія реалістичного синтезування голосу загальнодоступною? Це лише питання часу, погоджується Олександр Сердюк. Чи спробують її використати у не найбільш благородних цілях? Обов’язково.

“Синтезування голосу — це лише інструмент. Як друкарський станок. Колись були люди — наші дідусі й бабусі, — які читали щось надруковане на папері, в газеті, і вірили кожному слову. Але чи винен в цьому друкарський станок? Люди мають усвідомити, куди йде світ, і що не можна вірити всьому, що вони читають, бачать і чують”.

“Зі свого боку ми у Respeecher робимо все, щоб доступ до технології залишався обмеженим: в нас достатньо суворі правила. Просто прийти з проханням відтворити чийсь голос не можна. Ми вимагаємо згоду власника цільового голосу. Якщо ця людина вже померла — згоду його родичів або інших правовласників. Доступу до нашої технології клієнти, з якими ми працюємо, не мають”.

“Головна причина, чому ми взяли участь у проєкті з відеозверненням Ніксона, — соціальна. Ми на ньому нічого не заробили, але там є важливий меседж, який хочеться донести світу: можливості технологій аудіо та відеосинтезу наразі дуже серйозні. І людям непогано було б принаймні знати, що вони існують”, — каже Сердюк.

При цьому, додає він, панікувати і бити на сполох поки все ж зарано.

“Побоювання не безпідставні, але люди завжди схильні дещо перебільшувати. Поки що реалістичне синтезування голосу — це процес, що потребує доволі значних ресурсів. Є серйозні вимоги до якості записів, є великий обсяг роботи, який потрібно виконати, є чимало інших аспектів, що впливають на результат. Технологія поки що не на тому рівні, коли будь-хто з легкістю може її використати в якихось нехороших цілях”, — підсумовує співзасновник Respeecher.

У серпні 2019 року видання The Wall Street Journal розповіло, як штучний інтелект зімітував голос керівника німецької компанії й допоміг шахраям поцупити понад 240 тисяч доларів.

Кошти зловмисникам переказав керівник дочірньої фірми: він тричі говорив із шахраями телефоном і щоразу був впевнений, що спілкується зі своїм начальником — каже, “впізнав його легкий німецький акцент і мелодію голосу”.

До цього, у липні 2019 року, стало відомо про принаймні три схожі інциденти, в яких зловмисники могли використовувати штучний інтелект для підробки голосу керівників великих фірм. Експерти компанії Symantec оцінюють завдані таким чином збитки у кілька мільйонів доларів.

ввс

MIXADV

цікаве