У липні минулого року Організація Об’єднаних Націй закликала до регулювання використання штучного інтелекту, і в заяві вони підкреслили, що країни-члени повинні встановити взаємоузгоджені правила, «поки не стало надто пізно».
Оголошення ООН також закликає створити механізми для запобігання використанню інструментів штучного інтелекту для пропаганди ненависті, дезінформації та введення громадськості в оману, що заохочує екстремізм і загострює конфлікти, зміцнює стереотипи та упередження в спільнотах по всьому світу.
Річ у тім, що різноманітні професійні організації вже давно попереджають, що час, коли штучний інтелект унеможливлює відрізнити правду від вигадки, в основному настав, що створює додаткові виклики у боротьбі з фейковими новинами та зловмисним маніпулюванням ставленням аудиторії.
Коли ми думаємо про медіаконтент, модифікований або повністю створений за допомогою штучного інтелекту, найпоширеніші асоціації: глибокий розбір відеоконтент, до якого сербська аудиторія також була доступна через національне телебачення. Проте медіа-техніки звертають увагу на ще більшу небезпеку – глибокий розбір аудіо контент.
З'явився він недавно глибокий розбір аудіо, в якому голосом нинішнього президента Сполучених Штатів Джо Байдена було надіслано повідомлення, яке мало на меті знеохотити виборців, натякаючи, що їхня явка не є вирішальною. У жовтні минулого року предмет глибокий розбір маніпуляції з аудіофайлами був Барак Обама, і з багатьох інших прикладів зрозуміло, що зростає занепокоєння тим, що підроблений аудіоконтент стає новою, потужною зброєю в онлайн-війні проти дезінформації, виводячи маніпуляцію ставленням громадян попереду багатьох виборчі процеси цього року вийшли на абсолютно новий рівень.
Створення аудіоконтенту deepfake відносно просте, і це може зробити кожен. Фахівці, які займаються цифровою криміналістикою, стверджують, що автентичний голос людини займає кілька хвилин, а за допомогою дешевого широкодоступного інструменту можна клонувати голос на основі посилання. Після цього потрібно лише набрати речення, які ми хочемо почути, і за кілька секунд виходить переконлива мова. Крім механізму перетворення тексту в звук, існує також спосіб зробити це за допомогою механізму перетворення мови в мовлення.
На відміну від простого та дешевого виробництва, виявлення deepfake аудіоконтенту набагато складніше, дорожче та вимагає високорозвинутих цифрових сервісів та навичок. У той час як deepfake video надає набагато більше можливостей для маніпуляцій баченням - від незвичайних виразів обличчя до розмитих частин зображення - у випадку фальшивого голосу, шумів, музики або просто зниження якості запису можна легше приховати відхилення від автентичного. .
Фальшивий голос Барака Обами був викритий мережею NewsGuard і пов’язаний із 17 обліковими записами TikTok, які використовували гіперреалістичну голосову технологію ШІ для дезінформації. NewsGuard повідомив, що з травня 2023 року мережа облікових записів створила близько 5.000 відео, багато з яких, очевидно, містять озвучення, згенероване ШІ.
Формально TikTok вимагає чіткого маркування контенту, створеного за допомогою штучного інтелекту, але вищезгадані відео з підробленим голосом Барака Обами не були зареєстровані та не позначені. Паралельно компанія Meta розробила AudioSeal - першу систему звукових «водяних знаків», спеціалізовану для локалізації синтезованого мовлення в аудіо-роликах, що є великим кроком, але не остаточним вирішенням проблеми.
У боротьбі з дезінформацією з використанням дипфейкового контенту необхідні скоординовані та одночасні дії промисловості, законодавців і системи освіти. Вже зараз зрозуміло, що серйозне, системне регулювання значно відстає від розвитку практики та повсякденного життя.
Автор – медіатеоретик
Бонусне відео: