Судебно-экспертное агентство
Москва, Кузнецкий Мост 21/5, Офис 5059
Москва
+7 (800) 600-84-29
+7 (985) 784-84-28
info@sudagent.ru
Корпоративные скандалы, созданные ИИ: экспертиза синтезированной речи
Вопросы на экспертизу
1.
"Являются ли голос и речь, записанные на фонограмме в файле "Целевая-запись-_8-секунд_.mp3", синтезированными с использованием нейросетевых алгоритмов на основании голоса и речи лица, образцы которого записаны на фонограммах "Образец 1.mp3", "Образец 2.mp3"?"
Комментарии эксперта
Заказать экспертизу
- 1Оставьте заявку на сайте
- 2Мы перезвоним вам в течение 15 минут
- 3Консультация – бесплатно
Наши услуги
Публикации
Карточки
В одной крупной компании внезапно появилась короткая аудиозапись всего в восемь секунд. На ней женский голос спокойно и довольно жёстко произносит: «Эти тупые евреи не видят, как у них под носом воруют. Пока это массово происходит, надо продержаться и урвать своё». Запись пришла якобы от реального сотрудника и звучала очень убедительно. Руководство сразу насторожилось: слишком гладко, слишком правильно, без обычных человеческих оговорок, запинок и живых эмоций. Никто не хотел портить репутацию человека и обвинять его зря, поэтому было принято решение провести независимую фоноскопическую экспертизу. Вопрос поставили чётко и прямо: это настоящий голос человека или синтезированная нейросетью подделка, созданная на основе его реальных образцов речи?
К работе подключились два опытных эксперта. Одна из них уже больше пятнадцати лет занимается компьютерно-технической и фоноскопической экспертизой, вторая - лингвист с десятилетним стажем судебных исследований речи. Им передали три файла: спорную восьмисекундную запись и два образца голоса того же человека (один на тридцать семь секунд, второй больше минуты).
Специалисты начали с того, что внимательно прослушали всё несколько раз, расшифровали дословно и зафиксировали каждую мелочь. Потом они перешли к полноценному комплексному анализу. Сначала провели аудитивное, то есть чисто слуховое, сравнение: оценили тембр, высоту голоса, мелодику, темп речи, паузы, дыхание и эмоциональную окраску. Далее сделали глубокий лингвистический разбор на всех уровнях - от синтаксиса и лексики до грамматики и фонетики. И наконец, применили мощные инструментальные методы: построили графики основного тона, изучили спектрограммы, проверили энергетические уровни сигналов и характер фоновых шумов с помощью профессиональных программ SIS II и «Янтарь». Всё это делалось на двух разных рабочих местах, чтобы исключить любые случайные ошибки.
На слух спорный голос звучал слишком идеально и статично. Он был ровным, почти без естественных микровариаций высоты тона, без живых эмоциональных перепадов и типичных для человека запинок или самоперебивов. График основного тона на спорной записи оказался подозрительно гладким и прямым, словно линия, нарисованная по линейке, в то время как на настоящих образцах он был изломанным, живым и постоянно меняющимся. Паузы между словами и синтагмами тоже вели себя странно. Они были слишком равномерными и искусственными, а спектрограмма выглядела чистой до стерильности: почти не было естественных шумов дыхания, мелких гармоник и тех самых неидеальностей, которые всегда присутствуют в живой человеческой речи.
Лингвистический анализ добавил ещё больше уверенности. Речь на спорной записи была разговорной по лексике, но при этом удивительно правильной и нормированной по синтаксису и грамматике. В ней не было слов-паразитов, не было оговорок и перестроений фраз, которые так характерны для живого разговора в образцах. Зато прослеживалось явное подражание отдельным фонетическим привычкам и лексическим оборотам из предоставленных записей. Всё вместе создавало ощущение, будто кто-то очень старался говорить «как человек», но при этом копировал его манеру слишком точно и механически.
Инструментальная часть окончательно подтвердила картину. Частотный диапазон отдельных звуков, динамика энергии и характер пауз: всё это указывало на работу нейросетевых алгоритмов. Голос был синтезирован на основе реальных образцов, но сохранил типичные цифровые «следы»: чрезмерную монотонность, идеальную ровность тона и отсутствие естественной хаотичности живой речи.
После обобщения всех данных специалисты пришли к однозначному заключению: голос и речь, записанные на той самой восьмисекундной фонограмме, являются синтезированными с использованием нейросетевых алгоритмов. Они созданы на основе голоса и речи лица, образцы которого были предоставлены для сравнения.
И вот, восемь секунд аудио, которые на первый взгляд казались обычным разговором, на поверку оказались продуктом современных нейросетей, использованных чтобы разрушить карьеру конкретного человека в крупной корпорации. Технологии становятся всё хитрее и убедительнее, но качественная экспертиза пока ещё способна их распознать. Главное не полагаться только на ухо и вовремя проверить подозрительный материал. Иначе можно легко попасть в ловушку, где голос звучит как настоящий, а на самом деле его просто сгенерировали из ничего.