7. СКРЫТИЕ ДАННЫХ В АУДИОСИГНАЛАХ. «Цифровая стеганография» | Грибунин Вадим Геннадьевич | Оков Игорь Николаевич

Для того, чтобы перейти к обсуждению вопросов внедрения информации в аудиосигналы, необходимо определить требования, которые могут быть предъявлены к стегосистемам, применяемым для встраивания информации в аудиосигналы:

— скрываемая информация должна быть стойкой к наличию различных окрашенных шумов, сжатию с потерями, фильтрованию, аналогово-цифровому и цифро-аналоговому преобразованиям;

— скрываемая информация не должна вносить в сигнал искажения, воспринимаемые системой слуха человека;

— попытка удаления скрываемой информации должна приводить к заметному повреждению контейнера (для ЦВЗ);

— скрываемая информация не должна вносить заметных изменений в статистику контейнера;

Для внедрения скрываемой информации в аудиосигналы можно использовать методы, применимые в других видах стеганографии. Например, можно внедрять информацию, замещая наименее значимые биты (все или некоторые). Или можно строить стегосистемы, основываясь на особенностях аудиосигналов и системы слуха человека.

Систему слуха человека можно представить, как анализатор частотного спектра, который может обнаруживать и распознавать сигналы в диапазоне 10 — 20000 Гц. Систему слуха человека можно смоделировать, как 26 пропускающих фильтров, полоса пропускания, которых увеличивается с увеличением частоты. Система слуха человека различает изменения фазы сигнала слабее, нежели изменения амплитуды или частоты.

Аудиосигналы можно разделить на три класса:

— разговор телефонного качества, диапазон 300 — 3400 Гц;

— широкополосная речь 50 — 7000 Гц;

— широкополосные аудиосигналы 20 — 20000 Гц.

Практически все аудиосигналы имеют характерную особенность. Любой из них представляет собой достаточно большой объем данных, для того, чтобы использовать статистические методы внедрения информации. Первый из описываемых методов, рассчитанный на эту особенность аудиосигналов, работает во временной области.

7.1. Методы кодирования с расширением спектра

Алгоритм, предложенный в работе [2], удовлетворяет большинству из предъявляемых требований, изложенных выше. ЦВЗ внедряется в аудиосигналы (последовательность 8- или 16-битных отсчетов) путем незначительного изменения амплитуды каждого отсчета. Для обнаружения ЦВЗ не требуется исходного аудиосигнала.

Пусть аудиосигнал состоит из N отсчетов x(i), i =1, …, N, где значение N не меньше 88200 (соответственно 1 секунда для стереоаудиосигнала, дискретизированного на частоте 44,1 кГц). Для того чтобы встроить ЦВЗ, используется функция f(x(i), w(i)), где w(i) — отсчет ЦВЗ, изменяющийся в пределах [-α; α], α — некоторая константа. Функция f должна принимать во внимание особенности системы слуха человека во избежание ощутимых искажений исходного сигнала. Отсчет результирующего сигнала получается следующим образом:

(7.1)

Отношение сигнал-шум в этом случае вычисляется как

(7.2)

Важно отметить, что применяемый в схеме генератор случайных чисел должен иметь равномерное распределение. Стойкость ЦВЗ, в общем случае, повышается с увеличением энергии ЦВЗ, но это увеличение ограничивается сверху допустимым отношением сигнал-шум.

Обнаружение ЦВЗ происходит следующим образом. Обозначим через S следующую сумму:

. (7.3)

Комбинируя (7.1) и (7.3), получаем

. (7.4)

Первая сумма в (7.4) равна нулю, если числа на выходе ГСЧ распределены равномерно и математическое ожидание значения сигнала равно нулю. В большинстве же случаев наблюдается некоторое отличие, обозначаемое , которое необходимо также учитывать.

Следовательно, (7.4) принимает вид

. (7.5)

Сумма , как показано выше, приблизительно равна нулю. Если в аудиосигнал не был внедрен ЦВЗ, то S будет приблизительно равна . С другой стороны, если в аудиосигнал был внедрен ЦВЗ, то S будет приблизительно равна . Однако, — это исходный сигнал, который по условию не может быть использован в процессе обнаружения ЦВЗ. Сигнал можно заменить на , это приведет к замене на , ошибка при этом будет незначительной.

Следовательно, вычитая величину из S, и деля результат на , получим результат r, нормированный к 1. Детектор ЦВЗ, используемый в этом методе, вычисляет величину r, задаваемую формулой

. (7.6)

Пороговая величина обнаружения теоретически лежит между 0 и 1, с учетом аппроксимации этот интервал сводится к [0 — ε; 1 + ε]. Опытным путем установлено, что для того чтобы определить действительно ли определенный ЦВЗ находится в сигнале, пороговое значение ЦВЗ должно быть выше 0,7. Если требуется большая достоверность в определении наличия ЦВЗ в сигнале, пороговое значение необходимо увеличить. Работа кодера и декодера представлены на рис. 7.1.

На рис. 7.2 показана эмпирическая функция плотности вероятности для аудиосигнала с ЦВЗ и без ЦВЗ. Эмпирическая функция плотности вероятности аудиосигнала без ЦВЗ показана непрерывной кривой, пунктирная кривая описывает эмпирическую функцию плотности вероятности аудиосигнала с встроенным ЦВЗ. Оба распределения были вычислены с использованием 1000 различных значений ЦВЗ при отношении сигнал-шум 26 дб.

Рис. 7.1. Блок-схема стегокодера и стегодекодера

Рис. 7.2. Функция плотности распределения величины обнаружения для сигналов с ЦВЗ и без ЦВЗ

Внедрение в один аудиосигнал большого количества различных ЦВЗ приводит к увеличению слышимости искажений. Максимальное число ЦВЗ ограничено энергией каждого из них. Декодер способен правильно восстановить каждый ЦВЗ при условии использования кодером уникальных ключей. На рис. 7.3 показан пример обнаружения ЦВЗ с использованием 1000 различных ключей, из которых только один — верный [1].

Рис. 7.3. Распознавание заданного ключа встраивания ЦВЗ

В работе [1] проверялась стойкость рассматриваемого метода внедрения информации к сжатию MPEG до скоростей 80 кб/с и до 48 кб/с. После восстановления при сжатии до скорости 80 кб/с можно наблюдать незначительное уменьшение пороговой величины обнаружения в аудиосигналах с ЦВЗ (рис. 7.4). При сжатии аудиосигнала до 48 кб/с появляются звуковые эффекты, ощутимо снижающие качество сигналов с ЦВЗ.

Стойкость алгоритма встраивания ЦВЗ к фильтрации проверена применением к нему скользящего фильтра средних частот и фильтра нижних частот. Аудиофайлы с внедренным ЦВЗ профильтрованы скользящим фильтром средних частот длины 20, который вносит в аудиоинформацию значительные искажения.

Рис. 7.4. Влияние сжатия данных на ЦВЗ

Рис. 7.5. Влияние на ЦВЗ применения к аудиосигналу скользящего фильтра средних частот

На рис. 7.5 показано, как изменяется пороговая величина обнаружения при применении вышеописанного фильтра. В общем, порог обнаружения увеличивается в отфильтрованных сигналах. Это происходит по причине того, что функция плотности распределения сигналов после фильтрации сдвигается вправо по сравнению с относительной функцией распределения сигналов, не подвергавшихся фильтрации.

ЦВЗ сохраняется и при применении к аудиосигналу фильтра нижних частот. Однако при фильтрации аудисигналов с ЦВЗ фильтром нижних частот Хэмминга 25-го порядка с частотой среза 2205 Гц имело место уменьшение вероятности обнаружения наличия ЦВЗ.

Для проверки стойкости ЦВЗ к передискретизации Р. Бассиа и И. Питасом аудиосигналы были передискретизированы на частоты 22050 Гц и 11025 Гц и назад на начальную частоту. ЦВЗ сохранялся.

При переквантовании аудиосигнала из 16-битного в 8-битный и обратно внедренный ЦВЗ сохраняется, несмотря на частичную потерю информации. На рис. 7.6 показано насколько хорошо ЦВЗ сохраняется в 1000 аудиосигналах при их переквантовании в 8-битные отсчеты и обратно в 16-битные.

Рис. 7.6. Влияние переквантования сигнала на ЦВЗ

Девиация функции плотности распределения переквантованного сигнала увеличивается, как и в случае применения фильтра нижних частот, следовательно, имеет место уменьшение эффективности обнаружения.

7.2. Внедрение информации модификацией фазы аудиосигнала

Метод, предлагающий использовать слабую чувствительность системы слуха человека к незначительным изменениям фазы сигнала, был предложен В. Бендером, Н. Моримото и др.

Внедрение информации модификацией фазы аудиосигнала — это метод, при котором фаза начального сегмента аудиосигнала модифицируется в зависимости от внедряемых данных. Фаза последующих сегментов согласовывается с ним для сохранения разности фаз. Это необходимо потому, что к разности фаз человеческое ухо более чувствительно. Фазовое кодирование, когда оно может быть применено, является одним из наиболее эффективных способов кодирования по критерию отношения сигнал-шум.

Процедура фазового кодирования состоит в следующем:

1. Звуковой сигнал разбивается на серию N коротких сегментов рис. 7.7(а), 7.7(б).

2. К n-му сегменту сигнала применяется k-точечное дискретное преобразование Фурье, где К = I/N, и создаются матрицы фаз и амплитуд для (рис 7.7(в)).

3. Запоминается разность фаз между каждыми двумя соседними сегментами рис. (7.7(г)).

(7.7)

4. Бинарная последовательность данных представляется, как и - (рис 7.7(д)), .

5. С учетом разности фаз создается новая матрица фаз для n > 0, (рис. 7.7(е)):

(7.8)

6. Стегокодированный сигнал получается путем применения обратного дискретного преобразования Фурье, к исходной матрице амлитуд и модифицированной матрице фаз. (рис. 7.7(ж) и 7.7(з)).

Рис. 7.7. Блок-схема фазового кодирования

Получателю должны быть известны: длина сегмента, и точки ДПФ. Перед декодированием последовательность должна быть синхронизирована.

Недостатком этой схемы является ее низкая пропускная способность. В экспериментах В. Бендера и Н. Моримото пропускная способность канала варьировалась от 8 до 32 бит в секунду.

7.3. Встраивание информации за счет изменения времени задержки эхо-сигнала

Теми же авторами был предложен метод внедрения информации с использованием эхо-сигнала.

Этот метод позволяет внедрять данные в сигнал прикрытия, изменяя параметры эхо сигнала. К параметрам эхо, несущим внедряемую информацию (рис. 7.8), относятся: начальная амплитуда, время спада и сдвиг (время задержки между исходным сигналом и его эхо). При уменьшении сдвига два сигнала смешиваются. В определенной точке человеческое ухо перестает различать два сигнала, и эхо воспринимается, как добавочный резонанс. Эту точку трудно определить точно, так как она зависит от исходной записи, типа звука и слушателя. В общем случае, по исследованиям В. Бендера и Н. Моримото, для большинства типов сигналов и для большинства слушателей слияние двух сигналов происходит при расстоянии между ними около 0,001 секунды.

Рис. 7.8. Параметры эхо-сигнала

Кодер использует два времени задержки: одно для кодирования нуля, другое для кодирования единицы. И то, и другое время задержки меньше того, на котором человеческое ухо может распознать эхо. Кроме уменьшения времени задержки необходимо добиться установлением начальной амплитуды и времени спада того, чтобы внедренная информация не могла быть воспринята системой слуха человека.

Кодирование. Для простоты, был выбран пример только двух импульсов (один для копирования исходного сигнала, другой для формирования эхо сигнала). Увеличение количества импульсов приведет к увеличению количества отсчетов эхо-сигналов.

Пусть на рис. 7.9а показан способ кодирования «единицы» а на рис. 7.9б — способ кодирования «нуля». Внедрение данных показано на рис. 7.10.

Задержка ( ) между исходным сигналом и его эхо зависит от внедряемых в данный момент данных. Единице соответствует задержка ( ), а нулю — задержка эхо-сигнала ( ).

Для того чтобы закодировать более одного бита, исходный сигнал разделяется на маленькие участки. Каждый участок рассматривается как отдельный сигнал, и в него внедряется один бит информации. Результирующий закодированный сигнал (содержащий несколько бит внедренной информации) представляет собой комбинацию отдельных участков. На рис. 7.11 показан пример, в котором сигнал разделяется на семь участков — a, b, c, d, e, f, g.

Рис. 7.9. Кодирование одного бита информации

Рис. 7.10. Внедрение одного бита информации

В участки a, с, d, g будет внедрена единица. Следовательно, на этих участках система будет функционировать так, как показано на рис. 7.9а. Нули будут внедрены в участки b, e, f, на этих участках система будет функционировать так, как показано на рис. 7.9б.

Рис. 7.11. Разделение сигнала на участки

Для достижения минимума заметности сначала создаются два сигнала: один, содержащий только «единицы», и другой — содержащий только нули. Полученные в результате сигналы показаны на рис. 7.12.

Рис. 7.12. Сигналы, содержащие только одно бинарное значение

Затем создаются два переключающих сигнала — нулевой и единичный (рис. 7.13). Каждый из них представляет собой бинарную последовательность, состояние которой зависит от того, какой бит должен быть внедрен в данный участок звукового сигнала.

Рис. 7.13. Переключающие сигналы

Далее вычисляется сумма произведений нулевого смешивающего сигнала и аудиосигнала с задержкой «нуль», а также единичного смешивающего сигнала и аудиосигнала с задержкой «единица». Другими словами, когда в аудиосигнал необходимо внедрить «единицу», на выход подается сигнал с задержкой «единица», в противном случае — сигнал с задержкой «нуль». Так как сумма двух смешивающих сигналов всегда равна единице, то обеспечивается гладкий переход между участками аудиосигнала, в которые внедрены различные биты. Блок-схема стегокодера показана на рис. 7.14.

Рис. 7.14. Блок-схема стегокодера

Декодирование. Декодирование внедренной информации представляет собой определение промежутка времени между сигналом и эхо. Для этого необходимо рассмотреть амплитуду (в двух точках) автокорреляционной функции дискретного косинусного преобразования логарифма спектра мощности (кепстра).

В результате вычисления кепстра получится последовательность импульсов (эхо, дублированное каждые секунд) (рис. 7.15).

Рис. 7.15. Результат вычисления кепстра

Для определения промежутка времени между сигналом и его эхом необходимо рассчитать автокорреляционную функцию кепстра.

Всплеск автокорреляционной функции будет иметь место через или секунд после исходного сигнала (рис. 7.16). Правило декодирования основано на определении промежутка времени между исходным сигналом и всплеском автокорреляции.

При декодировании «единица» принимается, если значение автокорреляционной функции через секунд больше чем через секунд, в противном случае — «нуль».

Рис. 7.16. Поведение автокорреляционной функции при различной внедренной информации

По исследованиям В. Бендера и Н. Моримото данная схема позволяет внедрять 16 бит в одну секунду аудиозаписи незаметно, без потери ее качества.

7.4. Методы маскирования ЦВЗ

К методам, использующим не только особенности строения аудиосигналов, но и системы слуха человека относится также метод маскирования сигнала. Маскированием называется эффект, при котором слабое, но слышимое звуковое колебание становится неслышимым при наличии другого более громкого (сигнал маскирования). Эффект маскирования зависит от спектральных и временных характеристик маскируемого сигнала и сигнала маскирования.

Можно говорить о маскировании по частоте и маскировании по времени. Первое заключается в следующем: если два сигнала одновременно находятся в ограниченной частотной области, то более слабый сигнал становится неслышимым на фоне более сильного. Порог маскирования зависит от частоты, уровня подавления сигнала и тональной или шумовой характеристик маскируемого сигнала и сигнала маскирования. Легче широкополосным шумовым сигналом маскировать тональное колебание, чем наоборот. Кроме того, более высокочастотные колебания маскировать легче. Маскирование по времени определяет следующий эффект: более слабый сигнал становится не слышимым за 5 — 20 мс до включения колебания маскирования и становится слышимым через 50 — 200 мс после его выключения.

Воспользовавшись информацией о маскировании по частоте для системы слуха человека, мы можем определить спектральные характеристики внедряемой информации. Обработка импульсных сигналов, таких как звук кастаньет, может привести к образованию слышимого пре-эхо. Для устранения этого эффекта при внедрении информации его также необходимо учитывать.

Рассмотрим конкретный метод внедрения ЦВЗ (псевдослучайной последовательности) с использованием эффекта маскирования, предложенный в работе [3]. Каждый аудиосигнал помечается уникальным кодовым словом. Для того, чтобы использовать маскирующие характеристики системы слуха человека по частоте необходимо соотнести ПСП с порогом маскирования сигнала, при этом необходимо также учесть эффект временного маскирования. Невозможно внести большое количество информации в сигнал малой мощности, в противном случае внедренная информация может стать слышимой. Это происходит из-за того, что преобразование Фурье фиксированной длины не может сразу обладать хорошей локализацией в частотной и временной областях. Если время длительности сигнала высокой мощности больше длительности окна, то его энергия распространяется по всем частотам. Следовательно, необходимо взвешивать ЦВЗ с энергией сигнала.

Для внедрения ЦВЗ необходимо вычислить порог маскирования сигнала. Порог маскирования определяется для сегментов аудиосигнала длиной 512 отсчетов, взвешенных при помощи окна Хэмминга, с 50 % перекрытием текущих блоков. Он аппроксимируется идеальным фильтром 10-го порядка, M(w), с использованием критерия наименьших квадратов. ПСП фильтруется с применением фильтра M(w), чтобы обеспечить то, что спектральная плотность мощности ЦВЗ была ниже порога маскирования.

ЦВЗ, находящийся ниже порога маскирования в частотной области, распространяется на все окно 512 отсчетов. Если внутри блока имеются пиковые изменения амплитуды, то области сигнала высокой мощности распространяются на области сигнала низкой мощности, создавая ощутимые искажения. Слышимым эффектом будет шум, предшествующий пиковому изменению амплитуды. Поэтому ЦВЗ взвешивается во временной области с взятой в квадрат и нормированной огибающей сигнала,

. (7.9)

Для облегчения обнаружения ЦВЗ нужно увеличить его мощность, но при этом необходимо, чтобы спектральная плотность мощности ЦВЗ оставалась ниже порога маскирования. Если «вычисленный ЦВЗ» меньше шага квантования его нужно увеличить во столько раз, чтобы ЦВЗ в процессе квантования не был потерян.

Если во всех отрезках времени ЦВЗ ниже порога маскирования, то можно утверждать, что ЦВЗ неслышим.

Рис. 7.17. Блок-схема генератора ЦВЗ

На рис. 7.17 изображена блок-схема устройства встраивания ЦВЗ в аудиосигнал. В базовой схеме внедрения ЦВЗ кодовое слово фильтруется при помощи фильтра, приближенного по характеристикам к системе слуха человека. Полученный результат сравнивается во времени с исходным аудиосигналом, для исключения временных эффектов, таких, как пре-эхо. Затем результат добавляется к оригинальному аудиосигналу, давая в результате

(7.10)

где под w понимается отфильтрованная ПСП.

Исследования А. К. Хамди и др. [3] показывают, что ЦВЗ лучше размещать в высокочастотной области сигнала.

Незарегистрированный пользователь будет пытаться сделать невозможным распознавание ЦВЗ, добавляя к нему окрашенный шум, фильтруя его, кодируя, осуществляя над ним цифро-аналоговое и аналогово-цифровое преобразование, сжатие и т. д. При рассмотрении проблемы распознавания предполагается, что оригинальный сигнал доступен, как распознавателю, так и автору ПСП.

Необходимо различить пиратский аудиосигнал и подлинный аудиосигнал , на который наложились помехи и ЦВЗ. При этом подлежат проверке следующие гипотезы:

(7.11)

Отметим, что ЦВЗ неслышим, и нас интересуют случаи, когда искажения, вносимые незарегистрированным пользователем также неслышны. Можно использовать взаимную корреляцию между x и w, чтобы обнаружить наличие ЦВЗ с помехами, сравнивая его с порогом. Исследования А.Хамди и др. [3] показывают, что возможно надежно определять наличие ЦВЗ при использовании 50 или более блоков по 512 отсчетов для порога приблизительно равного 0,7. Необходимо отметить, что это определено для 0,8 секунды аудиосигнала (при частоте дискретизации 32 к Гц).

Тогда можно вычислить вероятность определения и вероятность ложного определения для каждого сегмента из 50 блоков по 512 отсчетов. При этом, даже если ЦВЗ произведены при помощи одинаковых псевдослучайных последовательностей для всего аудиосигнала, то в течение сигнала они будут изменяться в зависимости от порога маскирования и мощности сигнала для каждого блока из 512 отсчетов.

Автор должен выбирать различные ПСП для каждого аудиосигнала, чтобы его подписи невозможно было найти сравнением или изучением зависимости между несколькими аудиосигналами.

В работе [3] была проверена возможность удаления ЦВЗ при помощи аддитивных шумов. Был исследован наихудший случай аддитивного искажения ЦВЗ: шум, который «придерживается» порога маскирования сигнала с ЦВЗ. Опыты по обнаружению ЦВЗ были произведены на сегментах аудио сигнала длиной 50 участков по 512 отсчетов с присутствием или без ЦВЗ, при воздействии наихудшего варианта шума. Вероятность обнаружения ЦВЗ и вероятность ложного обнаружения были соответственно равны 1 и 3.1285 * 10-4, для порога 0,7.

Проведенные в [3] исследования показали, что данная система является также стойкой к аналого-цифровым и цифро-аналоговым преобразованиям.

Несмотря на то, что в рассмотренном методе используются свойства, присущие аудиосигналам, он может быть после некоторой модификации успешно применен и для внедрения информации в видео.

Название книги

Цифровая стеганография

Грибунин Вадим Геннадьевич

Оков Игорь Николаевич

Туринцев Игорь Владимирович

7. СКРЫТИЕ ДАННЫХ В АУДИОСИГНАЛАХ