Команда исследователей из Калифорнийского университета в Беркли (UCB) внесла ощутимый вклад в понимание и освоение некогда сверхсекретной области компрометирующих .
На Западе эту тематику принято именовать кратким кодовым словом Tempest. Спецслужбы занимаются темпест-разработками по меньшей мере полвека, однако для академического сообщества, изучающего проблемы компьютерной безопасности, утечки данных через побочные каналы компрометации продолжают оставаться экзотикой. Особенно если канал утечки — акустический. Открытые работы на эту тему можно пересчитать по пальцам одной руки, так что новая публикация, посвященная перехвату вводимой в компьютер информации по звуку нажатий клавиш, заслуживает внимания.
Профессор информатики UCB Дуг Тайгер (Doug Tygar) и два его аспиранта продемонстрировали, что десятиминутной аудиозаписи звуков, издаваемых кнопками клавиатуры при наборе неизвестного текста, достаточно, чтобы аналитически восстановить больше 90% введенной в компьютер информации. Используемое для акустического перехвата оборудование может быть очень дешевым (исследователи применяли для записи самый обычный десятидолларовый микрофон), но при условии, что сенсор расположен в том же помещении. Если же использовать спецтехнику подслушивания с параболической антенной или дорогой узконаправленный микрофон, то запись можно делать и находясь снаружи здания, через окно.
Строго говоря, работу Тайгера и его команды нельзя назвать истинно новаторской, поскольку она в значительной степени опирается на опубликованные в прошлом году результаты исследований двух специалистов IBM, Дмитрия Асонова и Ракеша Агравала (см. ). Асонов и Агравал использовали для распознавания звуков программу искусственной нейросети, которая в довольно жестких условиях обучения — примерно по тридцать нажатий для каждой кнопки — восстанавливала вводимую информацию в 80% случаев. Ученые из Калифорнийского университета решили опереться на существенно иной алгоритм распознавания, применяющий статистические методы машинного обучения (аппарат «скрытых марковских цепей») в сочетании с рядом дополнительных методов оптимизации.
В основу оптимизации было заложено несколько упрощающее задачу (но абсолютно справедливое) допущение о том, что вводимая в компьютер информация представляет собой обычный англоязычный текст. По особенностям издаваемых звуков (зависящих главным образом от расположения кнопок на клавиатуре) похоже звучащие кнопки объединялись в классы. После чего, отталкиваясь от известных статистических закономерностей английского языка (частоты встречаемости букв и того, например, что после «th» обычно идет "e" и крайне редко "q"), экспериментаторы присваивали каждому звуку вероятное априорное значение буквы с учетом опознания класса. Уже такой нехитрый алгоритм позволил правильно распознать 60% вводимых букв, однако на уровне слов этот показатель составил всего лишь 20%.
Добавление автоматической проверки орфографии и грамматики радикально (больше чем на 50%) улучшило распознавание слов, хотя и не оказало заметного влияния на процент распознавания букв. Но когда полученный результат был введен в качестве обратной связи для дополнительного обучения алгоритма-классификатора нажатий клавиш, правильность распознавания ощутимо возросла. Три цикла пересчета позволили выбранному алгоритму довести процент опознания звуков клавиш до 92, а в некоторых случаях даже до 96. Как и при аналогичной по сути задаче вскрытия шифров замены, аккуратность метода прямо зависит от объема имеющегося материала. Если количество знаков в анализируемом образце уменьшается с трех до полутора тысяч (при среднестатистической «профессиональной» скорости ввода триста знаков в минуту это означает уменьшение длительности записи с десяти минут до пяти), процент распознавания остается чуть больше 80%.
Программа Тайгера со товарищи позволяет эффективно восстанавливать не только осмысленный текст, но и произвольные последовательности знаков в паролях (путем быстрого перебора нескольких десятков вариантов), тем самым еще раз подтверждая ненадежность традиционных средств аутентификации. Обычные пароли, вводимые с клавиатуры, стало слишком легко перехватывать — и расплодившимися шпионскими программами-кейлоггерами, и, как теперь показано, способом акустического прослушивания. Таким образом, полагают исследователи, ныне по-настоящему можно доверять лишь средствам аутентификации, сочетающим сразу три важных элемента: то, что ты есть (биометрия); то, что ты имеешь (жетон или смарт-карта доступа); и то, что ты знаешь (пароль).