Большие данные. Революция, которая изменит то, как мы живем, работаем и мыслим

Майер-Шенбергер Виктор

Кукьер Кеннет

Глава 8

Риски

 

 

Почти сорок лет, вплоть до падения Берлинской стены в 1989 году, Министерство государственной безопасности ГДР (нем. Ministerium für Staatssicherheit — Stasi (Штази)) шпионило за сотнями тысяч людей. Около ста тысяч штатных сотрудников вели наблюдения с улиц и из окон автомобилей. Они вскрывали письма и заглядывали в банковские счета, прослушивали квартиры и телефонные линии. Они заставляли влюбленных и супругов, родителей и детей шпионить друг за другом, подрывая важнейшие основы доверия между людьми. Итоговые материалы (в том числе не менее 39 миллионов единиц картотеки и 100 километров документов) подробно описывали самые сокровенные аспекты жизни простых людей. В ГДР был достигнут небывало масштабный уровень надзора.

Спустя 20 лет после развала ГДР о каждом из нас собирается и хранится больше данных, чем когда-либо. Мы находимся под постоянным наблюдением: расплачиваясь кредитной картой, общаясь по сотовому телефону или предъявляя номер социального страхования для удостоверения личности. В 2007 году британские СМИ подшучивали, что в радиусе всего 200 метров от лондонской квартиры, где Джордж Оруэлл писал свой знаменитый роман-антиутопию «1984», установлено более 30 камер наблюдения. Задолго до появления интернета специализированные компании, такие как Equifax и Experian, собирали, упорядочивали и делали доступными сотни записей о каждом из около полумиллиарда человек по всему миру. Интернет сделал процесс отслеживания более простым, дешевым и практичным. За нами шпионят не только тайные государственные службы с названиями из трех букв. Amazon отслеживает наши предпочтения в покупках, Google — просматриваемые веб-страницы, а Twitter — мимолетные мысли. Facebook успевает уловить все это сразу, наряду с нашими социальными отношениями.

Поскольку большие данные обещают ценные открытия тем, кто их анализирует, естественно ожидать стремительного увеличения числа тех, кто будет собирать, хранить и повторно использовать наши личные данные. Поскольку стоимость хранения будет так же стремительно падать, а аналитические инструменты — становиться все мощнее, размер и масштаб сбора данных станет расти не по дням, а по часам. Если эпоха интернета поставила под угрозу конфиденциальность, возможно ли, что большие данные усугубят эту проблему? Это ли не темная их сторона?

И не только она. Существенное свойство больших данных заключается в том, что изменение масштаба приводит к изменению состояния. Далее мы покажем, что это значительно усложняет защиту неприкосновенности частной жизни, но при этом ставит и новую задачу: судить и наказывать людей на основе прогнозов больших данных еще до того, как они совершат преступление. Это сводит на нет идею честности, справедливости и свободы воли и отвергает глубокомысленное принятие решений.

Существует еще одна опасность: мы рискуем стать жертвами диктатуры данных, в результате которой станем боготворить информацию и выходные данные анализов, а в конечном счете и злоупотреблять ими. Большие данные являются хорошим инструментом рационального принятия решений, если с ними вдумчиво обращаться. Если же ими орудовать неблагоразумно, они способны превратиться из мощного инструмента в оправдание репрессий, создавая неудобства клиентам и сотрудникам или, что еще хуже, нанося ущерб гражданам.

На кону гораздо больше, чем принято считать. Неспособность управлять большими данными с точки зрения конфиденциальности и прогнозирования или неправильное их толкование чреваты намного более глубокими последствиями, чем нацеливание рекламных объявлений в интернете. ХХ век буквально пропитан кровавыми примерами того, как данные способствуют ужасным злодеяниям. В 1943 году Бюро переписи населения США передало адреса кварталов американцев японского происхождения (но без названий улиц и номеров, чтобы поддержать иллюзию защиты конфиденциальности) в целях содействия их интернированию. Знаменитыми всеобъемлющими голландскими записями об актах гражданского состояния воспользовались вторгшиеся нацисты для облавы на евреев. Изначальные пятизначные номера, нанесенные в виде татуировок на предплечья узников в нацистских концлагерях, соответствовали номерам перфокарт IBM Hollerith — комплексной системы учета узников концлагерей; обработка данных дала возможность совершать убийства в промышленных масштабах.

Несмотря на информационное мастерство, Штази многое было не под силу. Сотрудникам министерства стоило огромных усилий узнать, кто, куда, когда перемещается и с кем разговаривает. Основную часть этой информации теперь собирают операторы мобильной связи. В ГДР не могли спрогнозировать, кто станет диссидентом. Мы тоже не можем. Но правоохранительные органы начинают использовать алгоритмические модели для того, чтобы вычислять время и место патрулирования, узнавая предполагаемый ход развития событий. При этом риски, связанные с большими данными, соразмерны самим наборам данных.

 

Парализующая конфиденциальность

Велик соблазн ассоциировать угрозу конфиденциальности с ростом объема цифровых данных, проводя аналогию с системой надзора в антиутопии Дж. Оруэлла «1984». На самом деле ситуация гораздо сложнее. Во-первых, не все большие данные содержат личную информацию. Ее нет в данных датчиков на нефтеперерабатывающих заводах, в данных о работе заводских механизмов, о погодных условиях в аэропортах или о взрывах в канализационных люках. Компаниям BP и Con Edison не нужна была личная информация, чтобы извлечь выгоду из выполняемого ими анализа. По сути, анализ больших данных на основе такой информации практически ничем не угрожает конфиденциальности.

И все-таки основная часть создаваемых сегодня данных и вправду содержит личную информацию. Есть ряд довольно веских оснований для того, чтобы записывать ее как можно больше и хранить как можно дольше, при этом часто используя. Данные могут быть не похожи явным образом на личную информацию, но благодаря обработке больших данных по ним можно легко проследить обратную связь с их автором.

Некоторые «умные» электросчетчики, которые внедряются в США и Европе, могут собирать от 750 до 3000 точек данных в месяц в режиме реального времени. Это гораздо больше, чем скудный поток информации о совокупном потреблении электроэнергии, который собирает обычный счетчик. Каждый прибор имеет уникальную «подпись нагрузки» при получении электропитания, которая позволяет отличить холодильник от телевизора, а телевизор — от подсветки для выращивания марихуаны. Таким образом, использование электроэнергии раскрывает личную информацию, будь то ежедневные привычки, медицинские условия или противозаконное поведение.

Однако не столько важно, увеличат ли большие данные риск нарушения конфиденциальности (а они увеличат), сколько изменится ли сам характер риска. Если угроза просто возрастет, то некоторые законы и правила о неприкосновенности частной жизни подойдут и для эпохи больших данных — потребуется лишь удвоить нынешние усилия. С другой стороны, если ситуация изменится, потребуются новые решения.

К сожалению, проблема все же приобретает новые очертания. Ценность больших данных не ограничивается первичным использованием — существенная ее часть, как мы уже поясняли, состоит во вторичном применении.

Это подрывает главную роль частных лиц в действующем законодательстве о неприкосновенности частной жизни. Сборщики данных должны сообщать им, какую информацию собирают и с какой целью. Чтобы начать сбор данных, сборщикам необходимо получить от частных лиц согласие. Хотя это и не единственный способ обработки личных данных законным путем, понятие «уведомления и согласия» стало краеугольным камнем политики конфиденциальности по всему миру. (На практике это вылилось в огромные примечания о конфиденциальности, которые мало кто читает, не говоря уже о том, чтобы понять, но это уже другая история.)

В эпоху больших данных самые инновационные способы их вторичного использования невозможно было представить на момент их сбора. Как же компаниям уведомлять о цели, которая еще не придумана? И разве станут частные лица давать информированное согласие на неизвестное? А при отсутствии согласия, для того чтобы анализировать большие данные, содержащие личную информацию, потребуется обращаться к каждому лично, спрашивая разрешение на каждое повторное применение. Вы можете себе представить, как Google пытается связаться с миллиардами пользователей, чтобы получить от них разрешение на анализ их старых поисковых запросов с целью спрогнозировать грипп? Ни одна компания не возьмет на себя такие расходы, даже если бы это было технически возможно.

Альтернативный вариант — перед сбором получать согласие на любое дальнейшее использование их данных — тоже бесполезен. Такое разрешение «оптом» сводит на нет само понятие информированного согласия. В контексте больших данных проверенная временем концепция «уведомления и согласия» налагает слишком много ограничений для извлечения скрытой ценности данных и слишком бесполезна для защиты конфиденциальности частных лиц.

Кроме того, в эпоху больших данных технические способы защиты неприкосновенности частной жизни тоже сдают свои позиции. Если вся информация находится в наборе данных, ее извлечение само по себе может оставить след. Возьмем, к примеру, функцию Google Street View. Для ее создания собрали фотографии дорог и домов во многих странах (как и многие другие данные — но это спорный вопрос). В Германии компания Google столкнулась с массовым протестом общественности и СМИ. Люди опасались, что фотографии их домов и садов помогут бандам грабителей выбрать выгодные цели. Под давлением регулирующих органов Google согласилась предоставить домовладельцам возможность отказа от участия, которая позволяла размыть изображения их домов. Но результаты этой возможности заметны в Street View — вы видите размытые дома, а грабители могут расценить их как сигнал, что это отличная цель.

Такой технический подход к защите конфиденциальности, как анонимизация, тоже, как правило, неэффективен. Анонимизация подразумевает удаление из наборов данных всех личных идентификаторов (имя, адрес, номер кредитной карты, дата рождения, номер социального страхования и пр.). Полученные данные можно анализировать без ущерба для чьей-либо конфиденциальности. Этот подход работает в мире малых данных. Большие данные упрощают повторное установление личности в связи с увеличением количества и разнообразия информации. Рассмотрим примеры с веб-поисками и оценками кинофильмов, которые, казалось бы, не позволяют установить личность.

В августе 2006 года компания AOL сделала общедоступными горы старых поисковых запросов под благовидным намерением дать исследователям возможность анализировать их в поисках интересных открытий. Набор данных из 20 миллионов поисковых запросов от 650 000 пользователей за период с 1 марта по 31 мая 2006 года был тщательно анонимизирован. Личные данные, такие как имя пользователя и IP-адрес, были удалены и замещены уникальным числовым идентификатором. Таким образом, исследователи могли связать между собой поисковые запросы от одного и того же человека, но не имели информации для установления его личности.

Тем не менее в течение нескольких дней сотрудники New York Times, связав поисковые запросы, такие как «одинокие мужчины за 60», «целебный чай» и «ландшафтный дизайнер в Лилбурне, Джорджия», успешно установили, что пользователь № 4 417 749 — это Тельма Арнольд, 62-летняя вдова из Лилбурна, штат Джорджия. «О Господи, это же вся моя личная жизнь! — сказала она журналистам Times, когда они наведались к ней в гости. — Я понятия не имела, что за мной подсматривают». Последовавшие за этим протесты общественности привели к увольнению технического директора и еще двух сотрудников AOL.

А всего два месяца спустя, в октябре 2006 года, служба проката фильмов Netflix сделала нечто подобное, объявив конкурс Netflix Prize. Компания выпустила 100 миллионов записей о прокате от около полумиллиона пользователей и объявила приз в размере одного миллиона долларов, который достанется команде исследователей, сумевшей улучшить систему рекомендации фильмов Netflix не менее чем на 10%. Личные идентификаторы были тщательно удалены. И снова пользователей удалось разоблачить: мать и скрытая лесбиянка из консервативного Среднего Запада подала в суд на Netflix от имени псевдонима Jane Doe.

Сравнив данные Netflix с другими общедоступными сведениями, исследователи из Техасского университета быстро обнаружили, что оценки анонимизированных пользователей соответствовали оценкам людей с конкретными именами на сайте Internet Movie Database (IMDb). В целом исследования показали, что всего по шести оценкам фильмов в 84% случаев можно было верно установить личность клиентов Netflix. А зная дату, когда человек оценил фильмы, можно было с 99%-ной точностью определить его среди набора данных из полумиллиона клиентов.

В исследовании AOL личности пользователей можно было раскрыть по содержанию их поисковых запросов, а в конкурсе Netflix — путем сравнения с данными из других источников. В обоих случаях компании недооценили, насколько большие данные могут способствовать деанонимизации. Тому есть две причины: мы записываем больше данных и объединяем больше данных.

Пол Ом, профессор права в Университете штата Колорадо и эксперт по ущербу от деанонимизации, объясняет, что этот вопрос не так просто решить. При наличии достаточно большого количества данных идеальная анонимизация невозможна вопреки каким бы то ни было усилиям. Хуже того, исследователи недавно показали, что не только обычные данные, но и «социальный граф» — связи между людьми в социальных сетях — также подвержены деанонимизации.

В эпоху больших данных три основные стратегии обеспечения конфиденциальности (индивидуальное «уведомление и согласие», возможность отказа от участия и анонимизация) во многом утратили свою эффективность. Уже сегодня многие пользователи считают, что их частная жизнь находится под угрозой. То ли еще будет, когда практика использования больших данных станет обычным явлением!

По сравнению с ситуацией в ГДР четверть века назад теперь вести наблюдение стало проще, дешевле и эффективнее. Возможность записи личных данных зачастую встроена в инструменты, которые мы используем ежедневно — от сайтов до приложений на смартфоне. Так, «черные ящики», установленные в большинстве автомобилей для отслеживания активаций подушки безопасности, известны тем, что могут «свидетельствовать» против автовладельцев в суде в случае спора по поводу ДТП.

Конечно, когда компании собирают данные для улучшения своих показателей, нам не нужно опасаться слежки и ее последствий, как гражданам ГДР после прослушивания сотрудниками Штази. Мы не попадем в тюрьму, если Amazon узнает, что мы почитываем «красную книжечку» Председателя Мао Цзэдуна, а Google не изгонит нас за то, что мы искали Bing. Компании обладают определенным влиянием, но у них нет государственных правомочий принуждения.

Да, они не применяют таких жестких методов, как Штази, однако компании всех мастей накапливают базы личной информации обо всех аспектах нашей повседневной жизни, делятся ею с другими без нашего ведома и используют ее в неизвестных нам целях.

Не только частный сектор пробует силы в области больших данных. Государственные органы тоже. По данным расследования Washington Post в 2010 году, Агентство национальной безопасности США (АНБ) ежедневно перехватывает и сохраняет 1,7 миллиарда писем электронной почты, телефонных звонков и других сообщений. По оценкам Уильяма Бинни, бывшего сотрудника АНБ, правительство собрало «20 триллионов операций» между американскими и другими гражданами: кто кому позвонил, написал по электронной почте, отправил денежный перевод и т. д.

Для обработки этих данных США строят гигантские центры, такие как здание АНБ в Форт-Уильямс, Юта, стоимостью в 1,2 миллиарда долларов. Все государственные органы, а не только спецслужбы по борьбе с терроризмом требуют больше информации, чем раньше. Когда список данных расширяется, включая сведения о финансовых операциях, медицинских картах, обновлениях статуса в Facebook и пр., их собирается невообразимое количество. Государственные органы не в состоянии обработать столько всего. Так зачем собирать?

Ответ на этот вопрос показывает, как изменился способ наблюдения в эпоху больших данных. В прошлом исследователи крепили щипковые зажимы к телефонным проводам, чтобы получить максимум информации о подозреваемом. Важно было как можно полнее изучить, что он собой представляет. Сегодня иной подход. Новое мышление (в духе Google и Facebook) состоит в том, что люди — совокупность их социальных отношений, взаимодействий в интернете и связей с контентом. Чтобы полностью изучить человека, аналитикам нужно просмотреть как можно более широкий круг периферических данных — узнать не только с кем он знаком, но и с кем знакомы его знакомые и т. д. Раньше это было технически трудновыполнимо, а теперь — проще, чем когда-либо.

Однако сколько бы опасений ни вызывала способность бизнеса и правительства извлекать нашу личную информацию, в связи с большими данными возникает более актуальная проблема: использование прогнозов в вынесении приговора.

 

Вероятность и наказание

Джон Андертон, начальник специального полицейского подразделения в Вашингтоне, округ Колумбия, одним прекрасным утром врывается в пригородный дом за считаные секунды до того, как разъяренный Говард Маркс вот-вот вонзит ножницы в тело своей жены, которую он застал в постели с любовником. Для Андертона это всего лишь очередной день профилактики тяжких преступлений. «Как представитель отдела по профилактике преступлений округа Колумбия, — произносит он, — заявляю: вы арестованы по обвинению в будущем убийстве Сары Маркс, которое должно было произойти сегодня…»

Полицейские связывают Маркса, который кричит: «Я ничего не сделал!»

Начальный эпизод фильма «Особое мнение» изображает общество, в котором предсказания выглядят настолько точными, что полиция арестовывает частных лиц за еще не совершенные преступления. Людей сажают в тюрьму не за фактические действия, а за предсказанные, даже если на самом деле преступлений не произошло. Причиной тому является не анализ данных, а видения трех ясновидящих. Мрачное будущее, изображенное в фильме, показывает именно то, к каким угрозам может привести неконтролируемый анализ больших данных: признание вины на основе индивидуальных предсказаний будущего поведения.

Мы уже видим первые ростки. Комиссии по условно-досрочному освобождению в тридцати штатах используют прогнозы, основанные на анализе данных, как фактор при принятии решений, стоит ли освобождать того или иного заключенного. Все чаще правоохранительные органы в Америке — от избирательных участков в Лос-Анджелесе до целых городов, таких как Ричмонд и Вирджиния, — используют «прогностический полицейский контроль», то есть с помощью анализа больших данных выбирают улицы, группы и частных лиц для дополнительной проверки просто потому, что алгоритм указал на них как на более склонных к совершению преступлений.

В Мемфисе программа под названием Blue CRUSH (англ. Crime Reduction Utilizing Statistical History — «снижение преступности на основе статистических данных») предоставляет полицейским относительно точные данные о зонах потенциальной угрозы с точки зрения места (в пределах нескольких кварталов) и времени (в пределах нескольких часов конкретного дня недели). Система, по всей видимости, помогает правоохранительным органам лучше распределять свои ограниченные ресурсы. Согласно одному из подсчетов, с момента создания системы в 2006 году количество основных имущественных и насильственных преступлений снизилось на четверть (хотя, конечно, нет никакой причинно-следственной связи, указывающей на то, что это как-то связано с Blue CRUSH).

В рамках инициативы в Ричмонде, Вирджиния, полиция устанавливает корреляции между данными о преступлениях и дополнительными наборами данных, например датами выплаты зарплат в крупных компаниях города, а также датами местных концертов или спортивных мероприятий. Как показывает практика, они подтверждают, а иногда и уточняют подозрения полицейских о тенденциях в области преступности. Например, полиция Ричмонда давно предполагала, что за оружейными шоу следует резкий рост тяжких преступлений. Анализ больших данных доказал их правоту, но с одной оговоркой: скачок преступности происходил через две недели после события, а не сразу после него.

Такие системы направлены на профилактику преступлений путем их прогнозирования вплоть до выявления частных лиц, которые могут их совершить. Большие данные здесь служат новым целям: с их помощью можно было бы предупреждать преступления. Звучит многообещающе. Разве не лучше остановить человека до совершения преступления, чем наказывать его после? Нам удалось бы избежать трагических происшествий. В итоге выиграли бы не только потенциальные жертвы, но и общество в целом.

Однако это скользкий путь. Если на основе анализа больших данных мы сможем прогнозировать возможных преступников, то вряд ли станем довольствоваться профилактикой преступлений. Вероятно, мы захотим наказать потенциальных виновников. Это вполне логично. Если мы просто вмешаемся, чтобы не допустить незаконные действия, предполагаемый преступник, освобожденный от наказания, может попробовать еще раз. Но мы надеемся удержать его от такой попытки, возлагая на него ответственность за свои действия (в том числе будущие).

Прогноз на основе наказания кажется шагом вперед по сравнению с практикой. Профилактика нездорового, опасного или незаконного поведения является краеугольным камнем современного общества. Мы ограничили условия для курящих, чтобы предупредить рак легких, требуем пристегивать ремни безопасности, чтобы предотвратить жертвы ДТП, и не пускаем на борт самолетов людей с оружием, чтобы не допустить угонов. Все эти профилактические меры ограничивают нашу свободу, но мы готовы их принять как небольшую плату взамен на прогнозирование гораздо большего ущерба.

Во многих случаях анализ данных уже работает на профилактику. С его помощью людей объединяют в группы по общему признаку, а затем соответственно оценивают их. Страховые таблицы свидетельствуют, что мужчины старше пятидесяти склонны к раку простаты. Поэтому, если вы относитесь к этой группе, возможно, вам придется больше платить за медицинскую страховку, даже если вы не больны. Студенты, бросившие вуз, воспринимаются как группа людей, склонных не погашать кредиты, так что человек без высшего образования может получить отказ в кредите или будет вынужден оплачивать более высокие страховые тарифы. Кроме того, лица с определенными отличительными признаками подвергаются дополнительной проверке при прохождении контроля безопасности в аэропорту.

В современном мире малых данных такая методика получила название «профайлинг» (профилирование). Это поиск характерных ассоциаций в данных с последующим анализом тех, кто подходит под их описание. Это обобщенное правило, которое относится ко всем участникам группы. «Профайлинг» — весомое слово. Оно подразумевает не только дискриминацию в отношении определенных групп, но и при неправильном использовании означает «вину по ассоциации». Профайлинг имеет серьезные недостатки.

Используя большие данные, мы можем определять не группы, а конкретных лиц, что избавляет нас от существенного недостатка профайлинга: каждый прогностически подозреваемый превращается в виновного по ассоциации. В мире больших данных человек с арабским именем, рассчитавшийся наличными за билет в одну сторону в первом классе, больше не должен подвергаться вторичной проверке в аэропорту, если остальные данные указывают, что он, скорее всего, не террорист. Благодаря большим данным мы можем избежать ограничений профайлинга — этой смирительной рубашки групповых особенностей — и заменить их более подробными прогнозами на каждого человека.

Роль больших данных в признании виновности частных лиц состоит в том, что, хотя мы делаем то же, что и раньше (профайлинг), но делаем это лучше, тщательнее, с индивидуальным подходом и меньшей дискриминацией. Такой подход приемлем, если целью является предотвращение нежелательных действий. Но он таит в себе огромную опасность, если прогнозы больших данных послужат принятию решений о виновности и наказании за еще не совершенные поступки.

Наказывать исходя из вероятности будущего поведения — значит отрицать саму основу традиционного правосудия, когда сначала совершается поступок, а затем уже человека можно привлечь к ответственности. В конце концов, думать о противоправных поступках не воспрещается, а вот совершать их — незаконно. Один из основополагающих принципов нашего общества состоит в том, что каждый несет ответственность за свой выбор действия. Если кого-то под дулом пистолета заставили открыть сейф компании, у него не было выбора и, следовательно, он не несет ответственности.

Если бы прогнозы больших данных были совершенными и алгоритмы могли предвидеть наше будущее с абсолютной точностью, мы не имели бы выбора, как поступать в будущем. Мы вели бы себя именно так, как предсказано. Если бы совершенные прогнозы были возможны, они бы отрицали человеческую волю, нашу способность жить свободной жизнью и, по иронии судьбы, из-за отсутствия выбора освобождали бы нас от любой ответственности.

Идеальное прогнозирование невозможно. Анализ больших данных, скорее, дает возможность прогнозировать наиболее вероятное поведение конкретного человека в будущем. Рассмотрим модель больших данных профессора Пенсильванского университета Ричарда Берка. Он утверждает, что эта модель может спрогнозировать, совершит ли убийство заключенный, если его выпустить условно-досрочно на поруки. В качестве исходных данных Берк использует бесчисленные переменные конкретных случаев, включая причину лишения свободы, дату первого преступления, а также демографические данные, такие как возраст и пол. Берк считает, что может прогнозировать будущее поведение с 75%-ной точностью. Что ж, неплохо. Но это также означает, что, если комиссия по условно-досрочному освобождению станет полагаться на анализ Берка, одно из ее четырех решений окажется ошибочным, то есть комиссия напрасно лишит свободы раскаявшихся заключенных либо отпустит на волю будущих убийц.

Основная проблема не в том, что общество подвергается большему риску, чем необходимо. Главная беда в том, что при такой системе мы наказываем людей, лишая их личной свободы, прежде чем они сделают что-то плохое. А путем предварительного вмешательства мы никогда не узнаем, что произошло бы на самом деле. Мы не позволяем судьбе вмешаться и при этом привлекаем частных лиц к ответственности за их возможные поступки, которые мы спрогнозировали. Такие прогнозы невозможно опровергнуть.

Это сводит на нет саму идею презумпции невиновности, которая лежит в основе нашей правовой системы и, по сути, нашего чувства справедливости. Поскольку мы несем ответственность за действия, которых, возможно, никогда не совершим, ответственность за спрогнозированные действия также отрицает способность людей делать нравственный выбор.

Опасность выходит далеко за рамки уголовного правосудия. Она охватывает все случаи человеческих суждений, в которых прогнозы больших данных используются для признания нашей виновности в будущих действиях. Сюда входят дела гражданских судов о совершении проступка по неосторожности, а также корпоративные решения по увольнению сотрудников.

Возможно, с такой системой общество стало бы более безопасным и эффективным, но разрушилась бы существенная часть того, что делает человека человеком, — наша способность выбирать действия и нести за них ответственность. Большие данные стали бы инструментом коллективизации человеческого выбора и отказа от свободы воли в нашем обществе.

Как уже говорилось в предыдущих главах, у больших данных множество преимуществ. И если они превратятся в самое мощное орудие дегуманизации, то не из-за свойственных им недостатков, а из-за того, что мы сделаем с прогнозами. Принуждая людей отвечать за спрогнозированные, но еще не совершенные действия, мы полагаемся на прогнозы больших данных, полученные на основе корреляций, и принимаем решения о виновности, которые должны учитывать причинные связи.

Большие данные помогают лучше понять текущие и будущие риски, а также скорректировать свои действия соответствующим образом. Их прогнозы помогают пациентам и страховщикам, кредиторам и потребителям. Но большие данные ничего не говорят о причинности. В отличие от них для признания «вины» — виновности частных лиц — требуется, чтобы подсудимый выбрал то или иное действие. Его решение служит причиной для последующего проступка. Именно потому, что большие данные основаны на непричинных корреляциях, они непригодны для того, чтобы судить о причинности, а значит, и признавать чью-либо виновность.

Беда в том, что люди настроены смотреть на мир сквозь призму причин и следствий. Таким образом, большие данные находятся под постоянной угрозой неправильного использования — в целях установления причинности или подкрепления наших наивных предположений о том, насколько эффективнее стал бы процесс принятия решений о признании виновности, если бы мы вооружились прогнозами больших данных.

Это скользкий путь в мир, изображенный в кинофильме «Особое мнение», в котором индивидуальный выбор и свобода воли ликвидированы, личный моральный компас заменен интеллектуальными алгоритмами, а частные лица беспрепятственно подвергаются коллективному суду. В таких условиях большие данные угрожают сделать нас заключенными (возможно, в буквальном смысле) в рамках вероятностей.

 

Диктатура данных

Большие данные бесцеремонно вторгаются в частную жизнь и угрожают свободе, создавая для нас невиданные риски. При этом они усугубляют старую проблему — привычку полагаться на цифры, в то время как они гораздо более подвержены ошибкам, чем мы думаем. Пожалуй, наиболее яркий пример того, как последствия анализа данных могут завести в тупик, — история Роберта Макнамары.

Макнамара был мастером по части чисел. Будучи назначенным министром обороны США в период напряженности во Вьетнаме в начале 1960-х годов, он настаивал на повсеместном внедрении данных. Макнамара считал, что только применение статистической строгости поможет ответственным лицам, принимающим решения, понять сложную ситуацию и сделать правильный выбор. Мир, по его мнению, представлял собой массу непокорной информации, а если ее определить, обозначить, разграничить и количественно измерить, ее можно приручить и подчинить своей воле. Макнамара искал Истину в данных. Среди цифровых данных, которые обернулись против него, был «подсчет убитых».

Макнамара развил свою любовь к числам, еще будучи студентом Гарвардской школы бизнеса, а затем стал самым молодым доцентом — в 24 года. Он применил свои навыки во время Второй мировой войны в составе элитной группы военного министерства США «Статистическое управление», которая внедрила процесс принятия решений на основе данных в крупнейшую бюрократическую систему в мире. До этого военный сектор был слеп. Ему не были известны, например, тип, количество и расположение запасных частей самолета. Одно лишь проведение комплексной инвентаризации в 1943 году сэкономило 3,6 миллиарда долларов. Условием современной войны стало эффективное распределение ресурсов. Работа группы имела ошеломительный успех.

По окончании войны группа решила держаться вместе и применить свои навыки в интересах американских корпораций. В то время компания Ford испытывала некоторые трудности. Отчаявшись, Генри Форд II передал участникам группы вожжи правления. Они ничего не смыслили в военном деле, когда помогли выиграть войну, и были столь же невежественны в производстве автомобилей. Тем не менее «вундеркиндам» удалось изменить деятельность компании к лучшему.

Макнамара быстро поднялся по служебной лестнице, показывая точки данных по каждой ситуации. Задерганные руководители завода предоставляли все числа, которые он требовал, будь они правильными или нет. Когда вышел указ, предписывающий до начала производства новой модели израсходовать все имеющиеся детали старой, руководители линейных подразделений с раздражением просто сбрасывали лишние части в ближайшую реку. Руководство в штаб-квартире Ford одобрительно кивнуло, получив от заводских мастеров цифры, подтверждающие, что распоряжение было выполнено. А на заводе стали шутить, что теперь можно ходить по воде — из нее торчали ржавые части автомобилей 1950 и 1951 годов.

Макнамара был воплощением типичного руководителя середины ХХ века — рационального управленца, который полагался на числа, а не настроения и мог применить свои навыки для количественного измерения любой заинтересовавшей его отрасли. В 1960 году он был назначен президентом Ford и занимал эту должность всего несколько недель, прежде чем президент Кеннеди назначил его министром обороны.

Когда обострился вьетнамский конфликт и США направили дополнительные войска, стало ясно, что это война характеров, а не территорий. Стратегия Америки заключалась в том, чтобы усадить Вьетконг за стол переговоров. По этой причине военные успехи измерялись количеством убитых врагов. Эти данные публиковались в газетах и использовались как аргумент сторонниками войны, а для критиков служили доказательством их безнравственности. Подсчет убитых стал точкой данных, определившей новую эпоху.

В 1977-м, спустя два года после того, как последний вертолет поднялся с крыши посольства США в Сайгоне, отставной генерал армии Дуглас Киннард опубликовал масштабный опрос генералов под названием The War Managers. Он показал трясину, в которой погрязло количественное измерение. Всего 2% американских генералов считали, что подсчет убитых был верным способом измерения военных успехов. Две трети сказали, что цифры часто были завышены. «Поддельные и совершенно бесполезные», — писал один из генералов в своих комментариях. «Нередко откровенно лживые», — считал другой. «Они были многократно преувеличены в основном из-за невероятного интереса со стороны таких людей, как Макнамара», — делился третий.

Подобно тому как заводские мастера Ford сбрасывали детали двигателей в реку, младшие офицеры порой подавали своему начальству внушительные цифры, чтобы сохранить свое место или продвинуться по службе. Они сообщали то, что начальство хотело услышать. Макнамара и его окружение полагались на цифры, буквально боготворя их. С превосходно уложенными волосами и безукоризненно завязанным галстуком, Макнамара чувствовал, что может понять то, что происходит на земле, только уставившись в таблицу — на все эти стройные ряды и столбцы, расчеты и графики, овладев которыми он, казалось бы, станет на одно стандартное отклонение ближе к Богу.

Использование данных и злоупотребление ими американскими военными во время войны во Вьетнаме свидетельствуют о том, насколько ограниченной является информация в эпоху «малых данных». Этот урок необходимо усвоить, поскольку мир вступает в эпоху больших данных. Исходные данные могут быть низкого качества или необъективными. Их можно неправильно использовать и анализировать. Но, что хуже всего, данные могут не отражать то, что призваны количественно измерить.

Мы более уязвимы перед лицом «диктатуры данных», чем можем себе это представить, позволяя данным управлять нами как во благо, так и во вред. Угроза состоит в том, что мы бездумно позволяем связывать себе руки результатами анализов данных, даже если есть разумные основания полагать, что в них что-то не так. Еще один пример — одержимость собирать факты и числа просто ради данных или безосновательно оказывать им чрезмерное доверие.

Ввиду массовой датификации первое, к чему стремятся политики и бизнесмены, — получить как можно больше данных. «Мы верим в Бога — остальное дело за данными» — вот мантра современного руководителя, которая эхом разносится по офисам Кремниевой долины, заводским цехам и коридорам мэрии. Большие данные могут стать кладом в заботливых руках. Но неразумное обращение с ними чревато жуткими последствиями.

Образование катится вниз? Введите стандартизированные тесты для измерения результативности и примените санкции к учителям и школам, которые не дотягивают до нужного уровня. И если тесты и вправду могут оценить способности школьников, то вопрос о качестве преподавания или потребности в творческой, гибкой, современной рабочей силе остается открытым. Но данные не берут это в расчет.

Хотите предотвратить терроризм? Создайте многослойные списки людей для обязательного досмотра или запрета на вылет, чтобы обеспечить охрану порядка в небе. Впрочем, защита, которую такие списки предлагают, весьма сомнительна. Известен случай, когда сенатор от штата Массачусетс Тед Кеннеди, случайно попавший в список, был задержан и подвержен обыску только потому, что его имя и фамилия совпали с именем и фамилией другого человека в базе данных.

У тех, кто имеет дело с данными, в ходу выражение, отражающее суть некоторых проблем: «Мусор на входе — мусор на выходе». Иногда причина в низком качестве исходной информации, но чаще — в злоупотреблении самим анализом. Из-за больших данных эти проблемы могут возникать чаще или с более существенными последствиями.

Вся деятельность компании Google, как уже было показано в этой книге на многочисленных примерах, построена на данных. Несомненно, они обусловили значительную долю успеха компании. Однако время от времени они же приводят ее к промахам. Сооснователи Google Ларри Пейдж и Сергей Брин длительное время запрашивали от соискателей их балл по тесту SAT (англ. Scholastic Assessment Test — «академический оценочный тест») при поступлении в колледж, а также средний балл при выпуске. Пейдж и Брин рассуждали так: первый показатель отражает потенциал кандидата, а второй — его достижения. Таким образом, состоявшиеся руководители в возрасте 40 лет, которые рассматривались на ту или иную должность, к своему откровенному недоумению, могли быть отсеяны из-за недобора баллов. Компания еще долгое время продолжала требовать эти цифры даже после того, как ее внутренние исследования показали, что между баллами и эффективностью работы нет корреляций.

Google следовало бы лучше знать, как не попасться на удочку ложной прелести данных, ведь показатели практически не оставляют места для изменений в жизни человека. Они не берут в расчет знания помимо академических. Они не могут отразить достоинства людей гуманитарных, а не научных и технических специальностей, где инновационные идеи легче измерить. Одержимость данными в кадровых целях вызывает особое недоумение ввиду того, что сами основатели Google являются выпускниками школ Монтессори, в которых особое внимание уделяется именно обучению, а не оценкам. Кроме того, такой подход повторяет прошлые ошибки американских технологических электростанций, в которых резюме кандидатов ставили выше их способностей. Какими были бы шансы Ларри и Сергея занять руководящие должности в легендарной корпорации Bell Labs, учитывая их незаконченное высшее образование доктора философии? По стандартам Google ни Билл Гейтс, ни Марк Цукерберг не получили бы место, так как не имеют высшего образования.

Зависимость компании от данных порой зашкаливает. Марисса Майер, в то время один из руководителей высшего звена Google, однажды дала задание сотрудникам проверить, какой из 41 оттенка синего наиболее популярен у пользователей, чтобы определить цвет панели инструментов на сайте. Диктатура данных в Google была доведена до крайности и вызвала мятеж.

В 2009 году ведущий дизайнер Google Дуг Боумен уволился в гневе, потому что не выдержал постоянного количественного измерения всего и вся. «Недавно я участвовал в дискуссии по поводу того, какой должна быть ширина границы: 3, 4 или 5 пикселей. Меня попросили обосновать свой выбор. Я не могу работать в таких условиях, — написал он в блоге о своей отставке. — Когда в компании одни инженеры, они все превращают в инженерное решение вопросов. Сводят все к простым логическим задачам. Эти данные в конечном счете становятся костылем, тормозящим движение каждого решения, парализуя компанию».

Гениальность не зависит от данных. Стив Джобс мог бы долгие годы непрерывно совершенствовать ноутбук Mac на основе отчетов об эксплуатации, но он воспользовался своей интуицией, а не данными, чтобы выпустить на рынок iPod, iPhone и iPad. Он полагался на свое шестое чувство. «Знать, чего хотят покупатели, не их забота», — сказал он репортеру, рассказывая, что не проводил исследование рынка перед запуском iPad.

В книге «Благими намерениями государства» антрополог Джеймс Скотт из Йельского университета рассказывает о том, как правительства, возводя в культ количественные измерения и данные, в конечном счете скорее ухудшают качество жизни людей, чем улучшают его. Они прибегают к картам для определения преобразований в обществах, но ничего не знают о людях на местах. С помощью огромных таблиц данных об урожаях они принимают решение о коллективизации сельского хозяйства, ничего в нем не смысля. Они берут на вооружение все несовершенные, естественные способы взаимодействия, которыми люди пользовались в течение долгого времени, и подстраивают их под свои нужды, иногда просто ради того, чтобы удовлетворить свое желание привести все к исчисляемому порядку. Информация, по мнению Скотта, часто служит для расширения возможностей власть имущих.

Это диктатура данных с большой буквы. Из-за подобного высокомерия США начали войну во Вьетнаме, руководствуясь, в частности, количеством убитых, а не более разумными показателями. «Вы правы, что не все сложные человеческие ситуации, которые только можно представить, могут быть полностью сведены к линиям на графике, выражены в процентных точках на диаграмме или отражены в цифрах в балансе компании, — произнес Макнамара в 1967 году, в период нарастающих национальных протестов. — Но в действительности все может быть обосновано. И не измерять количественно то, что можно измерить, — все равно что довольствоваться меньшим, чем полный спектр причин». Если бы только правильные данные использовались должным образом, а не просто почитались за то, что они есть.

В течение 1970-х годов Роберт Макнамара удерживал пост главы Всемирного банка, а в 1980 году стал «голубем мира» — ярым критиком ядерного оружия и сторонником охраны окружающей среды. Позже в результате переоценки ценностей он написал мемуары «Взгляд в прошлое», в которых критиковал образ мышления, стоящий за военными действиями, и собственные решения на посту министра обороны. «Мы были неправы, совершенно неправы», — писал Макнамара, в то время как речь шла о масштабной военной стратегии. Однако по вопросу данных и, в частности, подсчета убитых он остался далек от раскаяния. Макнамара признался, что статистика была «недостоверной или ошибочной». «Но все факторы, которые вы можете подсчитать, вы обязаны подсчитать. Потеря убитыми — один из них…» Он умер в 2009 году в возрасте 93 лет, считаясь человеком умным, но не мудрым.

Соблазнившись большими данными, мы рискуем совершить страшную ошибку, как Макнамара, или настолько сконцентрироваться на данных и власти, которую они сулят, что будем не в состоянии оценить их ограничения. Чтобы наглядно представить эквивалент подсчета убитых в виде больших данных, достаточно снова вернуться к Google Flu Trends. Рассмотрим ситуацию (не такую уж невероятную), когда смертельный грипп бушует по всей стране. Медицинские работники были бы признательны за возможность в режиме реального времени прогнозировать крупнейшие очаги с помощью поисковых запросов. Они бы знали, где нужна помощь.

Однако во время такого кризиса политические лидеры могут возразить, что знать наибольшие очаги заболевания и пытаться остановить их распространение недостаточно. Они призывают ввести режим всеобщего карантина (а не только для населения в охваченных регионах), по сути, излишнего. Большие данные дают возможность быть адресными и применять карантин только к отдельным пользователям, чьи поисковые запросы в значительной степени коррелируют с гриппом. Таким образом, мы получаем данные о тех, кого нужно изолировать. Федеральные агенты, вооруженные списками IP-адресов и информацией GPS о мобильных устройствах, могут объединить отдельные запросы веб-поиска в карантинные центры.

Может показаться, что это оправданно, однако в корне неправильно. Корреляция не означает причинности. Эти люди могут болеть гриппом, но могут и быть здоровыми. Их необходимо обследовать. В такой ситуации люди стали бы заложниками прогноза. Что еще более важно, они стали бы жертвами апологии данных, которые по самой природе своей не могут отразить информацию такого рода. Суть фактического исследования Google Flu Trends состоит в том, что условия поиска связаны со вспышкой. Но причины тому могут быть совершенно разными: например, сотрудники могли услышать, как кто-то в офисе чихнул, и решили поискать в интернете информацию о том, как защититься, а сами при этом здоровы.

 

Темная сторона больших данных

Большие данные предоставляют больше возможностей наблюдать за нашей жизнью, во многом упраздняя некоторые правовые средства защиты неприкосновенности частной жизни. Они также сводят на нет эффективность основных технических методов сохранения анонимности. Как и фактическое нарушение правопорядка, прогнозы больших данных относительно отдельных лиц могут повлечь за собой наказание — однако не за действия, а за склонности. Такое положение дел отрицает свободу воли и унижает человеческое достоинство.

В то же время существует реальный риск того, что, поддавшись магии больших данных, люди станут руководствоваться ими в неподходящих условиях или же слишком полагаться на результаты анализов. Точность прогнозов будет возрастать, а с нею и желание все чаще пользоваться ими, подпитывая, в свою очередь, одержимость данными, раз они имеют такие широкие возможности. Такими были проклятие Макнамары и урок, который можно извлечь из его истории.

Нужно умерить увлечение данными, чтобы не повторить ошибку Икара, который гордился своей технической возможностью летать, но неправильно воспользовался ею и упал в море. В следующей главе мы рассмотрим способы, благодаря которым мы будем управлять данными, а не они нами.