Когда ты уже сделал большую работу, повозился с базами данных, нашел и обработал эти данные, то остается, как ни странно, самое сложное – умение их правильно показать.
Многим не составляет труда вылить на голову другому человеку результаты своего анализа. Вроде все правильно, но ощущение что тот ни черта не понял. И это очень частая проблема. Мне даже порой кажется, что эта проблема стоит выше всех остальных проблем, которые возникают при работе с данными.
По сути, ведь как – постороннему человеку должен быть понятен не только результат ночных блужданий по данным, но и то, что этот результат из себя представляет. И тут, как говорится, одного рецепта нет на всех, но я постарался структурировать лучшие практики и выделить только самое ключевое.
Итак, демонстрация результата работы с данными – один из важнейших этапов извлечения ценности из данных, который включает в себя визуализацию, описание предмета исследования и самих данных.
В одном из подходов, сформулированных известным экспертом в области данных, Брентом Дюксом, успешность представления данных зависит от того, насколько будет хорошо структурирован контекст в отношении той или иной аудитории.
Аудитория как таковая не воспринимает сухие цифры. Совсем. Нужно рассказать про принцессу, показать, как она убила дракона и спасла рыцаря, ну или наоборот.
В общем, нужна драма, чтобы вызвать взаимный интерес у людей, когда им все равно, что ты будешь рассказывать.
Аналитические отчеты, информационные записки или аналитическое прикрытие для этого мало эффективно. Люди хотят быть частью рассказа, поэтому при формулировании представления, демонстрации или презентации, упор нужно сделать вокруг так называемого «Aha Moment» – момента, в котором каждый из слушателей начинает воспринимать себя неотъемлемой частью рассказа.
Так, по данным исследований нейрофизиологов,оказалось, что в основе эффективных решений лежит не логика, а эмоции. И это факт. Ведь есть же целое исследование.
Что такое Data Storytelling
В условиях неопределенности и волатильности на смену взвешенному интеллекту приходит эмоциональная оценка ценности того или иного события. То есть люди начинают в первую очередь переживать, когда вокруг наступает полнейший хаос. Если коротко, один из основных принципов звучит следующим образом: «Если что-то доставляет больше радости или делает вас сильно несчастными, оно будет оценено совершенно иным образом, нежели логическая цепочка рассуждений». Значит, это нужно использовать!
Истории меняют работу головного мозга. Такие зоны как область Вернике, а также Центр Брока вовлечены в то, как мы распознаем текст. В частности, при чтении слов возникает не просто ассоциативный ряд, но и подключаются другие регионы головного мозга, например, отвечающие за обоняние, если читатель прочел, скажем, слово «кофе» или «секс». В этом случае читатель подумал про конкретную ассоциацию, доставляющую ему удовольствие.
Итак, когда люди читают «голые» цифры, на самом деле, они ощущают истории. Все это ведет к нескольким очень важным аспектам, таким как:
• Запоминаемость – в исследовании профессора Стэнфорда, Чип Хилс, обнаружил, что 63 процента слушателей помнят истории и только пять процентов помнят цифры или сухие факты. Истории – это то, что привлекает внимание людей, остальное они просто не запоминают.
• Убедительность – история о помощи африканским детям показала, что сухие факты менее эффективны для сбора средств, чем история конкретного семилетнего мальчика Рокиа из Мали, которому все сопереживали.
• Вовлеченность – хорошая история всегда рассматривается как подарок. Люди входят в особое состояние, когда слышат отличную историю, так что они забывают о скепсисе и фокусируются на том, чем эта история завершится.
Идеальная история отвечаем на ключевые вопросы
Идем дальше. Помимо рассказа мы должны помнить, что любой бизнес представляет из себя сложную форму кооперации людей. Всякие сложные союзы, опасные игры и прочие непростые политические моменты. Но любой сложный бизнес хочет получать ответы на регулярные и простые вопросы, которые помогают двигаться дальше. Сложный бизнес хочет получать обратную связь, чтобы бизнес-лидеры смогли понять, что именно происходит не так, почему нарушаются их ожидания.
В какой-то момент я понял, что прежде, чем придумать историю, нужно разобраться в том, что именно будет моим инструментом для хорошей истории.
Большинство вопросов, поднимаемых ежедневно, можно стандартизировать, а значит, они конечны. Как я это понял? Очень просто.
Бизнес – это всегда набор функций. Функции в основном всегда состоят из отдельных департаментов, и такое разделение существует для того, чтобы решать вполне конкретные проблемы.
Существует также ряд вопросов, которые становятся уникальными. Ответ на них представляет собой полноценный кейс.
Кейс необходим для того, чтобы организация не задавала один и тот же вопрос несколько раз. От этого сегодня страдает большинство организаций. Обычно, чтобы ответить на эти вопросы, каждый уважающий себя руководитель департамента создает под столом свой собственный отдел аналитики, так называемый Data Silos, который фактически отвечает на одни и те же вопросы без возможности скоординированной работы над ними.
Усиление коллаборации между разными Data Silos – одна из важнейших задач при организации работы аналитической функции внутри организации.
Важно помнить, что сторителлинг конкретного кейса с использованием данных отличается от сервиса, который позволяет регулярно отвечать на вопрос. Рассмотрим пример. К вам может обратиться руководитель по маркетингу в конкретном банке с запросом помочь разобраться, почему маркетинговая кампания по привлечению новых клиентов и активации мобильного банка дает крайне низкие результаты. При этом не стоит ждать детальной постановки задачи или описания данных, с которыми вам предстоит работать. В большинстве случае разбор аналогичных кейсов – это постоянная работа с неизвестными переменными, поиск и исследование неописанных процессов, а также выявление проблематики.
В случае с кампанией, низкий результат отклика вполне может иметь ряд причин, которые вы сможете выявить в процессе исследования:
• Некорректная выборка клиентских данных, участвующих в рассылке уведомлений и предложений. Из-за ошибок в качестве данных вместо ожидаемых сегментов, могут быть совсем не те, или в один сегмент могут быть объединены несколько клиентских сегментов, часть из которых требует дополнительной стимуляции до момента принятия решения. Например, по ряду причин случайно объединили клиентов из возрастной группы (50+ и выше) и молодой возрастной группой (20+). Так, группа 50+ в большинстве случае будет требовать дополнительной коммуникации, а также вполне возможно, что выбранный канал коммуникации будет неэффективен для них.
• Ошибки в контактных данных. Человеческий фактор может сработать в случае, если в процессах нет достаточной степени контроля по работе с данными. Например, при работе с зарплатным реестром (реестр сотрудников предприятий, получаемый банками для выпуска банковских карт) сотрудник, выполняющий проверку данных на стороне предприятия, может не иметь доступа к контактным данным и для каждого из сотрудников предприятия укажет контактный номер бухгалтера предприятия. В этом случае вся коммуникация не дойдет до конкретного сотрудника.
• Текст коммуникации и интеграция в процессы. Текст коммуникации так же может содержать ошибки или неточности, например, вместе с предложением по активации мобильного банка может идти предложение по тому или иному банковскому продукту (от открытия вклада до оформления карты), при этом может быть непонятно, как именно оформлять этот самый продукт. Банковские отделения могут не иметь конкретного бизнес-процесса, поддерживающего оформление продуктов в заявленной кампании: при предложении активировать интернет-банк, в отделениях может не быть соответствующего процесса, где клиентские менеджеры смогут объяснить, как именно это сделать.
При построении и исследовании «воронки», список проблем обычно достаточно широк и не ограничивается указанными кейсами. Таким образом, за задачей исследования «почему конверсия маркетинговой кампании находится на низком уровне» может лежать целый пул проблем. Как их правильно скоммуницировать? Большая часть из них касается работы нескольких подразделений и может носить системных характер, то есть такие проблемы могут повторяться.
Проблемы могут быть специфичны, и их понимание может потребовать определенного погружения в то, как выглядит и работает текущий бизнес-процесс запуска новой кампании. К такому погружению заказчик исследования может быть не готов:
• Слишком мало времени доступно для подобного погружения.
• Коммуникационные барьеры – погружение потребует определенных навыков работы с данными, которыми руководитель может не обладать.
• Доверие – руководитель должен довериться в таком погружении сторонней компетенции.
Можно подготовить исследование, но если на его основе не будет принято ни одного решения или не будут решены те проблемы, которые выявлены, то, считайте, что работа выполнена впустую.
ВАШ ДЭШБОРД УМЕР
Итак, основа успешного кейса – история. Необходимо иметь план, процесс и историю. Рассмотрим историю, предложенную компанией SAS.
В США четыре из пяти наименее любимых брендов – это банкинг. Если предприниматель будет нанимать новых сотрудников, ему проще выписывать чеки и платить за это, что, в свою очередь, проще, чем идти в банк, оформлять счет и зарплатные карты, потому что выстраивать взаимоотношения с небольшим банком слишком сложно. Вот вам вопрос: «Что банк как партнер может сделать, чтобы привлечь новых клиентов?»
Известная американская компания SAS предлагает методологию из четырех шагов:
• Запуск (The setup) – этап не обязательно предполагает выбор между чем-то трагическим или смешным. Достаточно, чтобы было интересно. В приведенном примере можно начать с вопроса: «Почему люди перестают использовать традиционные банковские сервисы?»
• Контекст (The context) – этап предполагает, что необходимо обрисовать общую картину и заполнить те пробелы, которые были обозначены на предыдущем этапе. Лучше использовать визуальные паттерны, чем просто текст. В приведенном примере можно указать следующий контекст: «Отказ от банковских сервисов происходит из-за изменений в жизни, а также фрустрации по отношению к доверию, приватности и низком качеству клиентского обслуживания».
• Опции (The options) – все это приводит к этапу, где рассматриваются возможные решения. В приведенном примере: «Как настройки и функционал в мобильном приложении позволяют предпринимателю видеть ценность?»
• Решение (The action) – на этом этапе необходимо стимулировать аудиторию к действию. Действие может быть любым, главное, чтобы оно подходило по сценарию. В случае с предпринимателем – «дать простую и обратную форму для обратной связи, возможно это будет шаг к еще большей истории».
Нет необходимости готовить стандартные формы отчетов или налаживать систему уведомлений по аномалии. Сторителлинг не предполагает и не призывает аудиторию следовать за процессом, наоборот – это постпроцессное состояние, где самое главное – история.
Если вы находитесь на рабочей встрече, где большинство участников смотрят в цифры и изучают графики, и в вашей зоне компетенции работа с данными, первое что вам следует сделать – отказаться от отчетности.
Отчетность сегодня – это артефакт регулярного процесса. Есть более эффективные способы выявлять отклонения в процессе, которые могут привести к снижению создания ценности в бизнесе. Но все это элементы оперативного управления.
Переходя на стратегический и тактический уровень, нужно понимать, что не так в бизнесе на уровне клиента и учитывает ли развитие организации эти сложности, уязвимости и риски. Здесь неважны показатели конверсии каналов, проникновение продуктов на клиента или среднее время до сделки, хотя большинство компаний по-прежнему в это верит. По-настоящему, всем заправляют истории, именно на них фокусируется внимание менеджмента, когда он погряз в операционной волоките.
Ханс Рослинг – один из самых ранних идеологов сторителлинга с использованием данных, совместно с фондом Gapminder.org разработал решение по демонстрированию важнейших фактов из истории развития человечества – Trendalyzer.
В кратчайшие сроки, более двенадцати лет назад, он построил диалог с публикой в своем выступлении на TED и смог его визуализировать, поставив интереснейший вопрос о том, является ли деление мира на «развитые» и «развивающиеся» страны справедливым. Используя в своем выступлении данные, собранные из различных публичных источников, таких как ООН, он явно показывает, что подобная интерпретация или классификация географических регионов более иррелевантна и имела место только в 1970 году, а с тех пор произошел гигантский скачок в росте уровня продолжительности жизни и повышения уровня благосостояния.
Впоследствии, он регулярно проводил эксперименты по анимированию данных и рассказыванию историй на основании данных. Так, в 2017 году, в одном из своих экспериментов совместно с BBC, он построил рассказ о влиянии третьей промышленной революции на развитие уровня жизни в двухстах различных странах за прошедшие двести лет, включая анализ влияния войн, эпидемий и мировых конфликтов. Эксперимент длился ровно 4 минуты и 42 секунды.
В своих рассказах он использовал только один инструмент, разработанный его командой, визуализируя тренды и интегрируя новый контент. Сложные расчеты и формулы в его рассказе превращались в контекст, который был понятен каждому из участников его лекций, даже самым неподготовленным.
Помимо инструментов, всегда следует обращать внимание на корректность применяемой методологии расчета показателей.
Например, в одном из своих выступлений, касающихся исследования снижения уровня смертности, Ханс Рослинг предположил, что использование показателя средневзвешенного ежегодного прироста для определения размера снижения уровня смертности – некорректно и вводит читателя в заблуждение.
Использование некорректных метрик и показателей – для бизнеса не исключение. При работе с аналитикой часто теряется нить, так что в конечной презентации менеджмент показывают друг другу иррелевантные цифры, которые в принципе не могут существовать рядом. Но ввиду сложности изложения данные факты обычно незаметны для менеджмента. Если весь анализ операционной деятельности компании так же отточен в виде процесса, то никто из менеджмента не будет поднимать вопрос о неуместности тех или иных показателей.
Тем и хорош сторителлинг, он заставляет взглянуть на все с чистого листа.
С 2015 по 2017 годы порталы Import.io, rededit и журнал Economist собрали лучшие примеры Data Storytelling за последние два века:
• Картографическая визуализация о вторжении Наполеона в Россию, 29 ноября 1869, подготовленная Шарлем Жозефом Минаром, французским инженером, топографом и автором проектов портов и каналов. Карта включала в себя 6 (!) различных видов данных:
◊ География – реки, города и сражения привязаны к реальным географическим локациям, где они проходили.
◊ Путь движения армии – направление вторжения армии Наполеона в Россию.
◊ Путь отступления армии – детально проработанный путь отступления армии Наполеона после поражения.
◊ Численность войск – количество оставшихся солдат по мере движения армии (каждый миллиметр представляет десять тысяч человек). Поражает размер понесенных потерь. Наполеон вторгся в Россию с армией в 442 000 солдат, дошел до Москвы с численностью уже в 100 000 солдат и бежал из России небольшим полком в 10 000 человек.
Диаграмма эффективности вторжении армии Наполеона в Россию 1812–1813
◦ Температура – в зависимости от продвижения армии, указано снижение температуры.
◦ Время – все данные соотносятся с временной шкалой.
• Круговая диаграмма о количестве смертей в Крымской войне, которую подготовила сестра милосердия и общественная деятельница Великобритании Фроленс Найтингейл. В своих трудах она впервые использовала круговые диаграммы, тем самым став их изобретателем. Она подготовила эти диаграммы, чтобы показать, сколько смертей можно было избежать, если заниматься профилактикой и лечением заболеваний раненных солдат, которые подвергались двойному риску с попаданием в госпитали. На рисунке выделен размер смертности, который наступал от болезней или инфекций уже в госпиталях, куда попадали раненые солдаты. Диаграмма сестры Найтингейл конкретна, наглядна и имеет четкий «call to action», но она не идеальна, как утверждает журнал Economist. Так, каждый из цветных клиньев измеряется из центра, поэтому частично закрывает друг друга (вот только эта книга черно-белая, поэтому советую найти диаграмму в Интернете). В дополнении число смертей не указано, хотя это был относительный размер. Но даже несмотря на это, данная инфографика была включена в отчет комиссии по проблемам здоровья в армии, и оказала положительное воздействие на принимаемые решения.
Диаграмма причин смертности в Армии на Востоке
• Экономические диаграммы и чарты шотландского инженера и основателя графических методов статистики Уильяма Плейфэра. Плейфэр изобрел линейчатый график и гистограммы для представления данных. Ряд его диаграмм отражает торговый баланс для Англии. Он был первым, кто показал размеры и экспорт на одном графике, сформулировав тезис о влиянии сдвига торгового баланса на уровень развития той или иной страны.
Один из самых известных его графиков отражает еженедельную заработную плату хорошего механика. Этим графиком он пытался пояснить связь себестоимости пшеницы и стоимости механистического труда. Один из выводов графика: стоимость пшеницы сегодня стала несоизмеримо мала с переходом к механистическому труду. Использование Плейфэром горизонтальной и вертикальной осей для представления времени и денег стало новшеством для того времени. Он был первым, кто использовал данные не только для того, чтобы информировать, но и для того, чтобы убеждать принимать решения и проводить кампании.
График роста заработной платы хорошего механика
Импорт и экспорт для Дании и Норвегии с 1700 по 1780
• Самые громкие районы Нью-Йорка. В своей статье в январе 2015 в журнале The NewYorker известный аналитик, преподаватель Института Пратта и автор проекта I Quant NY (Я считаю NY), Бен Веллингтон, используя публичные данные, определил худшие для проживания районы Нью-Йорка по уровню шума. Проанализировав за несколько лет все обращения по уровню шума среди жителей мегаполиса, Бен категоризировал все обращения жителей по темам и по географии, определив районы с наиболее высоким уровнем шума. Самым шумным стал район Мидтауна Манхэттена, где среди лидеров раздражения были строительные работы, вечеринки, громкая музыка и громкие разговоры. Статья вызвала большой резонанс в обществе, на что Департамент полиции и Департамент защиты окружающей среды взяли на себя обязательства разработать индивидуальные решения для различных районов города. С наглядным результатом анализа Веллингтона можно ознакомиться здесь:
Не благодарите.
Декодирование аналитического контента требует усилий
В 1984 Уильям Кливленд и Роберт МакГил, известные исследователи в области статистики, в своей работе «Восприятие графики» (журнал Американской Ассоциации Статистики, № 79 от 1984) выявили, что человек очень плохо интерпретирует ряд объектов и форм, если с их помощью отражается аналитическая информация. Их исследование стало одним из первых, структурирующих подход в восприятии человеком аналитической информации.
Трехмерные объекты, углы, кривые или окружности – все это крайне сложно понять, а затем еще и интерпретировать количественные данные при наблюдении за аналитическим отчетом. Выбор фреймворка и паттерна для визуализации оказывает крайне сильное влияние на возможность человека декодировать аналитический контент, который ранее был подготовлен с использованием данных.
Например, какое из чисел больше? А или B? Насколько оно больше?
Восприятие большего числа – МасГил
Для большинства очевидно, что число В больше, чем А в два небольшим раза.
Сравнение объектов
А теперь попытайтесь быстро ответить, какое из делений больше, и как именно они соотносятся друг с другом в процентном выражении?
В своем исследовании МакГил указывает, что человек принимает решение о декодировании аналитической информации быстро, используя интуицию, без погружения в сложные расчеты.
Сложность сравнения длины делений для разной позиции
В первом случае, так как деления находятся на общем уровне, человек делает свой вывод с использованием общего уровня. Во втором случае нельзя использовать общий уровень, для сравнения размеров потребуется провести ряд аналитических расчетов для того, чтобы измерить, как именно отличается высота делений.
Кливленд и МакГил рассмотрели пять примеров чартов и провели исследование с привлечением студентов и преподавателей соответствующих направлений. Все собранные ответы они разделили на правильные и неправильные и измерили размер допущенной ошибки в зависимости от того, как именно располагались сравниваемые деления чартов по отношению друг к другу на каждом из пять чартов.
Оказалось, что чем ближе друг к другу сравниваемые деления, тем выше точность декодирования аналитического контекста со стороны человека, а чем деления дальше друг от друга, тем вероятнее рост ошибки. Когнитивное восприятие имеет свой заданный шаблон в зависимости от типа используемых чартов. Для чартов, где находятся деления, которые нужно сравнить, человек по умолчанию ищет сравнение в отношении общей линии или позиции. Если человек видит карту, то включается шаблон анализа насыщенности цветом, который используется на карте.
Продолжая эксперимент профессора Стэнфорда, Джеффри Хиир и Майкл Босток, используя анализ и результаты МакГил и Кливленд, выявили, что круговые диаграммы – наиболее сложный объект по интерпретации, и их восприятие пользователями уже несет в себе ряд ошибок. Отчасти именно поэтому ни одно существенное научное исследование сегодня не использует круговые диаграммы в описании результатов работы, так как их восприятие сильно разнится между разными категориями пользователей. Это относится и к восприятию геометрических объектов (сравнение углов и зон), а значит использование круговых диаграмм и вовсе искажает аналитический контекст, подаваемый слушателю.
Тем самым, научное сообщество сформулировало фреймворк по восприятию аналитических данных, который популярен и по сей день. Разделяя по сложности интерпретации аналитических материалов, мы имеем следующее:
• Сравнение на общем уровне
• Сравнение объектов не на общем уровне
• Сравнение длины, угла или направления
• Сравнение зон
• Сравнение объемов или размеров
• Сравнение цвета (насыщенность и так далее)
Чем выше сложность распознавания, тем выше вероятность ошибки или искажения, с которым пользователи будут воспринимать контекст.
Ранжирование визуальных кодировок по точности восприятия
Большинство решений представляют собой конечное решение, которое не учитывает в себе эти особенности восприятия. Впоследствии Джефри Хиир и Максл Босток разработали ряд библиотек и фреймворков для визуализации данных, которые учитывают эти зависимости по сложности восприятия.
• Protovis – библиотека в JavaScript, которая позволяет управлять внешним видом графика через скрипт с определенным синтаксисом и использует Canvas чтобы бы можно было интегрировать графики в веб-страницы, делать их красивыми, многоуровневыми и интегрировать видео или иной активный контент прямо в аналитику.
• Flare – фреймворк на python, который позволяет быстро строить модели и взаимосвязи.
• Vega – формат данных, который позволяет сохранять и управлять чартами, графиками и аналитикой, в том числе с возможностью воспроизводить их в браузере, поддерживающем HTML5.
• D3 Data-Driven Documents – библиотека для JavaScript, используемая веб-сайтами, которая позволяет анализировать и работать с данными используя браузер.
Визуальная часть, как отмечалось ранее, одна из трех основных частей, участвующих при демонстрации конечных результатов и формировании рассказа. Успешность восприятия или декодирования аналитической информации тесно связана с тем, как эта информация представлена.
В 1982 году Эдвард Тафт, американский статистик, профессор статистики, политологии и компьютерных наук Йельского университета, сформулировал и опубликовал ряд важнейших принципов в графическом дизайне в книге «Visual Display of Quantitative Information»:
• Использовать историю для пояснения описания данных.
• Тщательно выбирать формат представления.
• Интегрировать описание текста с изображениями.
• Отражать и сравнивать объекты соответственно их размеру.
• Избегать использование декоративного контента.
В процессе своих исследований позднее Эдвард Тафт также придумал новую форму транслирования аналитического контента – микрочарты (искрографики) или спарклайны. Это небольшие микрочарты размером в несколько слов, отражающие какую-то определенную динамику или отвечающие на какой-то конкретный вопрос. Функциональность микрочартов была впоследствии применена практически в большинстве аналитических средств, и одним из самых массовых применений стал Microsoft Excel.
Таким образом, ошибки в выборе визуализации крайне серьезно влияют на конечное восприятие доклада или отчета, когда он представляется широкой публике.
Impact investment – у каждого рассказа должна быть цель
Финальный блок успешного рассказа с использованием данных – это фокус на влиянии, которое он способен оказать. Любая инвестиция времени, посвященная исследованию и анализу данных, должна приводить к формированию конкретного результата.
В 2012 году мэр Нью-Йорка Майкл Блумберг подписал специальный закон «Open Data Law», обязывающий городские власти раскрывать свои данные для пользования, открыв тем самым целую новую главу создания совместных сервисов с использованием данных. Закон установил порядок раскрытия и перечень информации, которую обязаны были предоставлять власти с максимальным сроком раскрытия не позднее 31 декабря 2018. Раскрытие данных происходило неравномерно, власти раскрывали свои данные постепенно, поэтому, чтобы получить интересующие данные, необходимо было заполнять специальную форму запроса (FOIL FORM) для того, чтобы департамент той или иной службы предоставил запрашиваемые данные. Существенная часть данных раскрывалась в PDF-файлах, затрудняя их обработку и анализ. Например, данные по ДТП публиковались только в PDF, составляя сотни и тысячи документов. Так продолжалось, пока один из разработчиков по имени Джон Краусс не придумал собственную программу для конвертации файлов PDF в CSV, чтобы их можно было уже загрузить в аналитические средства. Сообщества неоднократно в своих выступлениях делали акцент на трансформации используемого формата предоставления информации, пока администрация де Блазио не пересмотрела интерфейсы предоставления данных.
Бен Веллингтон основал свой проект IQuantNY и стал использовать эти данные, чтобы повлиять на политику властей Нью-Йорка. Каждое выступление или пост в своем блоге он посвящал конкретным проблемам, призывая власти обратить внимание. В какой-то момент он добился определенного результата в этом направлении. Вот несколько наиболее ярких исследований и публикаций, которые он сделал.
• Ошибка городского бюджета на 791 миллион долларов – в 2016 году Администрация наконец опубликовала городской бюджет на 2017 год на портале Открытых данных. При детальном анализе Бен выявил ошибку в 791 миллион долларов по статье финансирования Департамента полиции Нью-Йорка в части защиты иностранных представительств. Официальный ответ городской администрации указал, что, действительно, это была ошибка в аллокации средств. Корректное значение аллокации средств на 2017 год составляло не более 25 миллионов долларов.
• Штрафы за оплаченные парковки – в Нью-Йорке парковать автомобиль можно было только на специально отведенных местах. В 2009 году Администрация внесла изменения в правила парковки и разрешила оставлять автомобили рядом с пожарными гидрантами, возле которых было свободное место. В своем исследовании Бен обнаружил серию регулярно выдаваемых на протяжении нескольких лет штрафов в местах, где стояли гидранты, но не было запрещающей стоянку разметки. Иными словами, огромное количество штрафов на сумму более 1,7 миллиона долларов было выписано нелегально, так как автомобиль находился в разрешенной зоне парковки. Таких зон было выявлено порядка 1966. Происходило это потому, что большая часть сотрудников полиции проигнорировала изменения законодательства в 2009 году. Администрация признала ошибку, допущенную патрульными службами, сформировав дополнительный фокус на переобучение патрульных служб. Вскоре была проведена корректировка разметки во всех выявленных местах.
• Самая грязная вода в Нью-Йорке – сведение статистики по самым грязным водоемам в городской черте. На портале открытых данных Нью-Йорка находился реестр с анализами данных по водоемам за несколько месяцев. Для проведения подробного анализа понадобился полный массив данных, который находился на отдельном сайте Департамента охраны окружающей среды. Данные были разбиты на много раздельных Excel-реестров с различными заголовками, которые нужно было свести вместе. Уровень загрязнений существенно превышал норму, в самых грязных районах превышение нормы было многократным. С вероятностью в 94 процента купание в водоеме могло привести человека к летальному исходу. Одним из таких мест оказалось Coney Island Creek. В результате, Бен опять привлек внимание Администрации и Департамента защиты окружающей среды. Он выписал ряд крупнейших штрафов по 400 тысяч долларов комплексу апартаментов, находящемуся в зоне загрязнения, большая часть из которых была направлена в Фонд защиты дикой природы. Тем не менее сообщество разделилось, требуя увеличить размер штрафов в десятки раз, доведя его до четырех миллионов долларов, аргументируя это тем, что уровень ущерба от загрязнения выше, чем размер штрафов.
Итак, каждая история – это большая проделанная работа по обработке, анализу, гармонизации и нормализации данных. В процессе выполнения сложной и рутинной работы всегда снижаются ожидания от аудитории, которая думает, что ничего важного не произойдет после демонстрации результатов. Но это не так.
Любые изменения происходят медленно, но они происходят, если есть для этого стимул. Выявить этот стимул и отразить в своей работе – ключевая задача Data Journalizm.