Большие данные. Революция, которая изменит то, как мы живем, работаем и мыслим

Майер-Шенбергер Виктор

Кукьер Кеннет

Глава 5

Датификация

 

 

Мори Мэтью Фонтейн был многообещающим офицером военно-морского флота США. Получив новое назначение, в 1839 году он направился на бриг Consort. Его дилижанс внезапно съехал с дороги, опрокинулся, и Мори вылетел наружу. Жестко приземлившись, он сломал бедренную кость и вывихнул колено. Местный врач вправил ему коленный сустав, но бедренная кость срослась неправильно, и через несколько дней ее потребовалось повторно ломать. Из-за травм 33-летний Мори начал прихрамывать и стал непригоден к морской службе. Спустя почти три года, потраченных на оздоровление, он был назначен на офисную службу в ВМФ в качестве руководителя отдела со скучным названием «Депо карт и приборов».

И эта должность подошла ему как нельзя лучше! Будучи молодым штурманом, Мори задавался вопросом, почему корабли движутся по водной глади зигзагообразно, а не по прямой. Задавая этот вопрос капитанам, он слышал в ответ, что намного лучше держаться знакомого курса, чем рисковать и идти по малознакомому, который таит в себе скрытые опасности. Океан считался непредсказуемым царством, полным неожиданностей, волн и порывов ветра.

Имея опыт путешествий, Мори знал, что это не совсем так. Он во всем искал систему. Находясь в просторном порту в Вальпараисо (Чили), он заметил, что ветры дуют с точностью часов. Вечерний сильный ветер резко затихал на закате и сменялся легким бризом, будто кто-то щелкнул выключателем. Во время другого рейса Мори пересек теплые ярко-синие воды Гольфстрима, которые текут между темными стенами морских вод Атлантики по одному и тому же пути, словно река Миссисипи. Португальцы и вправду веками плавали по Атлантике, опираясь на постоянные восточные и западные ветры — пассаты (от древнеангл. «путь» или «курс», который стал ассоциироваться с торговлей).

Всякий раз, оказываясь в новом порту, мичман Мори отправлялся на поиски старых морских капитанов, чтобы перенять знания, основанные на опыте, который передавался из поколения в поколение. Так он узнал о приливах, ветрах и морских течениях, действующих с определенной закономерностью, о которой не прочтешь ни в одной книге и которой не увидишь ни на одной карте, что выпускались для моряков военно-морским флотом. Вместо этого в ВМФ полагались на карты порой столетней давности, многие из которых содержали значительные упущения или откровенные неточности. Занимая новую должность начальника депо карт и приборов, Мори стремился исправить это положение.

Со вступлением на пост он пополнил депо барометрами, компасами, секстантами и хронометрами. Он обратил внимание на множество хранившихся здесь книг по морскому делу, карт и схем. Среди материалов были заплесневелые ящики, забитые старыми журналами со всех прошлых плаваний капитанов ВМС. Предшественники рассматривали их как мусор, но Мори отряхнул пыль с покрытых пятнами морской соли книг и заглянул внутрь. Увиденное не оставило его равнодушным.

Здесь была как раз нужная информация: записи о ветре, водах и погоде в определенных точках, расписанные по датам. Некоторые из них были не слишком ценными, зато множество других изобиловали полезной информацией. Сведя их, Мори понял, что можно создать совершенно новую форму навигационной карты. Журналы были бессистемными. С чудаковатыми стишками и набросками на полях, они порой казались попыткой спастись от скуки в пути. Но были и сведения, которые пригодились. При помощи десятков «расчетчиков» (так назывались те, кто занимался расчетом данных) Мори начал трудоемкий процесс сведения информации, которая хранилась в истрепанных журналах.

Мори объединил данные и разделил всю Атлантику на блоки по пять градусов долготы и широты. Он отметил температуру, скорость и направление ветра и волн, а также соответствующий месяц, поскольку тенденции разнились в зависимости от времени года. Объединенные данные показывали определенные тенденции и указали более удачные маршруты.

Из поколения в поколение моряки передавали советы отправлять суда то в спокойные воды, то навстречу встречным ветрам и течениям. На одном из распространенных маршрутов — из Нью-Йорка в Рио-де-Жанейро — моряки, как правило, боролись со стихией, а не союзничали с ней. Американских шкиперов учили избегать опасных плаваний вдоль пролива к югу от Рио, поэтому суда легко скользили по юго-восточному курсу, а по пересечении экватора меняли его на юго-западный. Пройденное расстояние равнялось двум маршрутам через всю Атлантику. Как оказалось, в этом не было необходимости: они могли спокойно придерживаться прямого курса на юг.

Для большей точности Мори нужна была дополнительная информация. Он создал стандартную форму для регистрации данных судов и обязал все суда военно-морского флота США заполнять ее и сдавать по возвращении. Поскольку капитаны торговых судов жаждали получить его карты, Мори настоял, чтобы взамен они пустили в оборот свои журналы (тем самым образовав раннюю версию вирусной социальной сети). Мори объявил, что «каждое судно, которое выходит в открытое море, отныне может рассматриваться как плавающая обсерватория, храм науки». Для уточнения карт он искал другие точки данных (так же на основе алгоритма вычисления рейтингов веб-страниц PageRank была создана система Google, учитывающая больше сигналов). Мори поручил капитанам периодически бросать в море бутылки с записками, в которых указывать день, должность, преобладающие ветра и течения, а также вылавливать все бутылки, которые встречаются им на пути. Многие корабли вывешивали специальный флаг, чтобы показать, что они участвуют в обмене информацией (предвестники значков-ссылок «поделиться», которые отображаются на некоторых веб-страницах).

На основе данных сами собой вырисовывались естественные морские пути, где ветры и течения были особенно благоприятными. Карты Мори, как правило, сокращали долгое путешествие на треть, обеспечивая купцам значительную экономию. «Пока я не взял на вооружение ваш труд, я пересекал океан с завязанными глазами», — с благодарностью писал один из капитанов. Даже бывалые моряки, которые отвергали новомодные карты и полагались на старые пути, выполняли полезную функцию: если на их путешествие уходило больше времени или они попадали в беду, это служило лишним доказательством в пользу системы Мори. К моменту публикации своей магистерской работы «Физическая география моря» в 1855 году Мори успел определить координаты 1,2 миллиона точек данных. «Таким образом, молодой моряк, вместо того чтобы брести на ощупь вперед, пока не наберется опыта… здесь сразу нашел бы рекомендации, основанные на опыте тысяч штурманов», — писал Мори.

Его работа имела огромное значение для закладки первого трансатлантического телеграфного кабеля. А после трагического столкновения в открытом море он быстро разработал системы судоходных путей, которые используются по сей день. Он даже применил свой метод к астрономии: с открытием планеты Нептун в 1846 году Мори выдвинул прекрасную идею пересмотреть все архивные записи, где планета ошибочно упоминается как звезда, что позволило установить ее орбиту.

Выходец из Вирджинии, Мори редко упоминается в источниках американской истории. Возможно, это потому, что он ушел из флота во время Гражданской войны в США и служил шпионом в Англии на благо Конфедерации. Но несколькими годами ранее, прибыв в Европу, чтобы заручиться международной поддержкой для своих карт, в четырех странах Мори был посвящен в рыцари, а еще в восьми — награжден золотыми медалями, включая награду Святого Престола. И теперь лоцманские карты, изданные военно-морским флотом США, носят его имя.

Коммодор Мори одним из первых осознал основополагающий принцип больших данных: огромный корпус данных обладает особой ценностью, которой нет в меньших количествах. Более того, он понял, что заплесневелые журналы ВМФ на самом деле представляют собой «данные», если из них извлечь и свести в таблицы соответствующую информацию. При этом он впервые использовал данные, в частности те сведения, которые никому не представлялись ценными, повторно. Подобно Орену Эциони из Farecast, который с помощью старых сведений о ценах в авиационной отрасли создал прибыльный бизнес, или инженерам Google, применившим старые поисковые запросы, чтобы понять распространение вспышек гриппа, Мори взял целенаправленно созданную информацию (сведения о местоположении для безопасного путешествия) и преобразовал ее.

Его метод, в целом аналогичный современным методам работы с большими данными, был поразительным, учитывая, что Мори реализовывал его с помощью карандаша и бумаги. Это значит, что использование данных появилось намного раньше оцифровки. Сегодня мы часто объединяем эти понятия. Однако важно их различать. Уяснить, как данные получают из самых неожиданных областей, нам поможет более современный пример.

Сигеоми Косимицу, профессор Института передовых промышленных технологий в Токио, сумел извлечь данные из параметров, соотнесенных с ягодицами. Мало кому придет в голову, что сидячие позы несут в себе информацию, но это так. Контуры тела, позу и распределение веса сидящего человека можно оценить количественно и свести полученные цифры в таблицу. С помощью датчиков, размещенных в 360 разных точках сиденья автомобиля, Косимицу и группа инженеров снимают показатели давления, которое оказывают ягодицы водителя, оценивая каждую точку по шкале от 0 до 256 баллов. Получается цифровой код, уникальный для каждого человека. В ходе судебного разбирательства эта система способна отличить одного человека от другого с точностью до 98%.

Это исследование проводится не ради забавы. Технологию планируется использовать в качестве противоугонной системы автомобилей. Оборудованный такой системой автомобиль способен распознать «чужака» за рулем и потребовать пароль для запуска двигателя. Преобразование поз в данные представляет собой практичную услугу населению и потенциально прибыльный бизнес. Объединение данных может выявить связь между позой водителя и безопасностью на дорогах, например зафиксировать изменение позы перед дорожно-транспортным происшествием. Система способна также «почувствовать» замедление реакции из-за утомления и послать сигнал тревоги или автоматически нажать на тормоза. Она может не только обнаружить, что автомобиль украден, но и определить вора, так сказать, «со спины».

Профессор Косимицу обратился к материалу, который никогда не рассматривался как данные (вряд ли кому вообще пришло бы в голову, что он обладает информационными качествами), и преобразовал его в цифровой, количественный формат. Таким же образом коммодор Мори взял материал, который казался практически бесполезным, и получил из него информацию, превратив его в поистине полезные данные. Это позволило использовать информацию по-новому и придало ей уникальную ценность.

Слово data (англ. данные) в переводе с латинского означает «данность», то есть «факт». Это понятие стало краеугольным камнем классического труда Евклида, в котором геометрия объясняется с точки зрения известных данных и таких, которые можно показать, чтобы сделать известными. Сегодня данные относят к некоторому процессу, который позволяет их записывать, анализировать и переупорядочивать. Пока не придуман подходящий термин для обозначения такого рода преобразований, которые выполняли коммодор Мори и профессор Косимицу. Назовем их датификацией, под которой подразумевается процесс представления явлений в количественном формате для дальнейшего сведения в таблицу и анализа.

Датификация — далеко не то же самое, что оцифровка, при которой аналоговая информация преобразуется в двоичный код (или последовательность единиц и нулей), считываемый компьютером. Оцифровка не являлась первичной функцией компьютеров. Эпоха компьютерной революции изначально была связана с вычислениями, как и предполагает этимология слова compute (англ. «вычислять»). Мы выполняли вычисления, которые занимали много времени (такие, как вычисления в таблицах траекторий ракет, расчеты для переписей и сведений о погоде). И лишь затем появилась оцифровка аналогового контента. Поэтому, когда Николас Негропонте из MIT Media Lab опубликовал свою эпохальную книгу Being Digital в 1995 году, одной из поднятых им тем был переход от атомов к битам. К началу 1990-х годов этот переход в значительной степени коснулся текстовых данных. По мере увеличения емкости хранилищ, процессоров и пропускной способности за последнее десятилетие это удалось сделать и с другими формами контента (изображениями, видео, музыкой и пр.).

Сегодня среди технологов негласно принято считать, что большие данные ведут свое начало с момента «кремниевой» революции. Но это не так. Безусловно, большие данные стали возможны благодаря современным ИТ-системам, но основная идея лишь продолжила древнейшие поиски человечества в области измерения, записи и анализа мира. ИТ-революция, произошедшая в мире, очевидна. Основной акцент в ней приходился на «Т» — технологии. Пришло время переключиться на «И» — информацию.

Для того чтобы записывать информацию в количественной форме (датифицировать ее), нам нужно знать, как проводить измерения и записывать полученный результат. А для этого необходим правильный набор инструментов, а также желание количественно измерять и записывать. И то и другое — предпосылки датификации, и человечество разработало ее «строительные элементы» задолго до начала цифровой эпохи.

 

Мир, выраженный в количественных категориях

Возможность записи информации — одно из главных различий между примитивными и передовыми обществами. Основы счета, а также измерение длины и веса были древнейшими инструментами ранних цивилизаций. К началу III тысячелетия до н. э. идея записи информации значительно продвинулась вперед. Это произошло в долине Инда, Египте и Месопотамии. Повысилась точность измерений, да и сами они прочно вошли в повседневную жизнь. Эволюция письменности в Месопотамии обеспечила точный метод отслеживания производства и деловых операций. Это позволило ранним цивилизациям измерять окружающие объекты и явления, делать записи о них и извлекать их позднее. Измерение и запись способствовали созданию данных. Они же являются древнейшими основами датификации.

Так стало возможным воспроизводить продукты человеческой деятельности, например здания, записывая их размеры и строительные материалы. При этом можно было экспериментировать, изменяя отдельные размеры, чтобы создать нечто новое, что затем тоже подлежало бы записи. Можно было записывать коммерческие сделки, чтобы знать, сколько урожая удалось собрать с поля (и сколько из него уйдет государству в виде налога). Появилась возможность прогнозирования и планирования, даже если они заключались в простом предположении, что следующий год будет таким же урожайным, как и текущий. Благодаря этому деловые партнеры могли отслеживать, сколько они должны друг другу. Без измерения и записей не появились бы деньги, поскольку не было бы данных для их обоснования.

Спустя столетия область применения измерений расширилась от длины и веса до площади, объема и времени. К началу I тысячелетия основные функции измерений узнал Запад. Существенным недостатком способа измерения в ранних цивилизациях являлось то, что он не был оптимизирован для вычислений, даже относительно простых. Система счета римских цифр малопригодна для численного анализа. Без позиционной системы нумерации из десяти основных цифр и десятичных чисел даже лучшим специалистам трудно давались умножение и деление больших чисел, а большинству остальных не хватало прозрачности даже в простом сложении и вычитании.

В Индии альтернативная система счисления появилась примерно в I веке. Она перекочевала в Персию, где была усовершенствована, а затем принята арабами, которые тоже значительно ее улучшили. Эта система стала основой арабских цифр, которыми мы пользуемся до сих пор. Крестовые походы, может, и несли абсолютное разрушение землям, на которые вторгались европейцы, но при этом знания мигрировали с востока на запад, и, пожалуй, самым значительным иноземным нововведением стали арабские цифры. Папа Сильвестр II, который занимался их изучением, выступил за их использование в конце первого тысячелетия. К началу ХІІ века арабские тексты, описывающие данную систему, были переведены на латынь и распространились по всей Европе, дав начало математике.

Еще до того, как в Европе появились арабские цифры, вычислительный процесс улучшило использование счетных досок. На этих досках делались гладкие желобки, в которых размещались счетные метки для обозначения сумм. Складывали и вычитали, перемещая метки в определенных областях. Такой способ имел значительные ограничения: было трудно одновременно рассчитывать очень большие и очень маленькие количества. А самое главное — недолговечность цифр на этих досках. Неверный шаг, небрежный удар — и цифра могла измениться, что приводило к неправильным результатам. Счетные доски годились для расчетов, но не для записи. Поэтому всякий раз, когда числа с доски необходимо было записать, их переводили обратно в неудобные римские цифры. (Европейцы так и не переняли восточный способ подсчета с помощью абака, но это оказалось к лучшему, так как не дало увековечить на Западе использование римских цифр.)

Математика придала данным новый смысл: теперь их можно было анализировать, а не только записывать и при необходимости извлекать. Прошли сотни лет с момента введения арабских цифр (ХІІ век) до их широкого распространения (конец ХVІ века). К началу ХVІ века математики уже гордились тем, что с помощью арабских цифр проводили расчеты в шесть раз быстрее, чем с помощью счетных досок. Окончательный успех арабским цифрам принесла эволюция еще одного инструмента датификации — двойной бухгалтерии.

Счетоводы изобрели письменность в III тысячелетии до н. э. Несмотря на развитие счетоводства в последующих столетиях, оно, по сути, оставалось централизованной системой учета конкретных сделок. Но так и не удалось реализовать механизм, благодаря которому счетоводы и их торговцы-работодатели могли бы в любой момент времени увидеть то, что интересовало их больше всего: является конкретный счет или целая компания прибыльной или нет. Ситуация изменилась в XIV веке, когда счетоводы Италии начали записывать операции одновременно в двух книгах. Изящество этой системы заключалось в том, что прибыль и убытки можно было легко свести в таблицы по каждому счету, просто добавив кредиты и дебеты. И «скучные» данные вдруг «заговорили», пусть даже сбивчиво и только в пределах выявления прибыли и убытков.

Сегодня двойная бухгалтерия, как правило, рассматривается только с точки зрения ее последствий для бухгалтерского учета и финансов. Однако она стала вехой в эволюции использования данных, так как позволила записывать информацию в виде «категорий», связывающих счета между собой. Она работала по принятым правилам записи данных, став одним из самых ранних примеров стандартизированной системы записи информации. Бухгалтеры могли с легкостью разобраться в записях друг друга. Бухгалтерия была организована таким образом, чтобы сделать определенный тип запроса данных (расчет прибыли или убытков по каждому счету) быстрым и простым. Наконец, она предусматривала аудиторский след операций для более удобного прослеживания данных. Двойная бухгалтерия разрабатывалась с учетом встроенной «системы исправления ошибок», которая и сегодня не оставила бы равнодушными любителей технологий. Если запись в одной части бухгалтерской книги вызывала сомнения, можно было проверить соответствующую ей запись в другой.

Как и арабские цифры, двойная бухгалтерия не сразу стала успешной. Лишь спустя двести лет с момента изобретения этого метода вмешательство математика и купеческой семьи, наконец, изменило историю датификации.

Математик — это францисканский монах Лука Пачоли. В 1494 году он опубликовал учебник по коммерческой математике, рассчитанный на непрофессионалов в этой области. Благодаря своей популярности книга, по сути, являлась в то время учебником по математике. Кроме того, она стала первой книгой, полностью построенной на арабских цифрах, тем самым способствуя их укоренению в Европе. Наиболее долгосрочным вкладом была часть книги, посвященная бухгалтерии, где Пачоли четко объяснял систему двойного бухгалтерского учета. В течение последующих десятилетий часть, посвященную бухгалтерскому учету, отдельно издали на шести языках, и веками она оставалась настольной книгой по этому предмету.

Что касается купеческой семьи, это были знаменитые венецианские торговцы и меценаты — Медичи. В XVI веке они стали самыми влиятельными банкирами в Европе, в значительной степени благодаря тому, что использовали улучшенный способ записи данных — систему двойной записи. Учебник Пачоли и успех Медичи в его применении утвердили победу двойной бухгалтерии в качестве стандартной записи данных и с того момента закрепили использование арабских цифр.

Параллельно с достижениями в области записи данных развивалась идея измерения окружающего мира, которая подразумевала обозначения времени, расстояния, площади, объема и веса. Стремление познать природу через количественные категории определило развитие науки в XIX веке: ученые изобрели новые инструменты и агрегаты для измерения и регистрации электрических токов, атмосферного давления, температуры, частоты звука и т. п. Это была эпоха всеобщего определения, разграничения и обозначения. Увлечение этими процессами дошло до измерения черепа человека и его умственных способностей для выявления закономерностей между ними. К счастью, эта лженаука («френология») уже практически исчезла. Но желание все количественно измерить только усилилось.

Измерение объектов и явлений реального мира, а также запись получаемых данных процветали благодаря сочетанию подходящих инструментов и восприимчивого мышления. На этой благодатной почве и выросла датификация в ее современном понимании. Все составляющие датификации были готовы к использованию, однако в аналоговом мире этот процесс все еще оставался трудоемким и дорогостоящим. В большинстве случаев требовалось обладать бесконечным терпением или же посвятить этому делу всю жизнь. Примером тому служат тщательные ночные наблюдения за небесными телами, которые проводил астроном Тихо Браге в 1500-х годах. В аналоговую эпоху случаи удачной датификации были редкостью. Как правило, им способствовало счастливое стечение обстоятельств (как в истории коммодора Мори, который был вынужден заниматься офисной работой, но имел в своем распоряжении целый склад журналов). Всякий раз результатом датификации исходной информации оказывались огромная ценность и потрясающие открытия.

Появление компьютеров повлекло за собой внедрение цифровых устройств для измерения и хранения данных, которые значительно повысили эффективность датификации, а также сделали возможным математический анализ данных для раскрытия их скрытой ценности. Проще говоря, оцифровка стала катализатором датификации, но никак не ее заменой. Процесс оцифровки (преобразование аналоговой информации в формат, считываемый компьютером) сам по себе не является датификацией.

 

Когда слова становятся данными

Разница между оцифровкой и датификацией данных станет очевидной, если посмотреть на домен, где происходит и то и другое, и сравнить последствия. Рассмотрим такой пример. В 2004 году компания Google объявила невероятно смелый план — полностью оцифровать все книги, которые находятся в ее распоряжении (насколько это возможно с учетом законов об авторском праве), и дать возможность людям по всему миру искать и бесплатно просматривать книги через интернет. Чтобы совершить этот подвиг, компания объединилась с несколькими крупнейшими и наиболее престижными научными библиотеками мира и разработала машины для сканирования, которые могли бы автоматически перелистывать страницы, делая сканирование миллионов книг не только реализуемым, но и финансово жизнеспособным.

Первый текст, оцифрованный компанией Google, выглядел так. Каждую страницу отсканировали и записали в виде файла цифрового изображения в высоком разрешении, сохраненного на серверах Google. Страницы были преобразованы в цифровые копии, которые любой мог легко получить через интернет из любой точки мира. Однако при этом требовалось точно знать, какая книга содержит нужную информацию, иначе приходилось много читать, чтобы найти правильный отрывок. Текст невозможно было найти по словам или анализировать, поскольку его не датифицировали. Все, чем располагала Google, — это изображения, которые только люди могли превратить в полезную информацию.

И хотя это все равно было отличным инструментом — современной цифровой Александрийской библиотекой, более полезной, чем любая другая библиотека за всю историю, — Google этого показалось мало. Компания понимала, что эта информация хранила в себе ценнейший ресурс, который можно получить только в результате датификации. Поэтому специалисты Google пустили в ход программу оптического распознавания символов, которая могла распознать буквы, слова, предложения и абзацы в цифровом изображении. В итоге получался датифицированный текст, а не оцифрованная картинка страницы.

Теперь информация со страниц была доступна не только для чтения, но и для обработки на компьютерах и для анализа с помощью алгоритмов. Благодаря этому текст становился индексируемым, а значит, доступным для поиска. Стал возможным бесконечный поток текстового анализа. Так, например, можно узнать дату первого упоминания определенных слов и фраз или выяснить, когда они стали популярными. Это позволяет нам по-новому взглянуть на распространение идей и развитие человеческого мышления на протяжении столетий и на многих языках.

Попробуйте сами. Служба Google NgramViewer (http://books.google.com/ngrams) создает график использования слов или фраз с течением времени, применяя в качестве источника данных весь перечень книг Google. Всего за несколько секунд мы можем обнаружить, что до 1900 года термин «причинность» (англ. causality) использовался чаще, чем «корреляция» (англ. correlation), но затем соотношение изменилось. Мы можем сравнить стили письма и понять, кто прав в спорах об авторстве. Кроме того, благодаря датификации стало гораздо легче обнаруживать плагиат в научных трудах, вследствие чего некоторые европейские политики, в том числе министр обороны Германии, были вынуждены уйти в отставку.

По оценкам, с момента изобретения печатного станка (середина XV века) опубликовано 129 миллионов различных книг. К 2010 году, пять лет спустя после запуска своего книжного проекта, компании Google удалось отсканировать более 15 миллионов наименований — существенную часть письменного наследия мира (более 12%). Это дало начало новой учебной дисциплине — «культуромике». Она представляет собой вычислительную лексикологию, которая пытается понять поведение человека и культурные тенденции путем количественного анализа текстов.

В ходе одного из исследований гарвардские ученые, обработав миллионы книг и более 500 миллиардов слов, выявили, что менее половины английских слов, которые встречаются в книгах, включены в словари. Они писали, что английский лексикон «состоит из лексической “темной материи”, которая не зафиксирована в стандартных справочных источниках». Проведя алгоритмический анализ упоминаний о еврейском художнике времен нацистской Германии Марке Шагале, они могли бы показать, что подавление или цензура идеи, как и человека, оставляет «отпечатки, которые можно измерить количественно». Слова на страницах — словно окаменелости в осадочных горных породах, до которых приверженцы культуромики могут докопаться, словно археологи. Конечно, это влечет за собой огромное количество неявных предубеждений: отражают ли библиотечные книги истинное положение вещей в мире или показывают только то, что дорого авторам и библиотекарям? И все же культуромика дает интересные результаты.

Преобразование слов в данные открывает множество способов их применения. Конечно, их можно читать традиционным способом или анализировать с помощью компьютера. Но для Google как для образцовой компании, которая занимается обработкой больших данных, не было секретом, что информация имеет несколько потенциальных назначений, вполне оправдывающих ее сбор и датификацию. Так, например, с помощью датифицированного текста Google удалось улучшить свою службу машинного перевода. Как говорилось в третьей главе, система определяла отсканированные переводные книги и анализировала, какие слова и фразы на одном языке соответствуют словам и фразам на другом. Зная это, система обрабатывала перевод как огромную математическую задачу, в которой компьютер выясняет вероятности, чтобы определить наилучшие соответствия слов в разных языках.

Переход от цифровых изображений страниц к датифицированному тексту чреват ошибками. Даже очень сложные программы распознавания символов сталкиваются с трудностями из-за чрезвычайного разнообразия шрифтов, опечаток в тексте и выцветших чернил. Для слов, которые до сих не поддаются расшифровке с помощью специальных программ, компания Google поставила себе на службу хитрый способ получать непреднамеренную помощь от интернет-пользователей (об этом подробнее рассказано в следующей главе).

Конечно, Google не единственная компания, которая мечтала перенести богатое письменное наследие мира в эпоху компьютеров. Она далеко не первая решила попробовать это осуществить. Проект «Гутенберг» (общественная инициатива по размещению различных произведений в интернете для общего пользования) был призван сделать тексты доступными людям исключительно для чтения. При этом не предусматривались дополнительные способы использования слов (в качестве данных), то есть не шла речь о повторном использовании. Подобным образом издатели в течение многих лет экспериментировали с электронными версиями книг. Но они тоже видели основную ценность книг в их содержании, а не в данных. На этом строилась их бизнес-модель. Издатели никогда не обращали внимания на данные, присущие тексту книги, и не позволяли этого другим. Они не видели в этом необходимости и попросту недооценивали потенциал данных.

Многие компании сейчас соперничают за успех на рынке электронных книг. Похоже, в этой области с большим отрывом лидирует компания Amazon с ассортиментом своих электронных книг Kindle. Однако стратегии компаний Amazon и Google в этой области значительно разнятся.

Компания Amazon получила в свое распоряжение датифицированные книги, однако не сумела найти новые способы применения текста в качестве данных. Джефф Безос, основатель и главный исполнительный директор компании, убедил сотни издателей выпустить книги в формате Kindle. Книги Kindle представляют собой не изображения страниц (в противном случае никто бы не смог изменить размер шрифта или отобразить страницы как на цветных, так и на черно-белых экранах) — их текст датифицирован, а не просто оцифрован. Компании Amazon удалось совершить с миллионами новых книг то, что Google усердно старается повторить с множеством старых.

Тем не менее книжный бизнес Amazon завязан на содержимом, которое читают, а не на анализе датифицированного текста. Справедливости ради стоит заметить, что компания наверняка сталкивается с ограничениями, которые консервативные издатели накладывают на использование информации, содержащейся в их книгах. В свою очередь компания Google, как хулиганка в области больших данных, стремящаяся выйти за рамки, конечно, не испытывает таких ограничений — хлеб насущный ей обеспечивают клики пользователей, а не доступ к собственности издателей. Однако, не считая замечательной службы «статистически значимых слов» Amazon, которая использует алгоритмы для выявления неочевидных связей между темами книг, этот интернет-магазин так и не распорядился своей сокровищницей слов для анализа больших данных. Пожалуй, будет справедливо отметить, что, по крайней мере сейчас, Amazon осознает ценность оцифровки контента, а Google — ценность его датификации.

 

Когда местоположение становится данными

Один из самых весомых источников информации в мире, по сути, сам мир. Большую часть истории человечества он не измерялся количественно и не использовался в форме данных. Безусловно, информацию представляет собой географическое положение объектов и людей: гора находится там, человек — тут. Но эту информацию необходимо преобразовать в данные. Для датификации местоположения требуется несколько составляющих: метод измерения площади земного шара вплоть до сантиметра, стандартизированный способ обозначения и инструмент для сбора и записи данных. Территория, координаты, инструменты. Определение количества, стандартизация, сбор. Только тогда мы сможем хранить и анализировать местоположение не как место само по себе, а как данные.

На Западе количественное измерение местоположения придумали греки. Около 200 года до н. э. Эратосфен изобрел систему координат (сродни широте и долготе) для демаркации местоположений. Со временем она утратила практическое применение, как и множество других хороших идей эпохи Античности. Полтора с половиной тысячелетия спустя (около 1400 года) копия птолемеевского труда «Руководство по географии» прибыла во Флоренцию из Константинополя ввиду того, что эпоха Возрождения и морская торговля возбудили живой интерес к науке и древним знаниям. Это стало сенсацией, и старые уроки Птолемея пригодились для решения современных задач в области навигации. С тех пор на картах появились долгота, широта и масштаб. Позже систему улучшил фламандский картограф Герард Меркатор (в 1570 году), что позволило морякам выстраивать прямые маршруты в круглом мире.

Хотя к этому времени уже сформировался способ записи информации о местоположении, не существовал общепринятый формат для обмена ею. Требовалась единая система идентификации, так же как в интернете требуются доменные имена для работы электронной почты и других служб. Стандартизация долготы и широты заняла много времени и была, наконец, закреплена в 1884 году на Международной меридианной конференции в Вашингтоне (Колумбия), где 25 стран выбрали Гринвич (Англия) в качестве нулевого меридиана и нулевой долготы, и только Франция, считая себя лидером в международных стандартах, воздержалась от голосования. В 1940 году создана система координат «Универсальная поперечная проекция Меркатора» (UTM), согласно которой земной шар разделили на 60 зон для повышения точности.

Геопространственное положение теперь определяли, записывали, подсчитывали, анализировали и распространяли в стандартизированном числовом формате. Появилась возможность датифицировать положение. Однако из-за высокой себестоимости измерение и запись информации в аналоговом виде применялись редко. Изменить ситуацию могли инструменты для менее затратного измерения местоположения. До 1970-х годов единственным способом определения физического местоположения было использование ориентиров, астрономических созвездий, счисления пути и ограниченной технологии определения координат источника радиоизлучения.

Все изменилось в 1978 году после запуска первого из 24 спутников в рамках глобальной системы определения местоположения (GPS). Приемники на Земле, будь то автомобильная навигационная система или смартфон, триангулируют свое положение, отмечая разницу во времени, которое требуется для приема сигнала от спутников, расположенных на высоте более 20 000 км. В 1980-х годах систему впервые открыли для использования в гражданских целях, а в 1990-х она заработала в полную силу. Десятилетием позже ее точность была повышена в коммерческих целях. Система GPS воплотила древнейшую мечту мореплавателей, картографов и математиков, предоставив технические средства для быстрого, относительно дешевого и не требующего специальных знаний измерения местоположения с точностью до одного метра.

Информацию нужно создавать. Ничто не мешало Эратосфену или Меркатору определять свое местоположение ежеминутно, будь у них такое желание, хотя на практике это вряд ли удалось бы осуществить. Первые приемники GPS ввиду сложности и дороговизны не были общедоступными и годились, скорее, для специальных нужд (например, для подводной лодки). Ситуацию изменили недорогие чипы, встроенные в цифровые устройства. Стоимость модуля GPS упала с сотни долларов в 1990-х годах до примерно доллара при нынешнем крупномасштабном производстве. Системе GPS нужно всего несколько секунд, чтобы определить местоположение и выдать координаты в стандартизированном формате. Так, запись 37°14'06"N 115°48'40"W означает, что вы находитесь на суперсекретной американской военной базе в отдаленной части штата Невада — «Зоне-51», где (возможно) находятся космические пришельцы.

В наше время GPS — одна из множества систем, предоставляющих данные о местоположении. В Китае и Европе реализуются конкурирующие спутниковые системы. А поскольку GPS не работает в помещении или среди высотных зданий, для определения положения на основе силы сигнала можно использовать триангуляцию между базовыми станциями сотовой связи или маршрутизаторами Wi-Fi-сети. За счет этого можно достичь еще большей точности данных о местоположении. Становится понятным, почему такие компании, как Google, Apple и Microsoft, создали собственные геолокационные системы, использующие преимущества GPS. Автомобилям Street View компании Google, делающим панорамные фотографии улиц, даже удалось собрать информацию о маршрутизаторах Wi-Fi-сети, а iPhone оказался «шпионским» смартфоном, который собирал данные о местоположении и Wi-Fi-сетях и отправлял их в компанию Apple без ведома пользователей (кроме того, аналогичные данные собирали телефоны Google Android, а также мобильная операционная система Microsoft).

Теперь можно отслеживать не только людей, но и любые другие объекты. Благодаря беспроводным модулям, помещаемым в транспортные средства, датификация местоположения произвела революцию в области страхования. Данные позволяют подробно изучить время, маршрут и пройденное автомобилем расстояние, чтобы лучше оценить риски. В Великобритании водители могут приобрести страховку на автомобиль, исходя из времени и маршрута фактических поездок, а не только из годового показателя, вычисляемого на основе возраста, пола и последней записи. Такой подход к ценообразованию страховых услуг стимулирует примерное поведение. При этом изменяется сама природа страхования: происходит переход от учета объединенных рисков к рискам, основанным на действиях отдельных лиц. Отслеживание физических лиц по транспортным средствам также преобразует характер постоянных затрат, например на дороги и другие объекты инфраструктуры, связывая использование того или иного ресурса с водителями и другими субъектами. Все это было невозможно до того, как появился способ постоянного получения данных о географическом положении людей и объектов. Но это то, к чему мы идем.

Компания UPS использует «геолокационные» данные несколькими способами. Ее автомобили оснащены датчиками, модулями беспроводной связи и GPS, так что в случае задержек специалисты в главном офисе могут определить местоположение фургонов или спрогнозировать неисправности двигателя. Далее, это позволяет компании отслеживать работу сотрудников и изучать карту их маршрутов для дальнейшей оптимизации. Наиболее эффективный путь определяется, в частности, по данным предыдущих поставок, подобно тому как Мори составлял карты на основе более ранних морских плаваний.

По словам Джека Ливиса, начальника отдела управления процессами в компании UPS, программа аналитики дала колоссальные результаты. В 2011 году компании удалось сократить протяженность маршрутов на 30 миллионов миль, тем самым сэкономив три миллиона галлонов топлива и сократив выбросы углекислого газа на 30 тысяч тонн. Кроме того, повысилась безопасность и эффективность, поскольку алгоритм составляет маршруты с меньшим количеством поворотов влево. Такие повороты нередко приводят к ДТП из-за того, что автомобилю приходится пересекать движение на перекрестках, к тому же они отнимают время и потребляют больше топлива, так как перед поворотом двигатель фургона работает на холостом ходу. Телеметрическая система позволяет предвидеть поломку деталей двигателя — прямо как Кэролин Макгрегор в Университете провинции Онтарио заблаговременно определяет заболевания у недоношенных детей, о чем шла речь в четвертой главе.

«Прогнозирование дало нам знание, — говорит Дж. Ливис из UPS и с уверенностью добавляет: — Но кроме знания есть еще кое-что — мудрость и прозорливость. В какой-то момент система станет настолько умной, что будет предсказывать проблемы и исправлять их раньше, чем пользователь успеет сообразить, что что-то не так».

Со временем широкое применение получила датификация местоположения людей. В течение многих лет операторы беспроводной связи собирали и анализировали информацию, чтобы улучшить уровень обслуживания своих сетей. Однако эти данные все чаще используются в других целях и собираются третьими лицами для новых услуг. Например, некоторые приложения для смартфонов накапливают информацию о местоположении независимо от того, имеет ли она отношение к функциям самого приложения. Цель других приложений — построить бизнес вокруг знания о местоположении пользователя. Яркий тому пример — веб-служба Foursquare, которая дает людям возможность «отметиться» в местах, которые они любят посещать. Компания получает доход от программ лояльности, а также рекомендуя рестораны и другие объекты, так или иначе связанные с местоположением.

Возможность собирать геолокационные данные о пользователях становится чрезвычайно ценной. На уровне отдельных лиц она позволяет нацеливать рекламу, исходя из местоположения человека или его предполагаемого пункта назначения. Эту информацию можно объединять для выявления определенных тенденций. Данные о местоположении массовых скоплений дают компаниям возможность обнаруживать пробки, не видя самих автомобилей, на основании количества и скорости перемещения телефонов вдоль шоссе. Компания AirSage ежедневно обрабатывает три миллиарда записей геолокационных данных о перемещении миллионов абонентов сотовой связи для создания отчетов о ситуации на дорогах более чем в 100 городах по всей Америке в режиме реального времени. Две другие компании, которые занимаются геолокацией, Sense Networks и Skyhook, имея данные о местоположении, сообщают, в каких районах города активнее кипит ночная жизнь или сколько протестующих собралось на демонстрации.

Возможно, наиболее важным окажется некоммерческое использование геолокационных данных. Сэнди Пентлэнд, руководитель динамической лаборатории имени Хьюмана при МТИ, и бывший студент Натан Игл вместе открыли, по их словам, «интеллектуальный анализ действительности». Под этим подразумевается обработка больших объемов данных, получаемых с мобильных телефонов, для прогнозирования поведения людей. Они проанализировали передвижение людей и примеры звонков, чтобы определить, что человек заболел гриппом, прежде чем он сам это поймет. При вспышке смертельного гриппа можно спасти миллионы жизней, автоматически определяя, кого следует изолировать и где его найти. Но, как мы рассмотрим позже, попав в безответственные руки, интеллектуальный анализ действительности может привести к ужасающим последствиям.

Натан Игл, основатель стартапа Jana, базирующегося на данных о беспроводной связи, исследовал вопросы распространения заболеваний и процветания городов. Он обработал объединенные данные с мобильных телефонов около 500 миллионов человек в Латинской Америке, Африке и Европе, полученные более чем от 200 операторов беспроводной связи в 80 странах. В одном из исследований Игл и его коллега объединили данные о местоположении абонентов предоплаченной связи в Африке с суммами, которые те тратили на пополнение счета, и выяснили, что эти суммы сильно коррелируют с доходом: хорошо обеспеченные люди покупают больше минут за один раз. Одним из парадоксальных открытий Игла стало то, что трущобы не только являются центром нищеты, но и выступают в качестве экономических трамплинов. Все эти примеры показывают косвенное использование данных о местоположении, которое не имеет ничего общего с их первоначальным назначением — маршрутизацией мобильной связи. Напротив, как только информация о местоположении датифицируется, появляются новые области ее применения, позволяя извлечь из нее новую ценность.

 

Когда взаимодействия становятся данными

Некоторые границы датификации имеют личный характер: это наши отношения, переживания и настроения. Идея датификации лежит в основе многих социальных сетевых веб-служб. Социальные сети не только предоставляют нам платформу для поиска друзей и коллег, а также поддержания связи с ними, но и преобразуют нематериальные элементы нашей повседневной жизни в данные, которые можно использовать новыми способами. Так, Facebook датифицирует отношения. Они всегда представляли собой информацию, но официально не считались данными, пока не появился «социальный граф» Facebook. Twitter датифицирует настроения, предлагая людям способ легко записывать свои бессвязные мимолетные мысли и делиться ими с другими. LinkedIn датифицирует длительный профессиональный опыт (так же как Мори преобразовывал старые журналы), превращая эту информацию в прогнозы о нашем настоящем и будущем: с кем мы, возможно, знакомы и какую работу хотели бы получить.

Использование данных по-прежнему находится в зачаточном состоянии. Со стороны Facebook было весьма проницательно проявить терпение и не афишировать новые способы применения данных пользователей, зная, что эта информация могла быть шокирующей. Кроме того, компания все еще приспосабливает свою бизнес-модель (и политику конфиденциальности) к необходимому количеству и типу сбора данных. Поэтому большинство критических замечаний в адрес Facebook направлены на то, какие данные она способна получить, и гораздо меньше — на то, что с ними происходит на самом деле. Facebook охватывает более 850 миллионов активных пользователей в месяц, между которыми установлено более ста миллиардов дружественных связей. Получается, что социальный граф представляет около 10% населения мира, сведения о которых датифицированы и находятся в руках одной компании.

Потенциальные сферы применения таких данных необычны. Некоторые начинающие компании в области потребительского кредитования рассматривают вопрос о разработке кредитной оценки на основе социального графа Facebook. Система оценки потенциальных заемщиков FICO использует 15 переменных, чтобы спрогнозировать, выплатит ли заемщик кредит. На основании внутреннего исследования один солидно финансируемый (но, к сожалению, анонимный) стартап выдвинул следующее предположение. О том, выплатит ли человек задолженность, красноречивее всего говорит поведение его друзей в аналогичной ситуации. Таким образом, обширные данные Facebook могут составить основу огромных новых бизнес-областей, которые выходят далеко за рамки поверхностного обмена фотографиями, обновления статуса и пометок «Нравится».

В Twitter данные используются не менее интересно. Более 100 миллионов человек ежедневно отправляют 250 миллионов кратких твитов, которые чаще всего представляют собой не что иное, как случайные обрывки фраз. Компания дает возможность датифицировать мысли, настроения людей и взаимодействия между ними — то, что невозможно было получить ранее. Twitter заключила с компаниями DataSift и Grip соглашение на продажу доступа к данным (несмотря на то что все твиты являются общедоступными, «закулисный» доступ к ним платный). Многие компании проводят анализ твитов (иногда с помощью так называемого метода «анализа настроений»), чтобы собрать совокупные отзывы клиентов или оценить эффективность маркетинговых кампаний.

Два хедж-фонда — Derwent Capital в Лондоне и MarketPsych в Калифорнии — начали анализировать датифицированный текст твитов в качестве сигналов для инвестиций на фондовом рынке (при этом сохранив свои торговые стратегии в секрете; к примеру, они могли отдать предпочтение компаниям, специализирующимся на коротких продажах, а не на импульсной торговле). Обе компании теперь продают информацию трейдерам. В частности, хедж-фонд MarketPsych совместно с медиакомпанией Thomson Reuters предлагает не менее 18 864 отдельных индексов по 119 странам. Эти индексы основаны на эмоциональных состояниях (оптимизм, подавленность, радость, страх, гнев и пр.) и даже таких факторах, как инновации, судебные разбирательства и конфликты, и обновляются ежеминутно. Данные используются не столько людьми, сколько компьютерами: математические гении Уолл-стрит (так называемые «кванты») с их помощью выявляют скрытые корреляции, которые можно превратить в прибыль. А по словам одного из отцов анализа социальных сетей Бернардо Губермана, по частоте твитов на определенную тему можно спрогнозировать кассовые сборы кинокомпаний Голливуда. Вместе с коллегой из компании HP Губерман разработал модель для отслеживания скорости публикации новых твитов. Благодаря ей можно спрогнозировать успех фильма точнее, чем это делали рыночные прогнозисты.

Этим широта возможностей не ограничивается. Сообщения Twitter содержат всего 140 символов, однако метаданные, связанные с ними, несут много полезной информации. Метаданные («информация об информации») состоят из 33 отдельных элементов. Некоторые кажутся не слишком полезными (например, фоновый рисунок на странице пользователя Twitter или программное обеспечение, которое он использует для доступа к веб-службе), другие чрезвычайно интересны (например, используемый язык интерфейса службы, географическое положение пользователя, количество и имена людей, чьи твиты он читает и которые читают его твиты). Исследование, проведенное журналом Science в 2011 году, показало то, что невозможно было выявить прежде: перемены настроения людей имеют ежедневные и еженедельные закономерности, общие для всех культур во всем мире. Предметом анализа стали 509 миллионов твитов, полученных за два года от 2,4 миллиона пользователей из 84 стран. Настроения удалось датифицировать.

Датификация подразумевает перевод в анализируемую форму не только отношений и настроений, но и поведения людей, которое трудно было бы отследить иным способом, особенно в более широких группах населения и их подгруппах. Биолог Марсель Салатэ из Университета штата Пенсильвания и инженер-программист Шашанк Ханделвал проанализировали твиты с целью убедиться, что вероятность того, что человек сделает прививку от гриппа, напрямую зависит от его отношения к прививкам как таковым. Важно отметить, что у них были метаданные о связях между пользователями Twitter, читающими твиты друг друга. Это позволило пойти дальше и выявить существование подгрупп непривитых людей. Такое волнующее открытие ставит под сомнение понятие «коллективного иммунитета», согласно которому проведение вакцинации среди большей части населения предотвращает вспышки заболеваний даже среди непривитых людей. Примечательно, что в отличие от других исследований, таких как Google Flu Trends, где объединенные данные использовались для рассмотрения вопроса о состоянии здоровья, анализ настроений, проведенный Салатэ, позволил обнаружить само поведение в отношении здоровья.

Первые находки уже показывают направление, в котором уверенно движется датификация. Подобно Google, социальные сети, такие как Facebook, Twitter, LinkedIn, Foursquare, Zynga и другие, сидят на сокровищнице датифицированной информации, проанализировав которую можно было бы пролить свет на динамику человеческого и социального поведения на всех уровнях — от личности до общества в целом.

 

Повсеместная датификация

Проявив немного фантазии, можно перевести в форму данных немыслимое число объектов и сделать при этом неожиданные открытия. В духе экстравагантных работ токийского профессора Косимицу компания IBM в 2012 году получила патент США на «систему безопасности помещений с использованием наземной вычислительной технологии». Говоря простым языком, это сенсорное напольное покрытие, подобное гигантскому экрану смартфона. Сфера его потенциального применения весьма обширна. Такой пол мог бы обнаруживать расположенные на нем предметы и определять, когда нужно включить свет в комнате или открыть двери. Более того, он опознавал бы людей по их весу, стоячей позе и походке. Сообщал, когда кто-то упал и не может подняться. С помощью этой технологии торговые компании могли бы отслеживать поток клиентов в магазине. Таким образом, датификация напольного покрытия открывает безграничные возможности ее применения.

И это будущее не за горами. Возьмем, к примеру, движение Quantified Self («Измерение себя»). Его участники — разношерстная группа фанатов фитнеса, медицины и техники, которые измеряют каждый элемент своего тела и деятельности, чтобы улучшить качество своей жизни или по крайней мере узнать что-то новое, что раньше не удавалось измерить количественно. Пока что движение по отслеживанию личных показателей немногочисленное, но его ряды постоянно пополняются.

Благодаря смартфонам и недорогой вычислительной технике датификация наиболее важных аспектов жизни стала проще, чем когда-либо. Множество стартапов предоставляют людям возможность отслеживать свой сон путем измерения мозговых волн в течение всей ночи. Компания Zeo уже создала крупнейшую в мире базу данных активности во время сна и обнаружила различия в количестве фаз быстрого сна у мужчин и женщин. Компания Asthmapolis провела другой эксперимент: прикрепила к ингаляторам от астмы датчики, которые отслеживают местоположение с помощью GPS. Собранная информация позволяет выяснить, какие факторы окружающей среды провоцируют приступы астмы (например, близость к определенным видам посевных культур).

Компании Fitbit и Jawbone предлагают людям инструмент для оценки своей физической активности и сна. Владельцы браслетов компании Basis могут контролировать жизненно важные функции, в том числе частоту сердечных сокращений и электропроводность кожи, которые являются показателями стресса. Получение данных становится проще и непринужденнее, чем когда-либо. Так, в 2009 году Apple подала заявку на патент для сбора данных о насыщенности крови кислородом, частоте сердечных сокращений и температуре тела через наушники-вкладыши.

Датификация принципов работы человеческого тела открывает широкое поле для изучения. Исследователи из Университетского колледжа Йёвик в Норвегии и компания Derawi Biometrics разработали приложение для смартфонов, которое анализирует походку человека, чтобы использовать ее в качестве системы безопасности для разблокировки телефона. Роберт Делано и Брайан Пэрисит из Технологического научно-исследовательского института штата Джорджия создали приложение iTrem, которое с помощью встроенного в телефон акселерометра контролирует тремор частей тела при болезни Паркинсона и других неврологических расстройствах. Это приложение удобно как для врачей, так и для пациентов. Пациенты получают возможность обойтись без дорогостоящих визитов к врачу, а медработники — удаленно отслеживать нарушения функций у людей и их реакцию на лечение. По мнению исследователей в Киото, смартфон измеряет степень дрожания не настолько точно, как акселерометр, используемый в специализированном медицинском оборудовании. Однако разница в эффективности несущественна и делает показания приложения достаточно надежными. Выходит, что немного беспорядочности не помеха точности.

В большинстве таких случаев мы получаем информацию и переводим ее в форму данных для повторного использования. Для этого годится практически любая информация, полученная где угодно. Стартап GreenGoose продает крошечные датчики движения, которые можно разместить на объектах, чтобы отслеживать частоту их применения. Прикрепив такой датчик на пачку зубной нити, лейку или коробку кошачьего туалета, вы сможете датифицировать гигиену полости рта и уход за растениями или домашними животными.

С тех пор как мир начал датифицироваться, использование информации стало настолько широким, насколько хватит фантазии. Мори раскрыл скрытую ценность данных путем кропотливого ручного анализа. Сегодня у нас есть инструменты (статистические данные и алгоритмы) и необходимое оборудование (компьютерные процессоры и хранилища), которые позволяют делать то же самое гораздо быстрее, в большем масштабе и во множестве различных областей. В эпоху больших данных можно извлекать пользу из самых неожиданных объектов.

Мы находимся в середине большого инфраструктурного проекта, который в некотором роде конкурирует с атрибутами прошлого — от римских акведуков до «энциклопедистов» эпохи Просвещения. Мы не в состоянии оценить проект по достоинству, поскольку он едва появился и мы полностью поглощены им. К тому же, в отличие от воды, текущей по акведукам, продукт нашего труда нематериален. Этот проект — датификация. Подобно остальным инфраструктурам, она приведет к фундаментальным изменениям в обществе.

Акведуки способствовали росту городов, печатные станки — просвещению, а газеты — подъему национального государства. Эти инфраструктуры имели дело с потоками (воды и знаний), так же как телефон и интернет. В отличие от них датификация — фундаментальное изменение действительности в человеческом понимании. Благодаря большим данным мы перестанем рассматривать окружающий мир как бесконечное множество событий, которые объясняются как природные или социальные явления, а взглянем на него как на область, состоящую в основном из информации.

Более века назад физики предположили, что не атомы, а информация является настоящей основой всего сущего. И пусть это звучит эзотерически, но во многом именно благодаря датификации мы теперь можем полномасштабно фиксировать и рассчитывать материальные и нематериальные аспекты существования и действовать в соответствии с ними.

Взглянув на мир с точки зрения информации — бескрайних просторов данных, которые нам предстоит постичь, — мы получим небывалое представление об окружающей действительности. Это мировоззрение охватит все сферы нашей жизни. Со временем датификация, которая затмит акведуки и газеты, станет конкурировать с типографией и интернетом, вручив нам инструменты для преобразования мира с помощью данных. Сейчас делом заняты самые продвинутые пользователи. Большие данные используются для создания новых форм ценности, которые мы рассмотрим в следующей главе.