Большие данные. Революция, которая изменит то, как мы живем, работаем и мыслим

Майер-Шенбергер Виктор

Кукьер Кеннет

Глава 7

Последствия

 

 

В 2011 году в Сиэтле был запущен онлайн-стартап Decide.com с умными алгоритмами и фантастически смелыми амбициями. В целом он задумывался как механизм прогнозирования цен на миллиарды потребительских товаров. Но начать планировалось с относительно малого — всевозможных устройств от мобильных телефонов и телевизоров с плоским экраном до цифровых камер. Компьютеры вытягивали потоки данных с сайтов интернет-магазинов и отправлялись дальше на веб-поиски всевозможной информации о данном продукте и соответствующих цен.

Цены в интернете в течение дня постоянно меняются, динамически обновляясь на основе множества факторов. Поэтому компании приходилось постоянно собирать данные о них. И не только большие данные, но еще и большой «большой текст», так как система должна была анализировать слова, чтобы распознать, снят ли товар с продажи или планировался запуск новой модели, о котором следовало сообщить потребителям, поскольку это влияет на цены.

Год спустя Decide.com анализировал четыре миллиона продуктов с помощью более 18 миллиардов наблюдений за ценами. Стартапу удалось определить особенности розничной торговли, которые раньше невозможно было «увидеть», например то, что цены на устаревшие модели могут временно подняться, как только в продажу поступят новые модели. Большинство людей обратили бы внимание на более старую модель, полагая, что она обойдется дешевле. Но в зависимости от момента, когда они нажмут кнопку «Купить», есть вероятность, что они заплатят даже больше, чем стоит новая модель. Поскольку интернет-магазины все чаще используют автоматизированные системы ценообразования, система Decide.com может определить неестественные, алгоритмические скачки цен и предупредить потребителей. По внутренним подсчетам, точность прогнозов компании составляет 77%, что позволяет покупателям экономить в среднем 87 долларов на каждом продукте.

На первый взгляд, Decide.com — один из многих перспективных стартапов, который стремится по-новому использовать информацию и честно получать оплату своих усилий. Но не данные делают сайт Decide.com особенным, а то, что он полагается на информацию, полученную по лицензии от сайтов интернет-магазинов, а также «бесплатно» собранную в интернете. Для этого не требуются технические знания: компания не делает ничего такого, что было бы по силам исключительно инженерам, к тому же только тем, которые работают на Decide.com. Несмотря на несомненную важность сбора данных и технических навыков, главное в деятельности Decide.com — идея. Компания мыслит категориями больших данных. Она сумела разглядеть возможности раньше других и поняла, какие данные нужно исследовать, чтобы раскрыть ценные секреты. И если кажется, что у Decide.com есть точки пересечения с Farecast (сайтом по прогнозированию цен на авиабилеты), на то существуют веские основания: оба сайта являются детищами Орена Эциони из Вашингтонского университета.

В предыдущей главе мы рассмотрели, как данные становятся новым источником ценности (в основном за счет так называемой альтернативной ценности) по мере их применения в новых целях. Основное внимание уделялось компаниям, которые собирают данные. Теперь рассмотрим компании, которые используют эти данные, их место в цепочке создания ценности информации, а также значение для организаций и физических лиц как с профессиональной, так и с бытовой точки зрения.

Компании, которые имеют дело с большими данными, можно отнести к одной из групп в зависимости от того, чем они располагают: данными, навыками и идеями.

К первой группе компаний относятся те, что имеют данные или хотя бы доступ к ним, но не обязательно обладают необходимыми навыками, чтобы извлечь из них ценность или придумать, чем они могут быть полезны. Лучший пример — компания Twitter, которая, безусловно, ценит огромный поток данных, проходящий через ее серверы, но предпочла передать их двум независимым компаниям на правах лицензирования. Вторая группа компаний имеет навыки. Как правило, это консалтинговые компании, поставщики технологий и аналитики, которые имеют специальные знания и выполняют свою работу, но, вероятно, не имеют данных и не настолько изобретательны, чтобы придумать новейшие способы их использования. Так, компания Walmart обратилась к специалистам Teradata (компании по анализу данных) для того, чтобы найти корреляцию между ураганами и продажами Pop-Tarts. К третьей группе компании позволяет отнести способность мыслить категориями больших данных. Яркий пример — Пит Уорден, эксцентричный сооснователь компании Jetpac, которая рекомендует путешествия на основе фотографий, загружаемых пользователями на сайт. Успех некоторых компаний зависит не от данных или ноу-хау. Их главное преимущество — основатели и сотрудники, которые фонтанируют уникальными идеями использования данных, чтобы извлечь из них максимальную пользу.

Прежде компании больше внимания уделяли первым двум элементам: навыкам (которых не хватает) и данным (они в избытке). В последние годы появилась новая профессия — «специалист по обработке данных», сочетающая в себе навыки программиста, дизайнера, специалиста по статистике и инфографике и к тому же рассказчика. Специалистам по обработке данных не нужен микроскоп, чтобы сделать открытие. Их инструмент — базы данных. Консалтинговая компания McKinsey & Company прогнозирует острую нехватку таких специалистов и в настоящее время, и в будущем (об этом очень любят упоминать современные специалисты, чтобы потребовать повышения зарплаты).

Между тем Хэл Вэриэн, главный экономист Google, в шутку называет профессию статистиков «самой сексуальной» работой. «Если вы хотите быть успешным, найдите то, что повсеместно и дешево, и станьте для него незаменимым дефицитным ресурсом. Данные так широкодоступны и настолько стратегически важны, что дефицит представляют собой знания, которые могут извлечь из них пользу, — говорит он. — Вот почему статистики, администраторы баз данных и специалисты по машинному обучению скоро займут невероятно выгодное положение».

Делая акцент на навыках и преуменьшая важность данных, можно добиться лишь кратковременного успеха. По мере развития отрасли нехватка персонала будет ликвидирована, поскольку навыки, которые нахваливал Вэриэн, станут обычным явлением. Существует ошибочное мнение, что, поскольку данные в избытке, они бесплатны или же почти ничего не стоят. Данные являются важнейшей составляющей. Чтобы понять почему, рассмотрим разные части «цепочки создания ценности» больших данных и их вероятные изменения со временем; изучим по порядку каждую из групп: держатель данных, специалист по данным и мышление категориями больших данных.

 

Цепочка создания ценности больших данных

Основная составляющая больших данных — информация, поэтому целесообразно начать с первой группы — держателей данных. Они не обязательно являются создателями исходной базы данных, но в их руках находится доступ к информации и возможность ее использовать либо передать на правах лицензирования другим пользователям, которые сумеют извлечь из нее выгоду. ITA Software, одна из четырех главных сетей бронирования авиабилетов (после Amadeus, Travelport и Sabre), предоставила свои данные компании Farecast для прогнозирования цен на билеты, но самостоятельный анализ не проводила. Почему? ITA работала с данными исключительно по их прямому назначению. В конце концов, продажа авиабилетов — непростая задача, так что анализ не входил в компетенцию компании. Кроме того, у нее не было инновационной идеи (а значит, пришлось бы искать обходные пути вокруг патента Эциони).

Далее, компания решила не менять положение дел ввиду своего места в цепочке создания ценности информации. «Компания ITA уклонялась от проектов, предусматривающих коммерческое использование данных, слишком тесно связанное с доходами авиакомпании, — вспоминает Карл де Маркен, сооснователь ITA Software и ее бывший технический директор. — ITA имела доступ к информации особой важности, которая требовалась для предоставления услуг, и не могла позволить себе поставить их под угрозу». Вместо этого она осторожно держала данные на расстоянии вытянутой руки, лицензируя их, но не используя. В итоге ITA продала данные за бесценок. Их основная ценность досталась Farecast: клиентам — в виде более дешевых билетов, а сотрудникам и владельцам Farecast — в виде доходов от рекламы, комиссий и, в конце концов, продажи компании.

Некоторые компании проницательно устраивались в центре информационных потоков, тем самым получая возможность масштабирования, а также извлечения пользы из данных. Такая картина наблюдалась в сфере кредитных карт. Годами высокая стоимость борьбы с мошенничеством вынуждала многие малые и средние банки отказываться от выпуска собственных кредитных карт и передавать эту функцию большим финансовым учреждениям, размах которых позволял инвестировать в технологии. При этом все сливки доставались компаниям вроде Capital One и MBNA банка Bank of America. Теперь более мелкие банки сожалеют о том, что так расточительно отнеслись к операциям с картами, поскольку это лишило их данных о структуре расходов, которые позволили бы им узнать больше о своих клиентах и продавать им специализированные услуги.

Крупные банки и эмитенты карт, такие как Visa и MasterCard, напротив, заняли тепленькое местечко в цепочке создания ценности информации. Оказывая услуги многим банкам и торговым компаниям, они видели больше операций по своим сетям и делали выводы о поведении потребителей. Их бизнес-модель перешла от простой обработки платежей к сбору данных. Вопрос теперь в том, что они с ними делают.

Компания MasterCard могла бы лицензировать данные третьим лицам для их дальнейшего использования (как это делала ITA), но предпочла анализировать данные самостоятельно. Подразделение MasterCard Advisors объединяет и анализирует 65 миллиардов операций, осуществляемых 1,5 миллиарда держателей карт в 210 странах, чтобы прогнозировать потребительские и бизнес-тенденции. Затем эта информация продается другим компаниям. Среди прочего компания обнаружила, что, если люди заправили автомобиль около четырех часов дня, в течение часа они, скорее всего, потратят 35–50 долларов в продуктовом магазине или ресторане. Эта информация могла бы пригодиться маркетологу, чтобы начать печатать купоны для близлежащих заведений на обороте бензозаправочных квитанций, выпускаемых в этот период.

Как посредник в информационных потоках MasterCard занимает весьма выгодное положение для сбора данных и получения из них выгоды. Только представьте себе будущее, в котором компании по выпуску платежных карт откажутся от своих комиссий по операциям и будут обрабатывать их бесплатно в обмен на доступ к большему количеству данных, чтобы получать доход от продажи еще более сложной аналитики, выполненной на их основе.

Во вторую группу входят компании, имеющие знания или технологии. MasterCard решила делать все собственными силами. Некоторые не могут сделать окончательный выбор, но часть компаний все же обращаются к специалистам. Например, консалтинговая компания Accenture сотрудничает с компаниями во многих отраслях промышленности для развертывания передовых технологий в области беспроводных датчиков и анализа собираемых ими данных. В 2005 году в ходе пилотного проекта в Сент-Луисе (штат Миссури) в десятке общественных автобусов были размещены беспроводные датчики, контролирующие работу двигателя для прогнозирования поломок и определения оптимального времени для регулярного техобслуживания. Один только вывод, что город может отсрочить плановую замену деталей с пробега в 200–250 тысяч километров до 280 тысяч километров, сэкономил 600 000 долларов на всем автопарке. При этом именно клиент, а не консалтинговая компания собрал плоды ценности данных.

В сфере медицинских данных мы видим поразительный пример того, как внешние технологические компании могут предоставлять полезные услуги. Вашингтонский госпитальный центр в сотрудничестве с Microsoft Research проанализировал свои анонимные медицинские записи (демографические данные пациентов, анализы, диагностика, лечение и многое другое) за последние несколько лет, чтобы узнать, как снизить частоту повторных госпитализаций и инфекционных заболеваний. Они составляют львиную долю расходов на здравоохранение, поэтому любое снижение их стоимости означало бы огромную экономию.

Методика позволила выявить несколько удивительных корреляций. Одним из результатов был список всех условий, которые увеличивали вероятность того, что выписанный пациент поступит на повторную госпитализацию в течение месяца. Некоторые из этих условий хорошо известны и не имеют простого решения. Так, пациент с застойной сердечной недостаточностью наверняка вернется, поскольку это заболевание трудно поддается лечению. Система выявила еще один неожиданный, но надежный прогностический фактор — психическое состояние пациента. Вероятность того, что человек будет повторно госпитализирован в течение месяца, заметно увеличивалась, если среди исходных жалоб пациента были слова «депрессия» и пр., что указывало на психическое расстройство.

Хотя эта корреляция ничего не говорит о причинности, она предполагает, что надлежащая психологическая помощь пациенту после выписки благотворно скажется и на его физическом здоровье. Это открытие может улучшить качество ухода, уменьшить количество повторных госпитализаций и снизить расходы на медицинское обслуживание. Данная корреляция была выявлена компьютером путем просеивания огромной базы данных, но человеку вряд ли удалось бы ее выявить самостоятельно. Корпорация Microsoft не вмешивалась в управление данными больницы. У нее не было гениальной идеи по их использованию. Да этого и не требовалось. Microsoft просто предложила правильный инструмент — свое программное обеспечение Amalga, чтобы извлечь ценную информацию.

Компании, компетентные в области больших данных, играют важную роль в цепочке создания ценности информации. Twitter, LinkedIn, Foursquare и другие компании имеют горы данных, которые нуждаются в обработке. Компании старого типа (такие как Ford и BP) тоже буквально утопают в данных, по мере того как все больше аспектов их деятельности и продуктов датифицируется. Как держатели данных они полагаются на специалистов в том, чтобы извлечь из них выгоду. Но, несмотря на престиж и солидные названия должностей в духе «ниндзя данных», работа технических экспертов не всегда так заманчива, как может показаться. Они трудятся в алмазных копях больших данных, получая при этом внушительную зарплату. Но драгоценные камни достаются тем, кто владеет данными.

Третья группа — это компании и частные лица, которые мыслят категориями больших данных. Их сила в том, чтобы видеть возможности раньше других, даже если у них нет навыков и данных на реализацию. Возможно, именно нехватка этих ресурсов позволяет им взглянуть на ситуацию со стороны. Их разум не обременен стандартными ограничениями, и они видят то, чего можно достичь, пусть это практически трудноосуществимо.

Брэдфорд Кросс — живое олицетворение того, что значит мыслить категориями больших данных. В августе 2009 года в свои двадцать с лишним лет он и его четверо друзей создали FlightCaster.com. Как и FlyOnTime.us, их служба прогнозировала вероятность задержки рейсов в США, анализируя данные обо всех рейсах за последнее десятилетие и сопоставляя их со статистическими данными о прошлых и текущих погодных условиях.

Примечательно, что этого не сделали держатели данных. Никто не обнаружил желания или нормативно-правовой инициативы использовать данные таким образом. Ведь если бы источники данных — Бюро транспортной статистики, Федеральное управление гражданской авиации и Национальная метеорологическая служба США — осмелились предсказать задержку коммерческих рейсов, Конгресс, наверное, провел бы слушания, и чиновники получили бы по заслугам. Поэтому за дело взялась группа ребят в толстовках и с математическим образованием. Авиакомпании тоже не могли — и не хотели — строить такие прогнозы. Они пользовались преимуществами как можно более неясного положения дел. А прогнозы службы FlightCaster оказались настолько точными, что даже сотрудники авиакомпании стали ими пользоваться: поскольку авиакомпании не объявляют о задержке вплоть до последней минуты, они хоть и являются основным источником информации, но не самым своевременным.

Ребята мыслили категориями больших данных, и это вдохновило их на реализацию идеи: общедоступные данные можно обработать так, чтобы дать миллионам людей ответы на животрепещущие вопросы. Служба FlightCaster Брэдфорда Кросса стала первопроходцем, но с большим трудом. В том же месяце, когда был запущен сайт FlightCaster (август 2009 года), энтузиасты из команды FlyOnTime.us начали в больших объемах собирать открытые данные, чтобы создать собственный сайт. В конечном счете преимущества, которыми наслаждалась компания FlightCaster, пошли на спад. В январе 2011 года Кросс и его партнеры продали свой стартап компании Next Jump, управляющей программами корпоративных скидок, в которых используются методы обработки больших данных.

Тогда Кросс обратил внимание на другую стареющую отрасль — новостные СМИ, увидев в ней нишу, которую мог бы занять внешний новатор. Его стартап Prismatic объединял и ранжировал контент со всего интернета на основе анализа текста, пользовательских настроек, популярности, связанной с социальными сетями, и анализа больших данных. Важно отметить, что система не делала различий между блогом подростка, корпоративным сайтом или статьей в Washington Post: если контент считался востребованным и популярным (что определялось по частоте просмотров и рекомендаций), он располагался в верхней части экрана.

Служба Prismatic стала отражением нового способа взаимодействия со СМИ, который присущ молодому поколению. Его суть в том, что источник информации не столь важен. И это унизительное напоминание СМИ о том, что общество в целом лучше осведомлено о событиях, чем они сами. Претенциозным журналистам приходится конкурировать с блогерами, которые могут днями не вылезать из своих халатов. Ключевым моментом является то, что служба Prismatic вряд ли появилась бы внутри самой медиаиндустрии, хоть она и собирает множество информации. Завсегдатаям бара Национального клуба печати не пришло в голову повторно использовать данные о потреблении СМИ в интернете. И специалисты по аналитике из Армонка (Нью-Йорк) или Бангалора (Индия) до этого не додумались. Зато Кросс, пользующийся дурной славой аутсайдера с растрепанными волосами и неторопливой речью, сумел предположить, что с помощью данных можно сообщать миру, на что следует обратить внимание, и делать это лучше редакторов New York Times.

Творческие аутсайдеры с блестящими идеями и их способность мыслить категориями больших данных напоминают происходившее на заре интернет-коммерции в середине 1990-х годов. Тогда первопроходцами становились те, кто не был обременен закоренелым мышлением или институционными ограничениями более старых отраслей. Так, хедж-фондовый специалист по статистике Джефф Безос основал книжный интернет-магазин, а разработчик программного обеспечения Пьер Омидьяр создал интернет-аукцион. Заметьте — не Barnes & Noble и Sotheby’s. Современные лидеры с таким масштабным мышлением зачастую не располагают данными. Зато при этом у них нет корыстных интересов или финансовых стимулов, которые мешали бы им раскрыть потенциал своих идей.

Как мы уже убедились, бывают случаи, когда компания сочетает в себе сразу несколько характеристик, позволяющих оперировать большими данными. Возможно, Эциони и Кросс оказались впереди благодаря своей сенсационной идее, но кроме нее у них были навыки. Сотрудники Teradata и Accenture тоже времени зря не теряют и время от времени выдают отличные идеи. Прототипы идей по-прежнему помогают оценить роль каждой компании. Операторы мобильной связи, о которых шла речь в предыдущей главе, собирают гигантский объем данных, но испытывают трудности в его использовании. Однако они могут передать эти данные тем, кто сумеет извлечь из них новую ценность. Подобным образом компания Twitter с самого начала передала права лицензирования на свои «пожарные шланги данных» двум другим компаниям.

Некоторые компании располагают всеми инструментами для реализации возможностей, которые дают большие данные. Google собирает информацию (например, об опечатках в поисковых запросах), имеет великолепную идею создать с их помощью лучшее в мире средство проверки правописания и блестяще реализует ее своими силами. Учитывая множество других видов деятельности, компания Google получает выгоду от вертикальной интеграции в цепочку создания ценности больших данных, где она занимает все три позиции. В то же время Google предоставляет открытый доступ к некоторым своим данным через интерфейсы прикладного программирования (API), чтобы из них можно было извлечь дополнительную ценность. Одним из примеров являются бесплатные карты Google, которые используются в интернете повсеместно — от списков недвижимости до сайтов государственных учреждений (хотя часто посещаемым сайтам все же приходится за них платить).

У Amazon есть и мышление, и знания, и данные. По сути, компания выстраивала свою бизнес-модель именно в таком (обратном по сравнению с нормой) порядке. Вначале у нее была только идея знаменитой рекомендательной системы. В объявлении о новом выпуске акций на фондовой бирже в 1997 году описание «совместной фильтрации» появилось раньше, чем компания Amazon узнала, как эта система будет работать на практике, и получила достаточно данных, чтобы сделать ее полезной.

И Google, и Amazon обладают равными возможностями, но руководствуются разными стратегиями. Приступая к сбору данных, компания Google сразу учитывает возможность их вторичного применения. Например, ее автомобили Street View собирали информацию GPS не только для картографической службы Google, но и для обучения самоуправляемых автомобилей. Amazon, напротив, больше ориентирована на первичное использование данных и обращается к вторичному только в качестве бонуса. Например, ее рекомендательная система опирается на «сигналы» в виде действий пользователя на сайте, но компания ни разу не прибегла к полученной информации для непредусмотренных прогнозов (например, состояния экономики или вспышек гриппа).

Устройства для чтения электронных книг Amazon Kindle могут показать, на какой странице читатели оставили множество примечаний и подчеркнутых отрывков, но Amazon не продает эту информацию авторам и издателям. Маркетологов заинтересовали бы наиболее популярные отрывки, чтобы повысить продажи книг. Авторы хотели бы узнать, на каком месте их выдающихся произведений большинство читателей забрасывают чтение, и улучшить их. Издатели желали бы выявить темы, сулящие очередной бестселлер. Но Amazon оставляет это поле данных невспаханным.

С умом используя большие данные, можно преобразовать бизнес-модель компании и коренным образом изменить способы взаимодействия с давними партнерами. Один из потрясающих примеров — история о том, как крупному европейскому автопроизводителю удалось перестроить коммерческие отношения с поставщиком запчастей с помощью данных, полученных в рабочих условиях (поскольку пример взят из частной практики аналитика, который занимался обработкой этих данных, мы, к сожалению, не вправе разглашать названия компаний).

Современные автомобили оборудованы чипами, датчиками и программным обеспечением, которые передают технические данные на компьютеры автопроизводителей во время техобслуживания. Типичный автомобиль среднего класса содержит около 60 микропроцессоров, и треть его себестоимости приходится на электронику. Так что автомобили стали подходящими преемниками кораблей, которые Мори называл «плавающими обсерваториями». Информация о том, как части автомобиля ведут себя в полевых условиях (и повторное объединение такой информации для корректировки), может стать большим конкурентным преимуществом для компаний, которые ею владеют.

В сотрудничестве с внешней компанией по анализу данных автопроизводителю удалось выявить, что датчик обнаружения утечки топливного бака, производимый немецким поставщиком, не справлялся со своей задачей: на каждый правильный сигнал тревоги приходилось 16 ошибочных. Автопроизводитель мог передать эту информацию поставщику и потребовать регулировки. В эпоху более этичных деловых отношений он так и поступил бы. Но автопроизводитель изрядно потратился на аналитическое программное обеспечение, чтобы выявить проблему, и хотел с помощью полученной информации компенсировать часть своих инвестиций.

Итак, он задумался над вариантами. Стоит ли продавать данные? Как их оценивать? Что делать, если поставщик откажется исправлять ситуацию и компания останется с партией бракованных датчиков? К тому же было ясно, что разглашение информации позволит усовершенствовать аналогичные датчики в автомобилях конкурентов. Компания искала хитрый способ улучшить только свои автомобили. Наконец, автопроизводитель придумал. Он нашел способ усовершенствовать датчик с помощью модернизированного программного обеспечения и запатентовал его. А затем продал патент поставщику, что с лихвой покрыло его расходы на аналитическое программное обеспечение.

 

Новые посредники данных

Кто получает наибольшую выгоду в цепочке создания ценности больших данных? В наше время — обладатели особого типа мышления и инновационных идей. Как показала эпоха интернет-магазинов, истинного успеха добивается тот, кто имеет преимущество первопроходца. Но это преимущество недолговечно. По мере развития эпохи больших данных другие лица перестроятся на новый тип мышления, и преимущества первопроходцев, условно говоря, пойдут на спад.

Возможно, вся суть ценности — в навыках? В конце концов, золотая жила ничего не стоит, если вы не можете извлечь золото. Однако история вычислительной техники говорит об обратном. Сегодня опыт управления базами данных, наука о данных, аналитика, алгоритмы машинного обучения и пр. пользуются высоким спросом. Но с течением времени, по мере того как большие данные проникают в повседневную жизнь, инструменты становятся все лучше и удобнее, а люди набираются опыта, относительная ценность навыков начинает снижаться. Подобным образом в 1960–1980-х годах навыками компьютерного программирования обладали уже многие. Компании, которые переносят производственные процессы за границу, сумели еще больше снизить ценность базовых навыков программирования. То, что когда-то считалось образцом технической смекалки, теперь лишь двигатель развития беднейших стран. Это не значит, что опыт работы с большими данными не важен. Просто он не является основным источником ценности, поскольку его можно получить из внешних источников.

Сегодня, на ранних этапах развития больших данных, идеи и навыки ценятся выше всего. Но в конечном счете ценность будет заключаться в самих данных. И не только потому, что появится больше способов применения информации, но и потому, что держатели данных станут выше оценивать потенциал своих активов. В итоге они наверняка вцепятся в них еще крепче и назначат высокую цену за доступ для посторонних. (В продолжение метафоры с золотой жилой: наиболее ценным будет само золото.)

В истории долгосрочного роста выгоды держателей данных есть небольшой, но важный аспект, который стоит упомянуть. От случая к случаю станут появляться «посредники данных», способные собирать данные из нескольких источников, объединять их, а затем применять инновационным образом. Держатели данных не будут этому противиться, поскольку некоторую часть ценности данных можно извлечь только с их помощью.

В качестве примера можно привести Inrix — компанию из Сиэтла, которая занимается анализом дорожного движения. Она объединяет в режиме реального времени геолокационные данные о 100 миллионах автомобилей в США и Европе. Данные поступают от автомобилей BMW, Ford, Toyota и пр., из коммерческих автопарков такси и фургонов для доставки, а также с мобильных телефонов отдельных водителей (здесь следует отметить важную роль бесплатных приложений Inrix для смартфонов: пользователи получают бесплатную информацию о дорожном движении, а Inrix — их координаты). Полученную информацию Inrix объединяет с хронологическими данными о моделях дорожного движения, а также информацией о погоде и других факторах (например, местных мероприятиях), чтобы спрогнозировать плотность дорожного движения. Готовый «продукт» передается на автомобильные системы спутниковой навигации и используется государственными учреждениями и коммерческими автопарками.

Компания Inrix — типичный независимый посредник данных. Она получает информацию от многочисленных конкурирующих марок автомобилей и тем самым создает более ценный продукт, чем они могли бы создать самостоятельно. Каждый автопроизводитель, вероятно, получает сотни тысяч точек данных от автомобилей на дорогах и мог бы использовать их для прогнозирования дорожного движения, но его прогнозы были бы не очень точными или неполными. Качество улучшается по мере увеличения количества данных. Кроме того, таким компаниям может не хватать навыков, ведь в их компетенцию входит изгибание металла, а не решение задач на распределение Пуассона. Так что у них есть основания поручить эту работу третьей стороне. Кроме того, хотя прогноз дорожного движения имеет большое значение для водителей, вряд ли он как-то влияет на выбор марки автомобиля при покупке. Поэтому конкуренты не против объединения усилий в таком виде.

Конечно, и раньше своей информацией делились многие отрасли, в частности лаборатории страховых компаний и сетевые секторы (например, банковское дело, энергетика и телекоммуникации), где такой обмен имеет важнейшее значение для предупреждения неприятностей; время от времени информацию могут требовать регулирующие органы. Компании по исследованию рынка, а также компании, специализирующиеся на отдельных задачах, таких как аудит тиража газетных изданий, уже десятки лет объединяют отраслевые данные. А некоторые торговые ассоциации считают это главной своей задачей.

Отличие нынешней ситуации в том, что данные выходят на рынок. И кроме основного значения, из данных извлекаются новые формы ценности. Например, информация компании Inrix полезнее, чем может показаться на первый взгляд. Ее анализ дорожного движения используется для оценки состояния местных экономик, поскольку он может дать представление о безработице, розничных продажах и не только. В 2011 году программа восстановлении экономики США начала трещать по швам, несмотря на заявления политиков об обратном. Это быстро выявил анализ дорожного движения: в часы пик на дорогах стало свободнее, что предполагало увеличение безработицы. Inrix продала свои данные в инвестиционный фонд, который с помощью моделей дорожного движения вокруг магазинов крупнейших розничных сетей выявляет объемы их продаж. Фонд использует эти данные для торговли акциями компаний до объявления их квартальных доходов. Согласно корреляции, чем больше автомобилей в районе магазина, тем выше его продажи.

В цепочке создания ценности больших данных стали появляться посредники иного типа. Одним из первых игроков на рынке стала компания Hitwise, впоследствии выкупленная компанией Experian. Hitwise заключала с поставщиками веб-служб сделки на получение данных об их потоке «кликов» в обмен на дополнительный доход. Данные лицензировались за символическую фиксированную плату, а не как процент от приобретенной от них выгоды. Таким образом, основную часть ценности данных получала Hitwise, выступая в роли посредника. Другой пример — компания Quantcast, которая измеряет интернет-трафик на сайтах, позволяя их создателям узнавать подробнее о демографических данных посетителей, а также их предпочтениях, чтобы лучше нацеливать рекламные объявления. Компания распространяет свой интернет-инструмент бесплатно, позволяя сайтам отслеживать посещения. А взамен Quantcast может просматривать данные, и это помогает ей улучшить нацеливание.

Новые посредники заняли выгодное положение, не ставя под угрозу бизнес-модели держателей данных, с которыми сотрудничают. Одной из таких ниш является реклама, поскольку в ней сосредоточена основная часть данных и существует острая необходимость в их обработке для нацеливания рекламных объявлений. С ростом массовой датификации и по мере того, как в отраслях будет расти понимание, что они взаимодействуют с данными, независимые информационные посредники появятся и в других областях.

Посредники не обязательно являются коммерческими компаниями — среди них встречаются и некоммерческие. В 2012 году несколько крупнейших американских медицинских страховщиков создали институт Health Care Cost Institute. Их совокупный объем данных составил 5 миллиардов претензий (анонимных) от 33 миллионов физических лиц. Совместное использование записей позволило компаниям выявить тенденции, которые невозможно было бы увидеть, имея только собственные, меньшие наборы данных. Оказалось, что в 2008–2009 годах расходы США на медицинское обслуживание росли в три раза быстрее, чем инфляция, но с ярко выраженными отличиями на конкретном уровне: расходы на лечение в отделении неотложной хирургии выросли на 11%, в то время как в учреждениях сестринского ухода они, по сути, снизились. Разумеется, страховщики никогда бы не передали свои ценные данные никому, кроме некоммерческого посредника. Такие организации вызывают меньше подозрений в корыстных мотивах и могут создаваться с учетом прозрачности и подотчетности.

Множество компаний, имеющих дело с большими данными, наглядно демонстрируют, как меняется ценность информации. Собирая данные о ценах и новостях от партнерских сайтов на условиях распределения доходов, Decide.com получает комиссионные с каждой покупки на сайте, а компании, поставляющие данные, — свою часть прибыли. Это говорит об отраслевом развитии способа работы с данными, ведь в свое время ITA не получала комиссионных с данных, предоставляемых компании Farecast, — только базовый лицензионный сбор. Теперь поставщики данных могут претендовать на более привлекательные условия. Что касается следующего стартапа Орена Эциони, вполне вероятно, что он сам попытается стать поставщиком данных, поскольку ценность опыта постепенно сдает позиции в пользу идей и данных.

По мере того как ценность переходит к тем, кто управляет данными, изменяются и бизнес-модели компаний. У европейского автопроизводителя, заключившего со своим поставщиком сделку по поводу интеллектуальной собственности, была собственная сильная команда, которая занималась анализом данных, но ему пришлось обратиться за помощью к внешнему поставщику технологий. Технологическая компания получила гонорар за свою работу, но основная часть прибыли досталась автопроизводителю. Ввиду открывающихся возможностей технологическая компания изменила свою бизнес-модель таким образом, чтобы делиться с клиентами частью рисков и выгод. Она экспериментировала, работая за более низкую плату в обмен на часть выгод, полученных в результате анализа. (С большой долей вероятности можно утверждать, что в будущем поставщики автомобильных запчастей захотят добавить измерительные датчики в свою продукцию или будут настаивать на внесении пункта о технических данных в договор купли-продажи, чтобы постоянно совершенствовать комплектующие.)

Что касается компаний-посредников, их жизнь усложняется необходимостью постоянно проверять ценность данных, которыми они делятся. Компания Inrix начала собирать не только геолокационную информацию. В 2012 году она провела пробный анализ места и времени поломок автоматических тормозных систем (АТС) по запросу автопроизводителя, который разработал собственную телеметрическую систему для сбора информации в режиме реального времени. Идея состояла в том, что, если АТС многократно срабатывает на одном и том же конкретном участке дороги, возможно, это связано с опасными условиями и следует рассмотреть альтернативные маршруты. Таким образом, Inrix получила возможность рекомендовать не только кратчайший, но и самый безопасный путь.

Однако в планы автопроизводителя не входило делиться данными с другими, как в случае с информацией GPS. Он настаивал на том, чтобы развертывать системы Inrix исключительно в своих автомобилях. Как видим, не разглашать информацию об этой функции оказалось выгоднее, чем объединить ее с данными других компаний, чтобы улучшить общую точность системы. И все-таки Inrix считает, что со временем все автопроизводители увидят пользу в объединении данных. И у нее есть веские основания придерживаться такой оптимистичной позиции, поскольку бизнес Inrix (как посредника) полностью держится на доступе к нескольким источникам данных.

Компании в области больших данных экспериментируют с различными корпоративными структурами. Inrix не «наткнулась» на свою бизнес-модель, как это часто случается у стартапов, а изначально рассматривала себя как посредника. Microsoft владела важнейшими технологическими патентами, но посчитала, что небольшая независимая компания (в отличие от крупной корпорации, известной своей агрессивной тактикой) будет воспринята более спокойно, сможет примирить конкурентов и получить максимальную отдачу от своей интеллектуальной собственности. Точно так же Вашингтонский госпитальный центр, который пользовался программным обеспечением Microsoft Amalga для анализа повторных госпитализаций пациентов, знал, каким образом употребить данные: первоначально система Amalga была собственным программным обеспечением отделения неотложной хирургии госпиталя и называлась Azyxxi, но в 2006 году она была продана корпорации Microsoft для дальнейшего усовершенствования.

В 2010 году компания UPS была продана в качестве штатного подразделения по анализу данных (UPS Logistics Technologies) частной инвестиционной компании Thoma Bravo. Теперь, работая под знаменем Roadnet Technologies, она чувствует себя свободнее и может анализировать маршруты более чем одной компании. Roadnet собирает данные от многих клиентов для предоставления услуг отраслевого сопоставительного анализа как компании UPS, так и ее конкурентам. По словам Лена Кеннеди, исполнительного директора Roadnet, будучи отделом по логистике в UPS, компания ни за что не получила бы доступ к наборам данных конкурентов своей родительский компании. Но Roadnet добилась этого, став независимой: конкуренты UPS начали более охотно предоставлять свои данные. В конечном счете все выиграли от повышения точности, которое стало возможным благодаря объединению данных.

О том, что именно данные, а не навыки или образ мышления станут самыми ценными характеристиками, говорят многочисленные сделки в области больших данных. Наиболее показательный пример: в 2006 году корпорация Microsoft вознаградила Эциони за идею, выкупив Farecast примерно за 110 миллионов долларов. Однако через два года Google заплатила уже 700 миллионов за данные от поставщиков Farecast — ITA Software.

 

Обесценивание экспертов

В фильме «Человек, который изменил всё» (о том, как бейсбольная команда «Окленд Атлетикс» стала чемпионом, применив аналитику и новые типы измерений) есть замечательные сцены, в которых старые седовласые скауты, собравшись за столом, обсуждают игроков. Зритель невольно съеживается — не только потому, что сцены демонстрируют, как принимаются решения, когда под рукой нет данных, но и потому, что каждый из нас наверняка сталкивался с ситуациями, когда определенность зависела от настроения, а не от науки.

— У него фигура настоящего бейсболиста… хорошая внешность, — говорит один скаут.

— У него отличный замах. От его биты мячи взрываются. Он бьет самым концом биты, да так мощно, что звук сломанной биты разносится по всему стадиону, — вмешивается хрупкий седой старичок со слуховыми аппаратами.

— Ужасный треск. И без усилий, — подтверждает другой скаут.

Третий скаут встревает в разговор:

— У него страшная подружка.

— Ну и что? — спрашивает скаут, ведущий встречу.

— Это признак неуверенности, — констатирует скептик.

— Ясно, — довольно говорит ведущий, готовый продолжить.

После ряда шутливых перепалок в беседу вступает скаут, который до этого отмалчивался:

— У этого парня есть характер, и это очень хорошо. Он из тех парней, которых видно за версту.

Другой добавляет:

— Да, на него приятно посмотреть. Он сыграет на поле заметную роль. Ему только нужно игровое время.

— Я просто говорю, что его подружка на троечку в лучшем случае!

Эта сцена прекрасно показывает недостатки человеческих суждений. То, что считается аргументированной дискуссией, по сути, не имеет конкретных оснований. Решения о заключении договоров с игроками на миллионы долларов принимаются на основе голой интуиции, без учета объективных показателей. Да, это всего лишь кино, но в реальной жизни все бывает столь же глупо. Сцена иронична в силу своей универсальности: такие же пустые рассуждения слышны повсюду — от залов заседаний правления в Манхэттене и Овального кабинета в Белом доме до кафе и обычных кухонь.

Фильм «Человек, который изменил всё», снятый по книге Майкла Льюиса, рассказывает правдивую историю Билли Бина — генерального менеджера «Окленд Атлетикс», который отбросил вековую традицию назначения игроков в пользу математически ориентированного подхода с новой системой показателей. Статистические подходы, такие как «средний уровень», канули в прошлое. На смену им пришли на первый взгляд непривычные суждения об игре, например «процент попадания на базу». Подход, основанный на данных, показал скрытую сторону спорта, которая, как правило, ускользала от внимания за привычными атрибутами вроде арахиса и попкорна. Главное, чтобы игрок попадал на базу, и неважно, как он это делал — благодаря своей скорости или хитрости. Когда данные показали, что кража баз является неэффективной, со сцены ушел один из самых интересных, но наименее «продуктивных» элементов игры.

На фоне острой полемики Бин закрепил в руководстве метод, известный как «саберметрика» (аббревиатура англ. Society for American Baseball Research — Общество изучения американского бейсбола), который до этого не пользовался особой популярностью. Он бросил вызов догме скамейки запасных, как в свое время гелиоцентрические взгляды Галилея пошатнули авторитет католической церкви. В конечном счете этот метод дал возможность многострадальной команде Бина финишировать первой в Американской лиге сезона 2002 года, выиграв 20 игр подряд. С тех пор статистика вытеснила скаутов как крупных специалистов в спорте, а множество других команд стали усиленно перенимать саберметрику.

Подобным образом большие данные окажут существенное влияние на то, как решения, принимаемые на их основе, будут дополнять или отклонять человеческие суждения. Эксперты в предметной области и основные специалисты утратят часть своего блеска на фоне специалистов по статистике и аналитиков данных, которые не держатся за устаревшие способы ведения дел и позволяют данным «говорить». Эти новые сотрудники будут полагаться на корреляции без предубеждений и предрассудков. Точно так же Мори не принимал за чистую монету все, что умудренные опытом капитаны рассказывали о морских путях за кружкой пива в пабе. Выявляя практические истины, он полагался на объединенные данные. Метод Мори не объяснял, откуда берутся ветры и течения, но для моряков, которые ищут безопасный путь, вопрос почему был менее важен, чем что и где.

Авторитет экспертов в предметных областях ослабевает. Например, в СМИ контент, который создается и публикуется на сайтах, таких как Huffington Post и Gawker, систематически определяется данными, а не исключительно «нюхом» редакторов. Данные лучше, чем чутье опытных журналистов, показывают, что людям хотелось бы прочитать. Coursera, компания по дистанционному обучению, исследует все собираемые ею выбросы данных (например, какой раздел видеолекции студенты просматривали повторно), чтобы узнать возможные неясные или особенно интересные моменты, которые следует учесть в разработке курсов. Раньше у преподавателей не было такой возможности, но ситуация изменилась и педагогика уже не станет прежней. Как мы упоминали, Джефф Безо уволил штатных редакторов Amazon, когда данные показали, что рекомендации, выявленные алгоритмическим путем, стимулировали больше продаж.

Это означает, что навыки, необходимые для достижения успеха в работе, меняются, как и ожидания, возлагаемые на сотрудников организаций. Доктору Макгрегор, которая занимается проблемами недоношенных детей в Онтарио, не обязательно было становиться лучшим врачом в больнице или главным авторитетом в области наблюдения за беременными, чтобы добиться наилучших результатов в лечении своих пациентов. У нее даже нет медицинского образования, разве что степень доктора в области компьютерных наук. Но она поставила себе на службу данные о пациентах, собранные более чем за десятилетний период, которые обрабатываются компьютером, а затем с ее помощью преобразуются в рекомендации по лечению.

Первопроходцы, проявившие себя в сфере больших данных, нередко являются специалистами из других областей: анализа данных, искусственного интеллекта, математики или статистики, которые применяют свои навыки в определенных отраслях. По словам главного исполнительного директора Kaggle Энтони Голдблума, победители конкурсов Kaggle (интернет-платформы для проектов на основе больших данных) редко приходят из сектора, в котором достигли высоких результатов: призовое место занял британский физик, разработавший алгоритмы для прогнозирования претензий по страхованию и выявлению неисправных подержанных автомобилей. Сингапурский страховой статистик победил в конкурсе с проектом прогноза биологических реакций химических соединений. Инженеры отдела по машинному переводу Google отмечают свой успех в переводах на языки, которых никто из них не знает, а специалисты по статистике из отдела машинного перевода Microsoft шутят, что качество переводов улучшается всякий раз, когда команду покидает лингвист.

Разумеется, эксперты в предметных областях не вымрут, но они наверняка утратят свое превосходство. Теперь им придется делить свои лавры со специалистами в области больших данных, а простые корреляции потеснят величие причинно-следственных связей. Это изменит наше отношение к знаниям, ведь мы склонны считать, что люди с узкой специализацией более ценны, чем с широкой: успех сопутствует более глубокому знанию предмета. Экспертные знания, как и точность, подходят для области «малых данных», где вечно не хватает нужной информации, поэтому в поисках правильного пути приходится полагаться на интуицию и опыт. В таких условиях опыт играет важнейшую роль, поскольку только длительное накопление скрытых знаний, которые нельзя передать, вычитать в книгах или даже попросту осознать, может помочь в принятии более взвешенных решений.

Но если у вас нет ничего, кроме данных, из них тоже можно извлечь огромную пользу. Те, кто проанализирует большие данные, увидят всю иррациональность традиционного мышления в прошлом не потому, что умнее, а потому, что имеют данные. (Кроме того, будучи посторонними наблюдателями, они позволят себе оставаться беспристрастными, в то время как эксперты предвзято отстаивают позиции своей предметной области.) Это говорит о том, что ценность сотрудника для компании будет измеряться другими мерками. Изменятся знания, связи и навыки, необходимые для профессиональной деятельности.

Знания в области математики, статистики и, возможно, общее представление о программировании и сетевой науке станут столь же неотъемлемыми требованиями к современным сотрудникам, какими были математическая грамотность столетие назад и общая грамотность в более раннюю эпоху. Ценность сотрудника начнет определяться не только тесными связями с коллегами и единомышленниками, но и широким кругом отношений с людьми целого ряда других профессий, чтобы знания могли циркулировать далеко за пределами исходных областей. Когда-то, чтобы быть превосходным биологом, нужно было знать множество других специалистов в этой сфере. В этом смысле не многое изменилось. Но теперь, когда большие данные приобрели большое влияние, важна не только глубина опыта в предметной области. Сложную биологическую задачу можно успешно решить и при помощи астрофизика или дизайнера в области визуализации данных.

Видеоигры — одна из отраслей, где «лейтенанты» больших данных уже пробили себе путь локтями, чтобы встать в ряд с «генералами» экспертных знаний, попутно преобразуя саму отрасль. Рыночный сектор видеоигр ежегодно получает 10 миллиардов долларов прибыли, что превышает кассовые сборы Голливуда. Раньше компания разрабатывала игру, выпускала ее на рынок и надеялась, что та станет хитом. На основе данных о продажах компания готовила продолжение или начинала новый проект. Решения относительно темпа и элементов игры (таких как персонажи, сюжет, объекты, события и пр.) зависели от творческой фантазии дизайнеров, которые относились к своей работе с такой же серьезностью, как Микеланджело расписывал Сикстинскую капеллу. Это было искусство, а не наука, мир догадок и интуиции, как у скаутов из фильма «Человек, который изменил всё».

Но эти времена прошли. FarmVille, FrontierVille, FishVille компании Zynga и другие онлайн-игры являются интерактивными. Очевидно, это позволяет Zynga просматривать данные об использовании игр и вносить изменения, руководствуясь реальным опытом игроков. Поэтому, если игроки с трудом переходят с одного уровня на другой или склонны забрасывать игру в определенный момент из-за скуки, специалисты Zynga заметят это по данным и предпримут соответствующие меры. Менее бросается в глаза то, что компания адаптирует игры под особенности отдельных игроков. Так что существует не одна версия FarmVille — их сотни.

Аналитики больших данных в компании изучают, как на увеличение продаж виртуальных товаров влияет их цвет или выбор друзей. Например, когда данные показали, что игроки FishVille покупают полупрозрачных рыб в шесть раз чаще, чем остальных существ, компания Zynga предложила дополнительные разновидности таких рыб и хорошо на этом заработала. В игре Mafia Wars обнаружилось, что игроки охотнее всего покупают оружие с золотой каймой и белоснежных домашних тигров. Вряд ли разработчики игр, находящиеся в студии, узнали бы об этом сами. Это им подсказали данные. «Мы аналитическая компания, которая работает под видом игровой. Здесь всем заправляют числа», — говорит Кен Рудин, главный аналитик Zynga.

Происходит переход на решения, принимаемые на основе данных. Большинство людей приходят к решению, исходя из фактов, рассуждений и, пожалуй, во многом — догадок. «Буйство субъективных точек зрения возникает из ощущений в области солнечного сплетения», — говорится в памятных строках поэта Уистена Одена. Томас Дэвенпорт, бизнес-профессор в Бэбсон-колледже, Массачусетс, и автор многочисленных книг по аналитике, называет это явление «золотым нутром». Руководителям придает уверенность их внутреннее чутье, на которое они и полагаются. Но и здесь не обошлось без изменений: управленческие решения принимаются (или по крайней мере подтверждаются) прогнозным моделированием и анализом больших данных.

The-Numbers.com на основе баз данных и внушительного математического аппарата сообщает независимым голливудским продюсерам вероятный доход от того или иного фильма задолго до того, как отснят первый дубль. База данных компании обрабатывает около 30 миллионов записей о каждом коммерческом кинофильме США за последние десятилетия. Записи содержат сведения о бюджете, жанре, актерском составе, съемочной группе, наградах, доходах (включая американские и международные кассовые сборы, зарубежные права, продажу и аренду видеозаписей) и не только. «Компания разработала карту сети из миллиона взаимосвязей, таких как “этот сценарист работал с этим режиссером; этот режиссер работал с этим актером”», — объясняет основатель и президент компании Брюс Нэш.

The-Numbers.com умеет находить сложные корреляции, которые предсказывают доход от кинопроектов. Продюсеры предоставляют эту информацию студиям и инвесторам, чтобы получить финансовую поддержку. Повозившись с переменными, компания даже может подсказать клиентам, как увеличить их доход (или свести к минимуму финансовые риски). В одном случае анализ показал, что проект будет иметь больше шансов на успех, если в главной мужской роли снимется актер «А-списка», номинированный на премию «Оскар», с гонораром в 5 миллионов долларов. В другом случае Нэш сообщил студии IMAX, что их проект окупится, только если его бюджет урезать с 12 до 8 миллионов долларов. «Это буквально осчастливило продюсера, чего не скажешь о кинорежиссере», — поделился Нэш.

Таким образом, вырисовывается определенный переход в принятии корпоративных решений (например, стоит ли снимать тот или иной фильм или с каким бейсболистом подписать контракт). Эрик Бриньолфссон, бизнес-профессор Массачусетского технологического института, и его коллеги сравнили показатели тех компаний, которые преуспели в принятии решений на основе данных, и тех, кто не придал этому подходу особого значения. Обнаружилось, что уровень производительности в таких компаниях на 6% выше, чем у тех, кто, принимая решения, не опирается на данные. Такой подход дает значительное преимущество, хотя и кратковременное, поскольку все больше компаний применяют в своей практике подходы на основе больших данных.

 

Вопрос полезности

Благодаря тому что большие данные для многих компаний превращаются в источник конкурентного преимущества, изменится структура целых отраслей. Однако награды распределятся неравномерно. В выигрыше останутся крупные и мелкие компании, потеснив остальных.

Крупнейшие игроки, такие как Amazon и Google, продолжат расти. Но, в отличие от индустриальной эпохи, их конкурентное преимущество будет опираться на физические масштабы. Огромная техническая инфраструктура их центров обработки данных, несомненно, важная, но не самая значительная характеристика: ресурсы для цифрового хранения и обработки данных можно недорого арендовать всего за несколько минут. Компании могут регулировать необходимое количество вычислительной мощности на основе фактического спроса, тем самым превращая в переменную стоимость то, что раньше считалось фиксированной. Это подрывает преимущества масштаба на основе технической инфраструктуры, которым уже давно пользуются крупные компании.

Масштаб все еще имеет значение, но его фокус сместился. Теперь важен масштаб данных. Под ним подразумевается наличие больших пулов данных и возможность легко получать еще больше. Таким образом, крупные держатели данных будут процветать, собирая и храня больше «сырых» материалов о своей деятельности, из которых можно извлечь выгоду при повторном использовании.

Задача победителей в области малых данных, равно как и «чемпионов», ведущих свою деятельность вне интернета (например, Walmart, FedEx, Proctor & Gamble, Nestle, Boeing и пр.), состоит в том, чтобы высоко ценить силу больших данных, а также стратегически подходить к сбору и анализу информации. И начинающие, и проверенные временем компании стараются занять в новых бизнес-областях положение, которое позволило бы им записывать огромные потоки данных. Пример тому — «набеги» Apple на мобильные телефоны. До появления iPhone мобильные операторы успели накопить потенциально ценные сведения об абонентах, но не сумели извлечь из них выгоду. Компания Apple, напротив, потребовала указать в своих договорах с операторами, что ей достанется большая часть наиболее полезной информации. Собирая данные от десятков операторов по всему миру, Apple получает гораздо более полную картину использования мобильных телефонов, чем любой из операторов сотовой связи. Масштабное преимущество Apple основано на данных, а не на материальных ресурсах.

Большие данные открывают захватывающие возможности для всех. Умные и проворные мелкие игроки извлекут преимущества «масштаба без нагромождений» (цитируя знаменитую фразу профессора Бриньолфссона). Они обеспечат себе большое виртуальное присутствие при незначительных материальных ресурсах, а также широко внедрят инновационные решения при небольших затратах. И, что немаловажно, лучшие службы по обработке больших данных основаны прежде всего на инновационных идеях, а потому не обязательно требуют больших начальных инвестиций. Данные можно лицензировать, а не приобретать, проводить анализ на недорогих «облачных» платформах, а расходы на лицензирование покрывать за счет процента от получаемых доходов.

Вполне вероятно, что все это касается не только пользователей данных, но и держателей, которые могут добавить к своим запасам данных веские преимущества (ведь более существенную выгоду обеспечивает только добавочная себестоимость). Во-первых, у держателей данных уже есть инфраструктура для хранения и обработки информации. Во-вторых, объединение наборов данных придает им особое значение. И, наконец, наличие интернет-магазина для получения данных значительно упрощает жизнь пользователей. Более того, может возникнуть радикально новый тип держателей данных — частные лица. Поскольку ценность данных становится все более очевидной, держатели информации, имеющей к ним отношение (включая данные об их покупательских вкусах, предпочитаемых СМИ, о состоянии здоровья и пр.), окажутся в выигрышном положении.

И тогда потребители получат возможности, о которых и не мечтали. Отдельные лица смогут выбирать, кому лицензировать данные и на каких условиях. Конечно, кто-то начнет заламывать цены. А многие наверняка согласятся на повторное использование их данных бесплатно в обмен на лучшее обслуживание (например, точные рекомендации книг на сайте Amazon). Но для массы подкованных в цифровом плане пользователей идея маркетинга и продажи личной информации может стать столь же естественной, как ведение блога, публикация твитов или редактирование статей Википедии.

Для такого развития событий мало изменения взглядов и предпочтений пользователей. В настоящее время лицензирование личных данных было бы слишком трудоемким и дорогостоящим процессом и для пользователей, и для компаний с точки зрения заключения отдельных сделок с каждым из них. Скорее всего, появятся новые посредники, которые будут объединять данные многих пользователей и обеспечивать простой способ лицензирования данных, автоматизируя все операции. При достаточно низких затратах и доверии пользователей к таким посредникам, возможно, сформируется рынок личных данных, а частные лица станут успешными держателями данных. Такие группы, как ID3, одним из основателей которой является Сэнди Пентлэнд — гуру аналитики личных данных в MIT Media Lab, уже работают над тем, чтобы превратить эту фантазию в реальность.

Пока нет таких посредников и их первых клиентов, пользователи, желающие стать держателями собственных данных, имеют очень скромные возможности. А для того чтобы не утратить их, прежде чем появятся посредники и инфраструктура для преуспевания частных держателей данных, пользователям имеет смысл раскрывать как можно меньше информации.

Для средних компаний большие данные не имеют весомого значения. «Преимущество крупных компаний — в их масштабе, а малых и проворных — в их расходах и инновациях», — утверждает Филип Эванс из Boston Consulting Group, отличающийся прозорливостью в области технологий и бизнеса. Средние компании в традиционных секторах выживают благодаря своему размеру, который обеспечивает преимущества масштаба, но при этом достаточно компактен, чтобы не утратить гибкости, которой нет у крупных игроков. В мире больших данных нет минимального масштаба, по достижении которого компании придется вкладывать средства в производственную инфраструктуру. Пользователи больших данных, которые хотят преуспевать, но при этом оставаться гибкими, обнаружат, что им больше не нужно достигать порогового размера — можно благополучно процветать и при небольшом (или стать частью гиганта в области больших данных).

Большие данные вытесняют средние компании отрасли, заставляя их изменить масштаб (стать крупнее или меньше, но проворнее) или свернуть работу. Многие традиционные секторы — от сферы финансовых услуг до производства фармацевтических препаратов — перейдут на использование больших данных. Это не приведет к исчезновению всех средних компаний во всех секторах, но, безусловно, окажет давление на компании в секторах, особенно склонных к внедрению анализа больших данных.

Большие данные коренным образом изменят конкурентные преимущества стран. В период изобилия инноваций, когда производство по большей части переместилось в развивающиеся страны, преимущество промышленно развитых стран состоит в том, что они располагают данными и знают, как их применить. Плохая новость: это преимущество не вечно. Когда остальные страны мира сумеют перенять эти технологии, как уже внедрили компьютерные вычисления и интернет, Запад утратит лидерство в области больших данных. Хорошая новость для энтузиастов из развитых стран: большие данные, скорее всего, усилят как сильные, так и слабые стороны компаний. Поэтому те, кто освоил работу с большими данными, смогут не только превзойти конкурентов, но и расширить сферу влияния.

Гонка за лидерство началась. Каждая компания может извлечь пользу из данных, действуя с умом. Так, поисковые алгоритмы Google учитывают выбросы данных пользователей для повышения качества результатов, а немецкий поставщик автомобильных запчастей на основе данных совершенствует свои комплектующие. Информация дает компаниям возможность не только оптимизировать имеющиеся продукты и услуги, но и создавать новые.

Несмотря на радужные перспективы, есть причины для беспокойства. Большие данные обеспечивают все более точные прогнозы об окружающем мире и нашей роли в нем. Мы можем оказаться не готовы к влиянию этих прогнозов на нашу частную жизнь и принятие решений, ведь наши мировоззрение и структура учреждений формировались в условиях дефицита, а не избытка информации. В следующей главе мы прольем свет на темную сторону больших данных.