Марсианские диалекты
Или еще нет?
Регулярно данные обсуждаются на сложных конференциях, где популярные компании собирают под своими тентами от дождя пару тысяч молодых людей, размещают роботов и плюшевые пуфики, предлагают даже сыграть в игру с ботом, чтобы посетители могли поучаствовать в машинном обучении. Происходит это примерно так: за ограниченное количество ходов игроку необходимо как можно быстрее споить девушку-робота.
В общем, кто чем пытается покорить свою аудиторию, рассказывая о работе сервисов с данными. Вот только ни у кого нет единой картины.
Одни компании говорят про конфиденциальность, другие – про машинное обучение, перечислять можно бесконечно. Есть даже гипотеза о том, что общая картина больше никому не нужна.
«Как это не нужна?» – спросите вы и поспешите на ее поиски.
Выйдете вы из зоны комфорта, пройдетесь по ключевым конференциям, связанным с данными, прочтете статейки известных умных авторов, но все равно толком ничего не соберется вместе.
Чтобы погрузиться в эту тему, надо взять лопату и копать, копать, копать: по кусочкам собирать смыслы, общаться с разными людьми. Администраторы баз данных могут рассказать вам о том, как настраивать кластеры, а ребята, которые копаются в аналитике, помогут разобрать общую логику процесса.
Только вот почему-то каждый эксперт понимает один и тот же термин по-своему. Будто люди строили Вавилонскую башню из данных, чтобы достучаться до небес, а в конце концов все равно заговорили на разных языках, как написано в Ветхом завете. И эти эксперты вкладывают в, казалось бы, обычные слова, какое-то свое понимание, близкое только им.
Конечно, всех бы мог спасти робот-переводчик, который знает тридцать три наречия межпланетных иезуитов. Но, боюсь, пока его функционал не вырос до такого уровня, придется прикидываться оленеводами, которые впервые услышали о Больших данных. Надо признать, что в некоторых историях мне пришлось разбираться прям с самого что ни на есть нуля, так что расслабьтесь и получайте удовольствие. Будет весело!
А начнем с того, что познакомимся с народом.
#1
Есть такие важные и бессмертные инженеры по машинному обучению. Задача их проста – проектировать логику и обучать алгоритмы, известные как нейронные сети, заводя в них все новые и новые данные. Если спросить этих инженеров о чем-нибудь другом из области данных, то в большинстве случаев они понятия не будут иметь, о чем их спрашивают – например, кто такие дата-стюарды?
#2
Дата-стюарды и инженеры качества данных – это такие человечки, которые все правят, чинят и спасают, как Мастер Феликс-младший из игры Fix-It Felix Jr, по ней еще несколько лет назад сняли мультфильм «Ральф». Миссия стюардов и инженеров велика и необъятна. В данных всегда происходит переполох, и нужны те самые бравые ребята, которые прибегут со словами «я починю!». Они измеряют искажения в данных и исправляют те самые ошибки, которые допускают пользователи, работая с информацией.
Если спросить у них, в чем роль инженеров по машинному обучению и почему они вообще так называются, то, очень вероятно, что ответа мы не получим. И это нормально.
Разные бригады экспертов занимаются разной работой.
#3
Архитекторы и аналитики данных – это олицетворение разума. Они опираются на различные правила и методологию, чтобы структурировать данные внутри организации. Например, вместо обозначения таблички «N45» они напишут какое-нибудь гордое «Контрагент» и определят, что в этой табличке должна содержаться информация, касающаяся только контрагента, – например «ИМЯ» / «НАЗВАНИЕ», «ПАСПОРТ» / номер регистрации компании и так далее.
Суть архитекторов и аналитиков – стандартизировать взаимоотношения пользователей с данными и сделать самое главное: навести в этих данных порядок.
Результаты работы этих незаурядных личностей влияют через данные на управление организациями. По-умному их называют data-driven организациями. Они бывают разных типов и устроены все по-разному, но описать data-driven организации или отличить их друг от друга сможет далеко не каждый из описанных специалистов. И это еще один большой вызов.
Разные профессии работы с данными разговаривают на разных языках и формируют собой организации нового типа, где люди не имеют единого представления о том, как ими управлять. Вопрос «чем отличается data-driven организация от data-informed организации?» введет в дичайший ступор не только читателя, но и экспертов, которые работают с данными каждый день.
Перспектива восприятия нового во многом касается наличия практических навыков. Конечно, сегодня мало кто из экспертов имеет руководящий опыт и был тем самым директором по данным, который пытался изменить мир, запуская трансформационные процессы в своей организации для того, чтобы повысить значение использования данных. Это прерогатива людей, которые стоят у руля, а они обычно не разбираются в технике, считая, что она не влияет на принимаемые с точки зрения развития бизнеса решения.
А это все не так. Свойства информационной среды, которые заложены в ней при ее проектировании, оказывают непосредственное влияние на объем и качество принимаемых решений в этой среде.
Когда люди учатся писать на таком языке программирования как Python, им не рассказывают, какие фреймворки проектирования хранилища данных существуют, и что работает, а что уже устарело. Не важно, откуда специалист, интересует его бизнес или IT, картина везде одна.
Получается, что знание сегментировано, утрировано и преподносится как тайное сокровище, хотя это не так.
Даже разработка на Python проста и похожа на обыкновенную разработку макросов в Excel.
Разбирая управленческие вопросы в организации, в части управления данными, стоит отметить самое важное и, наверное, самое главное. Гештальт, где должно определиться место функции управления данными или так называемого «директора по данным», до сих пор не закрыт и полон споров и противоречий.
IT-сфера активно определяет себя как поставщика данных и, соответственно, хочет играть в них ключевую роль, хотя большинство директоров в IT-сфере понятия не имеют, как правильно проектировать хранилища данных или функцию управления ими. Все ждут постановки от бизнес-подразделений.
Но сейчас ситуация, конечно, намного лучше, чем несколько лет назад, когда бюджеты заливались в бессмысленные проекты, обреченные на смерть еще в пубертатном периоде использования технологии. Тогда пожилые дядечки в возрасте, которые рулили IT-департаментами, с большой долей вероятности были поклонниками Билла Инмона (автора первой книги по созданию хранилища данных) или Ральфа Кимбалла (антагониста Билла). Конечно, согласия между этими концептами мало, и все споры всегда превращаются в дедовские войны на лазерных мечах. Причем, у них разное мнение даже на счет того, как и какими инструментами правильно обрабатывать данные в этих хранилищах.
Например, основной подход – это обрабатывать данные по расписанию, используя специальные инструменты – программы (ETL или ELT) для этой задачи.
Современные эксперты запустили уже свою собственную религию о том, как правильно использовать данные и собирать их в специальную штуку под названием Data Lake. Некоторые из этих экспертов пошли так далеко, что даже отказались от привычных инструментов обработки данных (ETL или ELT), заменив их малопонятной парадигмой, – разбивая все алгоритмы обработки на одинаковые шаги и превращая эти шаги в отдельные программы (сервисы) для создания сложных алгоритмов обработки данных.
Я вам скажу так: все, что можно было когда-либо сделать в Больших данных и машинном обучении – уже сделано. Теперь нужно просто брать существующие методы и сервисы и показывать им новые данные, обучая тем самым алгоритмы адаптироваться.
Перевожу на отечественный. Все, что осталось большинству специалистов – это участвовать в решении только одной задачи, загружать все больше данных для обучения уже существующих алгоритмов. Так ли это? Еще разберемся. Но такие мировые компании как Gartner, уже признают, что роль человека в кооперации с искусственным интеллектом отходит на задний план: необходимо предоставить искусственному интеллекту возможность учиться решать ежедневные задачи. Называется этот подход Augmented Intelligence.
В этой книге вместе представлены различные подходы и методы, которые в совокупности с заумной точкой зрения ведут читателя по новым путям работы с данными. Разобщенность терминологии и понятий, собственно, и подтолкнула меня к идее описать практический опыт тех решений, которые можно использовать для получения практического результата. Это должно помочь определить и выявить новые перспективы в работе с данными, чтобы освоить те дальние рубежи экономики, куда еще не проникла цифровизация.
Что же это все-таки такое и откуда взялось?
Начну со сложного. Понятие Big Data – это такое облако тегов, которое имеет несколько измерений, то есть зависит от ракурса, с которого смотрят.
Пространство координат, благодаря которым можно легко разобраться в том, что такое Big Data, постоянно меняется, создавая отдельные группы понятий, практически не связанных друг с другом. Трудно представить, да?
В Интернете есть известный мем о том, что в одном сперматозоиде содержится 37,5 мегабайт информации ДНК. А в результате генерального «салюта» выдается порядка 1500 терабайт.
К слову, в 2013 году мне удалось стать участником крупнейшего внедрения в банковском секторе размером в 51 терабайт. Я внедрял хранилище данных Vertica от Hewlett-Packard. Когда моя команда поместила все транзакции одного крупного банка в это хранилище, у нас получилось немногим больше десяти терабайт. А тут почти в 30 раз больше. В 30!
Так что самые «большие» данные еще впереди.
А теперь просто. Понятие Big Data можно сравнить с термином «инди-рок», который появился в 80-х годах. Так называли стиль, напоминающий гаражный рок или брит-поп, который играли группы в колледжах или университетах. Благодаря журналистам этот термин обрел множество значений, трактовок и представлений, поэтому инди-роком все стали называть любой стиль музыки, который хотя бы издалека напоминал Oasis, Blur и другие подобные группы.
К чему это? Любую активность, которую я считаю хоть как-то связанной с жизненным циклом данных, я называю Big Data.
Когда понятие попадает в мейнстрим, оно становится #хэштегом, который позволяет привлекать общественное внимание. Да всем плевать на смысл этого хэштега, главное – чтобы было прикольно.
Это происходит, например, потому, что большинство журналистов и копирайтеров не понимают, с чем они столкнулись, что это за технология, и как она будет вести себя дальше. Никого особо не парит, как ее назвать.
Прямо как в издательствах. Это ведь прикольно. Ты пишешь книгу, а ее вычитывает редактор, который не понимает, что это такое.
Однажды мне рассказали историю о том, как один высокопоставленный чиновник участвовал в реализации законопроекта в области платежей, но сам при этом ни разу в жизни не сделал ни одного банковского перевода. С Big Data так же.
Лет десять назад термин Big Data воспринимался исключительно как инфраструктурный – под ним понимался специальный класс баз данных, которые позволяли быстро обрабатывать большие объемы информации. То есть, Big Data называлась просто категория железок (серверов), которые умели выполнять определенные вычисления.
Зачем они были нужны? Затем, что обычные железки не умели работать с большим количеством записей. Им было сложно. Памяти не хватало, процессоры грелись, пыхтели бедняги, а скорость расчетов оставляла желать лучшего. Железяки или сервера категории Big Data позволяли решить эту проблему. Потом придумали, что дело вовсе не в железяках, и что можно создавать программное обеспечение («софт»), которое будет работать на самых обычных настольных компьютерах, объединенных в единые узлы. Такие конструкции могли работать параллельно над конкретной задачей из области обработки данных. По-научному их называли «программными комплексами» и «кластерами».
Аудиофайлы, изображения, сложные и слабоструктурированные файлики в то время мало обрабатывались. Существовало сильное ограничение по их исследованию. Для них также требовалось специальное программное обеспечение, а у обычных баз данных не было возможности быстро провести анализ.
Технологии очень быстро эволюционировали. В какой-то момент на смену традиционному понятию Big Data пришел еще один новый термин – Smart Data. Он означал, что «Умные данные» – это сигнал, а «Большие данные» – шум. Таким образом появилась парадигма, разделяющая методы анализа: исследования «шумов» и выявления «сигналов».
За какие-то двадцать лет мир тряхануло так, что он перешел от рынка, где нельзя было купить данные интернет-трафика со «следами», оставленными пользователями, к рынку, где любые данные можно достать в любой момент.
И все бы ничего, но мир перевернулся с ног на голову. Данных стало так много, что их внезапно начали регулировать. Беспощадно и беспристрастно.
Одним из первых пострадал банковский сектор. Все процессы и продукты пришлось пересматривать, потому что теперь даже для кредитного решения банк не может купить данные у кредитного бюро, чтобы проверить потенциального заемщика без его согласия.
В 2018 году появилось регулирование GDPR в Европе. Оно стало настолько жестким, что банки вынуждены были остановить привычные процессы привлечения клиентов в Интернете.
Конечно, если смотреть на все со стороны, то трансформация, которая произошла, – колоссальна. Только представьте, раньше данными занимались где-то внутри IT, в специальных операционных хранилищах (еще они называются ODS), дешево и сердито эти данные сваливались в одну кучу из разных источников. Но теперь мир перешел на новую стадию, данные – это новая нефть, из данных начали строить большой бизнес.
Новые технологии неизбежно приведут человечество к изменению мышления. Об этом уже писали эксперты, анализирующие влияние изучения другого языка на мышление человека. Новые технологии – это еще и переход к новой терминологии, который повлечет за собой новую форму организации взаимодействия потребителей и компаний. А она еще не выработана. Это значит, что данные как актив еще не имеют своей утвержденной и принятой формы по ведению бизнеса.
Поэтому теперь термин Big Data, скорее, отражает новую модель зрелости бизнеса, общества и государства, он больше не является просто олицетворением технологий хранения данных. Сегодня Big Data подразумевает, что пользователь понимает, как быстро и легально обработать информацию, и как ее структурировать таким образом, чтобы результаты этой работы были понятны окружающим.
Постинформационное общество
[4]
Взрывной рост технологий использования данных приблизил человечество к новой модели своей работы – постинформационному обществу.
Звучит слишком заумно? Вообще префикс «пост» уже много где используется: постистория, постмодернизм, постиндустриальное общество и так далее.
Смысл постинформационного общества в том, что полезные знания среди разнообразной информации теперь могут находить алгоритмы, а не люди, которые их спроектировали.
Ну, то есть, учась в школе, ребенок может решать домашнюю работу вместе с алгоритмами, а не с родителями.
А еще с алгоритмами можно анализировать диагнозы множества пациентов или симптомов одновременно, не полагаясь на человеческую экспертизу.
Это реально?
Ага. Google со своим умным «движком» TensorFlow или Яндекс с CatBoost сделали возможным создание уникальных сервисов с использованием данных в домашних условиях (без каких-либо специальных лабораторий).
И чем больше мы используем алгоритмы, тем больше они учатся. Это можно гордо назвать демократизацией – когда всем понемногу достается кусочек счастья.
Демократизация технологий запустила новые процессы по унификации роли человека в процессах обработки, управления данными и развития искусственного интеллекта. Ручной труд стал больше не нужен. Всякие сверки и контроли – работа, которую теперь можно поручать алгоритмам, и они, в отличие от человека, умеют справляться с ней без ошибок.
Даже последний рубеж, которые машины взять никак не могли – тоже покорился. За несколько лет алгоритмы смогли освоить решение ранее сложных творческих и коллаборативных задач. Причем, этот рывок невозможно было спрогнозировать еще пять лет назад.
Такие системы как Alexa, Siri, Алиса и другие, ускоренными темпами захватывают рынок персональных ассистентов.
В 2015 году эксперты даже в своих самых смелых ожиданиях не могли сойтись в том, что алгоритмы смогут пройти этот рубеж всего лишь через год.
Сегодня есть ощущение, что близится еще один большой рывок, и он может произойти в ближайшие несколько лет.
По одной из гипотез им станет трансформация работы с данными для производств. Тогда собираемая информация будет использоваться с целью анализа и выявления аномалий операционного цикла производства, упрощая управление конвейером, будь это надой молока с установленными датчиками на коровах или завод по производству металлической продукции. Я говорю о едином управлении жизненным циклом продукта или услуги, например – локомотива. Компании взаправду разрабатывают единую концепцию жизненного цикла локомотивов и цифровизации депо. Это уже происходит в России.
Создание подобных центров управления предприятиями сегодня не имеет технологических барьеров, проблема исключительно в кооперации участников. Решив ее, мир откроет невообразимую возможность создания адаптивной экономики, когда плановые значения заменяются на стандартные нормы производства, которые высчитывают алгоритмы в зависимости от множества факторов.
Но большинство людей все еще мыслит устаревшими категориями.
Для людей, проработавших много лет на производствах, все кажется достаточно понятным и простым. Сначала рисуешь и проектируешь с инженерами деталь, потом готовишь документацию, где прописываешь, как эту деталь обслуживать, потом производишь и, наконец, обслуживаешь.
Казалось бы, все цели ясны, все пути определены – вперед, товарищи!
А на деле все сложнее. Упомянутый выше локомотив может быть старой развалиной без документации. И вот тут людям приходится креативить. Иными словами, инженеры пытаются решить проблему на месте, прямо в депо. Таких примеров много. Что это означает? Только то, что привычного конвейера, который придумал в свое время Генри Форд, больше не существует. Признать это сложно.
Людям хочется верить, что всем можно управлять, а если запустить какой-нибудь сверхмасштабный проект, то вообще получится все вокруг цифровизировать и изменить. Потоки данных будут передаваться от производства к другим участникам рынка, например к страховой компании, которая будет выписывать страховой продукт, используя данные без выезда специалистов.
Страховая премия в этом случае может быть ниже рынка как минимум на десять процентов, при этом сам продукт будет более маржинален для страхового бизнеса, так как начнет использовать более точную оценку наступления риска, построенную на данных. Аналогичные продукты с использованием данных может предоставлять банковский сектор. Все соединится в единую экосистему обработки информации и извлечения из нее ценности.
Захватывает, не так ли?
Но на практике никакие масштабные программы не работают, потому они медленные и не говорят на одном языке с технологией.
Государство, как и бизнес, тоже движется в сторону повышения роли данных. Но как сравнить, где находится государство с точки зрения роли Больших данных?
В 1965 году ООН ввел разделение на развивающие рынки и развитые страны.
Не важно, что это разделение уже не работает – его опроверг Ханс Рослинг. Важно, что была попытка предложить систему оценки для сравнения экономического развития стран.
Сейчас, конечно, в национальном плане, единых критериев оценок до сих пор не выработано, хотя каждый малозначимый институт развития пытается предложить свою модель оценки для Больших данных. Короче, не понятно, кто где находится и куда идет.
Например, модель зрелости цифрового государства исследовательской компании Gartner, предполагает пять ступеней зрелости, где data-centric государство – это третья средняя ступень в развитии, этап, когда власть понимает, какие данные есть, когда она отладила процессы их получения и управления качеством.
Россия сегодня успешно завершает переход с первой ступени (E-Gov) на вторую – когда для создания новых информационных сервисов федеральные и муниципальные органы власти предоставляют возможность получения открытых данных, хранящихся в государственных учреждениях. Но сами данные еще разрознены, некачественны, и, по сути, пользоваться ими пока что нельзя.
В Министерстве цифрового развития один из важнейших проектов – создание платформы управления классификаторами (для статистики), когда бизнес и общество могут стать основными источниками данных друг для друга. В идеале разработка платформы может устранить разобщенность классификации, например, номенклатуры товаров. Представьте себе, что больше не надо заполнять никакие накладные, таможенные декларации и прочие бумаги, весь товар регистрируется при производстве и отслеживается. Можно забыть про бумагу.
Единые классификаторы товарных позиций позволяют существенно упростить взаимодействие между несколькими торговыми рынками. В какой-то момент классификаторы позволят создать между ними уникальные зоны свободной торговли. Допустим, что вы приехали в аэропорт и идете через «зеленый коридор», вас никто не трогает, а рядом, в «красном коридоре», происходит принудительный досмотр вещей. Мысленно вы улыбаетесь, радуетесь тому, что вас там нет. Представьте, что таким может быть производство, банкинг, страхование и торговля.
Помимо бизнеса или государства, конечно же, данные сами по себе точно так же оказывают непосредственное влияние на рядового пользователя, например, упрощая процедуру идентификации и получения тех или иных сервисов, в том числе и финансовых. Так, можно удаленно открыть банковский счет, используя только биометрические данные и информацию из учетной записи в государственных системах. Вот вам и опять какие-то новые интерфейсы, которые уже вроде как работают. Пора в них разобраться.
В мире давно существует множество платформ, таких как id.me, tupas, bank.id и других, позволяющих использовать единую учетную запись без необходимости хранить десятки паролей.
Эти платформы формируют будущее цифровой идентичности.
С другой стороны, новое общество, которое уже десятилетием пользуется социальными сетями, электронной почтой и мессенджерами, обзавелось уникальными артефактами и привычками, которых нет как в настоящей жизни, так и в юридической практике.
Такие понятия как «лайк», «репост», «шер», «трансляция», оказывают большее влияние на пользователей, чем пощечина. Из-за лайков люди ссорятся, расходятся или строят целые бизнес модели.
Появилось такое явление как «цифровое рабство» которое стало следствием того, что данные пользователей не принадлежат им самим. Во многом это помогло цифровым платформам проектироваться без учета общественного диалога. Но парадокс в том, что такой диалог был невозможен на момент зарождения таких платформ ввиду отсутствия пользовательского опыта по использованию данных у самого общества. Соответственно, нас будут ждать еще и этические дилеммы в отношении тех или иных данных.
Сегодня общество уже переживает рефлексию о том, что такое «хорошо» и что такое «плохо» в отношении своих данных. Что делать можно, а что делать не нужно, даже если это явно не запрещено законом, еще предстоит определить. Определение этой границы в использовании данных откроется в самое ближайшее время.
Необходимо разобраться в совершенно новых явлениях, в том числе таких, как «цифровое бессмертие».
Кто и как может пользоваться данными, если пользователя больше нет среди живых? Стоит ли оставлять его «цифровые следы» во всемирной паутине?
В 2015 году в сети Facebook насчитывалось более пяти миллионов аккаунтов (страниц) людей, которые умерли. Вот вам так называемые цифровые памятники и реквиемы.
В нашей стране, если в табличку с персональными данными добавить отдельное новое поле «дата смерти» и заполнить его, то такие данные перестанут быть персональными по действующему закону. Они более вне законодательного поля.
Или другой случай. Номер мобильного телефона сам по себе не является персональными данными и не защищен законом о персональных данных. Интересно, не правда ли?
С точки зрения регулирования в России сегодня есть базовый минимум по защите информации и прав пользователей, но как это законодательство реально работает по отношению к данным, предстоит открыть каждому индивидуально.
В развитом бизнесе количество информационных систем, хранящих данные пользователей, может исчисляться десятками, а порой и сотнями. Даже если в соответствии с законодательством рядовой пользователь напишет в компанию, которая обрабатывает его персональные данные, обращение с просьбой удалить их и реализовать свое законное право на «забвение», компания не сможет полностью удалить или обезличить данные пользователя в своих системах. Во многом это произойдет из-за недостаточной развитости процессов и решений управления данными, ведь пользовательские данные в большинстве случае разбросаны по системам, не имеющим единой красной кнопки, которая бы могла все замаскировать.
Но существуют и исключения. Например, решение от команды HumanFactorLabs позволяет объединить и связать различные образы, копии и образцы данных о потребителе, клиенте или организации в разных системах, что в нужный момент позволит реализовать право на «забвение» посредством отдельного сервиса.
Регулирование данных в России представляет собой разобщенный процесс, по которому нет единого координирующего органа. Если мы вернемся к праву на «забвение», то существующая статистика обращений в России и за рубежом показывает, что большая часть исков пока проигрывается, да и количество обращений потребителей с исками невелико. Но переломный момент рано или поздно наступит.
Начиная с 2015 года все налоговые агенты стали обязаны указывать в сопроводительных справках при удержании налога информацию об идентификационном номере налогоплательщика (ИНН).
Для справки: организация является налоговым агентом, если платит за кого-то налоги как, скажем, работодатель, который платит за своего сотрудника налог на прибыль, или банк, который удерживает налог, если привлекает депозиты по высокой ставке или решил списать часть задолженности.
Ситуация усложнилась тем, что для финансовых организаций поле «ИНН» не являлось обязательным при выдаче банковского продукта (кредита или депозита). Добавление нового поля требовало организовать доработку всех ключевых банковских систем.
Непредоставление такой информации в Федеральную налоговую службу могло повлечь за собой возможность наложения штрафа на налогового агента в сумме от двухсот тысяч рублей за одну запись. Сумма штрафа в пятьдесят миллионов рублей становилась существенной для ведения бизнеса с данными клиентов.
Таким образом, данные помимо возможности монетизации приводят организацию к риску получения внепланового расхода. Подход для работы с ними усложняется, требуются новые инструменты, новые профессии и новые правила работы с данными.
Данные – это актив, новая нефть, которая еще не имеет всех необходимых дефиниций по правильности или этичности использования.
Кругом только косяки и сложности. Чтобы понимать многообразие всех этих связей, которые появились, нужно обладать определенными навыками работы с данными как с точки зрения технологии, так и с точки зрения буквы закона.
Хочу упомянуть моего друга, Джозефа Маклеода. Он был когда-то UX дизайнером Nokia и является автором концепции Off-boarding. Согласно его парадигме, пользователи в цифровой среде ведут себя уже не так, как на индустриальном рынке. Они перестали бесконечно потреблять.
Информации вокруг стало так много, что внимание пользователей научилось чаще переключаться. Пользователям больше не нужно то, что им предлагали обычно. Капитализм в привычной форме отступает. Жизненный цикл потребителя теперь должен не только уверенно начинаться и поддерживаться, но и завершаться.
Завершение – один из важнейших этапов взаимодействия с пользователем в цифровом мире, но большинство компаний и сервисов не уделяют ему должного внимания, из-за чего данные пользователей по-прежнему остаются в компаниях. Висят незакрытые банковские счета, приходят уведомления о подписках и сервисах, которые уже не интересны клиентам.
Data-driven организации
[11]
Если вы работаете с данными, то необходимо помнить, что все новинки и важные изменения в подходах работы с ними всегда отражались в первую очередь в маркетинге или в коммуникации с клиентом, будь то UX-интерфейс или персональное уведомление.
В середине 2000-х, организации, занимающиеся дизайном, провозгласили новую тенденцию data-driven организаций, когда все расположения кнопочек, иконок или иных интерфейсов подчиняются логике работы на основании данных. Так называемый Data-driven Design.
Иными словами, все, что увеличивает конверсию, отражает текущее поведение клиента или потенциального клиента, должно строиться на основании данных и наблюдений. Получается, что все события превращаются в данные, которые ведут к конкретным решениям, так что организация становится дата-центрированной, то есть все решения внутри нее по созданию ценности, запусков продуктов или оптимизации, подчиняются исключительно данным.
Впервые термин data-driven был представлен в 1990 году Тимом Джонсоном, преподавателем School of English в Университете Бирмингема. Он предположил, что в основе любого языка находятся определенные общие понятия, «corpus», на основе которых можно строить зависимость и исследовать лингвистику языка. Для своего исследования Джонсон использовал Международную базу лингвистических данных Бирмингемского университета (COBUILT). Эта работа легла в основу создания и описания корпусной лингвистики, что, в свою очередь, позднее повлечет за собой создание машиночитаемой лингвистики, использование Скрытых Марковских Моделей и создание алгоритмов распознавания образов и текста.
Впоследствии централизация решений через данные распространилась на все ключевые бизнес-процессы без исключения и привела к новым формам внутренней работы организаций – data-driven organization.
Data-driven организации – это такие компании, в которых все внутренние процессы и большинство решений вокруг них строятся исключительно на основании данных. Вначале 2000-х ряд компаний провозгласили себя data-driven: Google, Facebook и другие.
Развитие новой формы кооперации человека с использованием данных немедленно натолкнулось на один из первых барьеров на пути своего становления.
Им стал синдром HYPPO.
В 1963 году психолог из Йельского Университета, Стэнли Милгрэм, поставил эксперимент по социальной психологии, который описал позднее в статье «Подчинение: исследование поведения». Суть эксперимента сводилась к тому, что испытуемому предлагали стать на время Учителем и «помочь» Ученику (который был актером) выучить ряд слов и сочетаний. Экспериментатор дал Учителю указание, в случае ошибки, каждый раз бить током Ученика. При этом, каждая новая ошибка влекла за собой увеличение силы тока, вплоть до смертельно опасной. Ученик, в свою очередь, имитировал боль от тока, а Экспериментатор заставлял Учителя продолжать эксперимент, несмотря ни на какие возгласы со стороны Ученика.
До начала эксперимента Стэнли Милгрэм попросил большинство коллег, с которыми работал, оценить, сколько испытуемых дойдет до конца эксперимента. Большинство сошлось на двадцати процентах, но на практике все вышло ровным счетом наоборот. Менее двадцати процентов участников отказались продолжать эксперимент, а подавляющее большинство прошло его до конца. Этот психологический эксперимент показал чрезвычайно сильно выраженную готовность здоровых и нормальных взрослых людей достаточно долго следовать указаниям Экспериментатора (авторитета).
Причем же здесь данные?
Обратимся к евангелисту по цифровому маркетингу Google, Авинаш Кошик, который впервые ввел термин HYPPO в своей книге Web analytics: An Hour a Day.
HYPPO – означает мнение самого высокооплачиваемого человека в комнате (Highest Paid Person Opinion). Когда в комнате, где принимается решение, есть человек, который получает больше всех, то, скорее всего, его авторитет будет ключевым при формировании конечного решения.
Во многом такие решения могут противоречить тем, которые принимались на основании данных. Первые решения субъективны и, в конечном счете, преследуют личную выгоду, принося скрытый ущерб обществу. И как же быть? Ответ может лежать в плоскости деперсонификации принимаемых решений посредством анализа получаемых данных. Данные позволяют отказаться от эмоций и личной заинтересованности при анализе получаемых фактов.
Для этого процесс подготовки отчетности требует определенной реорганизации, как в прочем и самой организации.
7 шагов data-driven decision culture
В 2007 году, во время своего выступления в Google Conversion University, Авинаш Кошик выделил семь ключевых шагов, которые позволяют трансформировать культуру работы организации и перейти к дата-центрированной организации. И сейчас они не потеряли своей актуальности, поэтому я и привел их в этой книге как одну из основ построения новой формы культуры работы с данными.
Вот так называемые Cultural Hacks или Лайфхаки.
Шаг #1. Всегда переходите к Результатам – Go to the Outcomes
Основа коллаборации между людьми с использованием данных лежит, прежде всего, в понимании того, что важно для каждого из участников: от чего зависят их бонусы или выплаты, на что обращают внимание люди, которые принимают решения. Для этого нужно понимать, какими объектами оперирует компания, и это понимание перенести на уровень данных. Традиционная ошибка – начать собирать все данные компании, считать все возможные из них метрики и отправлять всем заинтересованным людям отчеты с этими показателями.
Шаг #2. Отчетность – это еще не Аналитика – Reporting is not Analysis
Большая часть отчетности, участвующая в подготовке, проверке или анализе, никак не связана с теми мотиваторами, от которых зависит завтрашний день каждого участника процесса, принимающего решение. В основном, ключевой ошибкой всегда и везде была простая демонстрация данных, в надежде, что решение с использованием этих данных найдет себя само.
На самом деле, в основе бизнеса лежат традиционные бизнес-вопросы.
Рассмотрим несколько примеров? Ведь это звучит это очень абстрактно.
Пусть у нас есть небольшая организация, где помимо прочих департаментов, есть целый отдел клиентского сервиса. Пусть вы являетесь топ-менеджером, уверен однажды это будет именно так.
Так вот, я утверждаю, что вы как руководитель будете регулярно озабочены необходимостью постоянно задавать весьма конкретные и повторяющиеся вопросы о том, как обстоят дела с уровнем клиентского сервиса (успевает ли организация обслуживать своих клиентов вовремя и так далее).
Ответы на них будут лучше, чем просто отчетность, которая отвечает не на конкретный вопрос, а на открытый.
Все подобные вопросы можно выписать, структурировать и передать алгоритмам, чтобы они уже отвечали.
Шаг #3. Деперсонифицировать принимаемые решения – Depersonalise Decisions making
Переход к фокусировке на тех данных, которые действительно нужны организации, ведет к созданию новой формы культуры, где данным выделяют центральное место, а все решения – деперсонализированны, потому что важно не мнение людей в комнате, а данные на которых оно строится.
Нет смысла бороться с HYPPO, все решения должны быть деперсонифицированны, потому что они говорят не про мнения отдельно взятых людей, а про реальные тренды, бенчмаркинг, результаты работы клиентов или уровень их удовлетворенности. Будь-то электронная коммерция или реальное производство, данные покажут, что идет не в соответствии с ожиданиями, и это никак не связано с персональной оценкой.
А если HYPPO по стечению обстоятельств стал читатель этой книги, то для него важно помнить, что роль HYPPO – диверсифицировать мнение людей, допуская споры и несогласия. Своим присутствие HYPPO должен стимулировать принятие решений на основании данных.
Шаг #4. Проактивный инсайт (прогноз) важнее реактивной аналитики – Proactive insights rather than reactive
В тот момент, когда вы получили данные и начали заниматься подготовкой инсайта, данные уже устарели. Поэтому вместо того, чтобы выполнять и готовить отчетность, людям нужно выполнить анализ, про который никто не спрашивал ранее. Такой анализ необходим ввиду того, что данные быстро устаревают, и ряд ключевых аспектов может быть не покрыт во время процесса принятия решения.
Шаг #5. Расширить полномочия Аналитиков – Empower your Analyst
Итак, для того чтобы Аналитик мог потратить свое рабочее время на анализ, о котором его никто не просил, у него должны быть достаточные полномочия, иначе, вместо подготовки регулярной отчетности, аналитик будет заниматься неструктурированным или слабоструктурированным анализом. Как ни странно, но data-driven организация вряд ли будет существовать в условиях регулярного процесса выпуска отчетности, на который тратится более восьмидесяти процентов времени работы команды. В одном из американских банков, где я однажды был на обмене опытом, была ситуация, когда люди выполняли регулярный процесс подготовки ежемесячной отчетности всего за 3 дня. Я спросил топ-менеджеров, а что люди делают остальное время, так как команда была достаточно большой. Они ответили – «Value Added активности», и все посмеялись. Признаюсь честно, до меня дошло не сразу. Под «делают Value Added активности» здесь подразумевалось, что аналитики использовали свое время, чтобы улучшить иные процессы организации по работе с данными и их продуктом – ежемесячной отчетностью.
Шаг #6. Треугольник ценности – Solve the Trinity
Внутри треугольника находятся метрики и инсайты, которые приводят к действию. На вершинах треугольника обозначены ключевые направления создания ценности с использованием данных:
• Поведение (Behaviour) – Необходимо думать широко при анализе поведения своих пользователей или клиентов. Это не просто данные, а поведение реальных людей.
• Результаты (Outcomes) – Научитесь связывать поведение клиентов с ключевыми показателями или критическими факторами успеха организации.
• Опыт (Experience) – Инсайты должны приходит через эксперименты, исследования, тестирование своих клиентов или поиск закономерности в их поведении. Этим необходимо постоянно заниматься.
Шаг #7. Создайте вокруг процесс – Got Process?
Data-driven организация – это не пункт назначения, а процесс или путь по которому идет организация, поэтому необходимо поддерживать его соответствующими артефактами и адекватными процессами. Этот процесс позволяет пользователям и сотрудникам применять тот или иной фреймворк работы с данными. Он не должен быть сложным и запутанным, а, скорее, должен отражать, кто и на каком конкретном шаге участвует в создании ценности с использованием данных.
Завершает Авинаш Кошик свой уникальный фреймворк одним из ключевых тезисов, без которого невозможно движение к data-driven организации, а именно: ответственным за данные, аналитику и поиск инсайтов в организации должно быть обособленное бизнес-подразделение (не IT).
В чем ценность data-driven организации
В 2011 году профессор MIT Эрик Брайнджолсфон провел любопытное исследование. Он проанализировал данные 330 различных компаний за пятилетний цикл, в рамках которого выявил взаимосвязь между производительностью труда, выручкой и культурой организации, где было видно, как data-driven культура влияла на результативности той или иной компании.
Согласно исследованию, DD процесс повышал результативность труда и выручку компании на шесть процентов. По данным исследовательской компании Nucleous Research за 2014 год, было выявлено, что за каждый вложенный доллар в решения и процессы по аналитике и работе с данными, компания получала в среднем 13,01 долларов.
Data-informed организации
Итак, существование так называемых дата-центрированных организаций имеет свое обоснование. Понятно, каким образом их строить и зачем. Но есть ли здесь какой-то подвох?
В 2010 году Адам Моссери, VP по продукту новостной ленты в Facebook, высказал мысль о том, как важно не допускать полной централизации организации в отношении данных. Основная идея его выступления сводилась заключалась в том, что данные дают возможность проанализировать текущую ситуацию и выбрать и наиболее оптимальный путь.
Но, если говорить о возможности создания уникального или лучшего продукта, то в дополнение к подходу, сформулированному Адамом Моссери, известный блогер и писатель в области Digital, Эндрю Чен, сформулировал тезис наличия «локального максимума» в дата-центрированном процессе или продукте. Что это означает?
Локальный максимум представляет точку, которую можно легко выявить с помощью данных, и она помогает инкрементально (небольшими шагами) оптимизировать выбранный процесс или продукт. Но данная точка никак не связана с лучшей конфигурацией продукта или процесса, которая даст максимальный результат. Иными словами, при выявлении локального максимума всегда существует другая точка, которая является по совместительству экстремумом или наиболее лучшей конфигурацией продукта, но она отсутствует в наблюдении, так как данных для ее выявления обычно недостаточно.
Таким образом, путь развития организации как чисто дата-центрированной, перешел к новой модели работы с данными – data-informed.
Данная модель предполагает, что данные используются при принятии решений, но не являются ключевым фактором, так как поиск лучшего продукта является цепочкой экспериментов, которые заранее предсказать невозможно.
Каким образом сместить фокус с данных на другие аспекты, не потеряв важность работы с данными?
Ключевыми здесь всегда будут стратегия или видение того, что организация планирует делать. Так, в своем выступлении Адам Моссери, рассказал об оптимизации пользовательской функции по загрузке фотографии в Facebook. Его команда провела ряд экспериментов по оптимизации процесса загрузки, руководствуясь при выборе того или иного интерфейса для пользователя только данными, начиная с кнопки и заканчивая изменениями во встроенных плагинах по поддержке браузера и навигатора для выбора файлов. Каждый из экспериментов оказался провальным, то есть не привел к увеличению конверсии активных пользователей сервисом загрузки фотографий.
В конечном счете, Моссери решил сменить тактику. Он оттолкнулся от данных, как стартовой точки анализа состояния воронки, и этапов, на которых пользователи по какой-то причине покидают Facebook. Затем он переработал подход, поставив во главу стола удобство пользователей и простоту.
Это дало определенные результаты, существенно увеличив конверсию пользователей. Конечное решение, выбранное его командой, не могло быть измерено только данными.
Data-informed или data-driven
При сравнении подходов ненамеренно вспоминается конфликт Стива Балмера (СЕО Mircosoft 2000–2014) с Linux Foundation, которую он однажды назвал «раковой опухолью, приклеившейся к настоящей интеллектуальной собственности». В отличие от Microsoft, разработчик в Linux Foundation делает всего один патч для платформы за весь свой цикл работы на ней.
Данный конфликт очертил рамки нескольких типов организаций. По разные стороны виртуальных баррикад оказались разные подходы, в том числе и к управлению данными и инновациями.
Традиционный подход дата-центрированной организации опирался на правило Парето, которое гласит: двадцать процентов усилий приносят восемьдесят процентов результата. Высокопроизводительные силы сконцентрированы в дата-центрированных корпорациях, где есть нормативы, KPI, и где установка тех или иных требований к данным прямо влияет на получаемый результат или выполнение какого-либо норматива.
В дата-центрированных организациях основной упор в дизайне потребительских продуктов и сервисов строиться, прежде всего, на проверке гипотезы, где конечный потребитель (пользователь) голосует за наиболее приемлемый для него продукт, услугу или интерфейс.
Другой тип организации, наоборот, не имеет явных KPI или рычагов управления. Это так называемые организации открытого, платформенного типа. К ним можно отнести одно из ключевых утверждений, что дата-центрированные процессы не работают. С одной стороны, это пространство с неизвестными малоизученными переменными, где данные не могут однозначно повлиять на продукт, с другой, – этот тип организаций имеет одну отличительную черту, благодаря которой потребитель сам может стать создателем нового продукта или услуги. В таком случае сопутствующие аналитические сервисы, основанные на данных, позволяют потребителю самому создать для себя продукт который ему нравится.
В дальнейшем дата-центрированные организации могут использовать этот продукт для запуска на рынок. Так появилось много интересных продуктов, например, горные велосипеды, которые изначально придумали изобретатели в Калифорнии, переоборудуя специальные велосипеды со странным названием «балунеры» (или «кланкеры»).
Важным фактом является то, что единороги, то есть компании, капитализация которых измеряется в миллиардах долларов, появляются именно в организациях второго типа. Там, где нельзя ввести управление по показателям, а данные могут использоваться для сбора информации при принятии решения. Изучение long tail («длинного хвоста»), например в банкинге, является обязательным в надзорном регулировании. По основному замыслу принципов управления капиталом, разработанных Базельским комитетом, именно long tail может принести организации так называемый unexpected loss, то есть убытки, которые невозможно было предвидеть. Иными словами, «Черный лебедь». И для них нужно рассчитывать определенный размер капитала, но организация это должна сделать сама, так как регулятор (например, Центральный банк) этого сделать не может. По аналогии с unexpected loss, возможен также unexpected profit, когда вместо убытка организация может получить сверхприбыль.
Это и есть те самые единороги, появление которых невозможно предсказать, опираясь только на данные.
Отличить один тип организации от другого, помимо анализа самой формы, внутренних процессов и других артефактов, можно так же оперируя только аналитикой.
Правило Парето перестает работать для процессов или показателей, значения которых попадают ниже среднематематического от потраченных усилий или ресурсов. Это означает, что если организация пытается ввести измерение процессов, которые не приносят существенный результат, или нельзя явно выделить процесс, который дает существенный результат, то такой тип организации становится data-informed, который исключает такой тип организации как data-driven (или data-centric).
Цикл развития организаций
Революция open-source и доступность технологий
Доступность технологий перешагнула барьер возможных применений, обогнав существующий спрос, а также приблизила так называемую точку сингулярности, за которой невозможно просчитать или спланировать возможный сценарий применения технологий.
Если рассмотреть эволюцию решений с использованием искусственного интеллекта, то в качестве интересных наблюдений, сделанных директором по маркетингу сервисов компаний «Яндекс», Андреем Сербрантом, можно привести в пример историю алгоритма AlphaGo. В конце 2014 эксперты оценивали возможность искусственного интеллекта победить профессионала в го как маловероятный факт.
Год спустя, в декабре 2015 года, профессиональное сообщество повысило шансы на победу, но для обучения всем возможным стратегиям искусственному интеллекту еще требовались десятки лет.
Всего восемь месяцев спустя алгоритм AlphaGo, разработанный в лаборатории DeepMind, смог обыграть профессионала игры в го, обладателя 18–ти мировых трофеев и высшего девятого дана, лидера мировых рейтингов, Ли Седоля.
Разработка алгоритма заняла всего несколько лет, при этом алгоритм не просчитывал все возможные комбинации, он мог видеть только на 50 ходов вперед. Просчет всех возможных комбинаций требовал несоизмеримое количество вычислительных ресурсов, поэтому разработчики решили пойти другим путем. Они создали трехслойную сложную нейронную сеть, которая имитировала человеческую интуицию. При этом алгоритм AlphaGo делал по-настоящему оригинальные ходы. Например, ход номер 37 в третьей партии против Ли Сидоля был действительно неожиданным для большинства профессионалов. Когда разработчики заглянули в логику алгоритма, они увидели, что AlphaGo выбрал этот ход, так как он был маловероятным ходом с точки зрения человека. Вероятность, с которой профессионал мог совершить этот ход, составляла 1:10000. Ли Сидоль проиграл эту партию, но в следующей игре он совершил аналогичный ход под номером 76, который был так же маловероятным, но, по его утверждению, он был единственным. Фактически, Ли Сидоль скорректировал свое понимание игры го, в которую он играл с раннего детства, и применил новую отличную тактику, которую никогда ранее не применял.
Роль AlphaGo здесь совершенно не заменима при понимании основ игры го, потому что алгоритм смотрит на нее не так, как человек. Алгоритму не важны получаемые очки, потому что выиграть можно всего лишь с перевесом в одно очко, что и делает алгоритм. В результате получается новая, так называемая «мягкая» тактика, когда алгоритм стремится не к максимизации очков, а к устойчивому равновесию.
Появление таких сервисов изменяет саму суть игры, позволяет по-иному взглянуть на нее, применяя более зрелые подходы, которым учит нас алгоритм.
Сам алгоритм состоит из трех основных слоев:
• Стратегическая сеть – слой, который перебирает в памяти результаты всех сыгранных партий;
• Оценочная сеть – слой, который оценивает эффективность текущих позиций;
• Поиск по дереву – слой, который прогнозирует наиболее ценный ход руководствуясь эффективностью.
Если разобрать инфраструктуру, на которой был построен алгоритм AlphaGo, то это не какой-то сложный вычислительный суперкомпьютер. Его обучение проходило на пятидесяти графических процессорах в облаке Google Cloud. Если соотнести с рынком, то пятьдесят графических процессов эквивалентны небольшой майнинговой ферме по добыче криптовалюты, а использование облачных технологий делает весь процесс максимально мобильным.
Все оценки экспертов о невозможности существования такого алгоритма были разбиты. Это означает, что точка сингулярности технологий, о которой так много говорили, находится ближе, чем все думали. Сегодня в разработке находится множество проектов, которые качественно иным образом упростят взаимодействие человека с окружающим миром.
Как ни парадоксально звучит, но хоть AlphaGo и работает на данных, совершая ход, он может учитывать и иные перспективы. Это означает, что если рассмотреть алгоритм как организацию, она одновременно демонстрирует черты как data-driven, так и data-informed. Возможно, это то будущее, которое будет наиболее эффективным в условиях постоянно меняющегося мира.
4-я промышленная революция, или Почему человек больше не нужен для поиска инсайтов
Говоря о возросшей роли данных в построении организаций нового типа, нельзя не отметить фундаментальный труд экономиста и основателя World Economic Forum Клауса Шваба, согласно которому мы переживаем четвертую промышленную революцию, основанную на данных.
Данные, алгоритмы распознавания и нейронные сети – все это позволило изменить традиционные процессы, вытеснить из них человека как необходимый элемент для обработки информации.
Отличным примером этого может быть сервис Stafory «Робот Вера» или Intervio от команды PryTek, который находит потенциальных кандидатов на выбранную позицию, обзванивает их, проводит их опрос и делает оценку соответствия потенциального кандидата предлагаемой позиции с использованием основных методик управления людьми, такими как Big Five. Происходит это благодаря сбору данных из баз резюме, таких как HeadHunter или TrudVsem. Так что, процесс поиска и отбора кандидатов на определенные позиции, уже сегодня может проходить без участия человека. Intervio – наоборот представляет собой сервис, где соискатель просто рассказывает свою историю, отвечая на вопросы, которые заранее записаны в виде видео интервью, а программа обрабатывает изображение, голос и получаемый текст и выдает оценки по психотипу, навыкам, используя сложный алгоритм нейролингвистического анализа. Это такой специальный алгоритм, который позволяет машине понять смысл слов. Например, «я хмурый иду по осеннему лесу» и «я иду по хмурому осеннему лесу» – два похожих предложения, но смысл у них разный. Машины уже способны уловить разницу в этом смысле.
С одной стороны, это серьезная трансформация процесса процесс подбора и резкое снижение его стоимости, с другой – чтобы пользоваться таким процессом, организации необходимо быть готовой внедрять такие сервисы в режиме Plug and Play, постоянно подключая эффективные цифровые сервисы и заменяя привычные процессы, требующие участия человека.
Датчики, телеметрия, бесконечные потоки данных, формирующие океан информации, создали новую цифровую экосистему. В ней с повышением интеграции данных в текущие процессы меняется и роль человека. На смену традиционным профессиям индустриальной экономики приходит запрос на новые навыки в отношении управления и интеграции данных. Рынок и трансформация модели конкуренции открывают новые ниши для небольших игроков, которые формируют основное давление на современные большие компании. Чтобы быть эффективным, бизнесу придется акцентировать больше внимания в своем развитии на создание адекватной инфраструктуры сбора и обработки данных, а также решить ряд важных задач. Среди них ключевую роль играют методология и стандартизация протоколов передачи данных, информационная безопасность, аудит и управление качеством данных.
Потому что какими бы продвинутыми ни были алгоритмы, все они отступают при встрече с аномалиями в данных, причина которых может быть в некачественной информации. Поэтому проектирование, зачистка, контроль и арбитраж целостности – это одни из самых важнейших задач, которые придется решать в новой цифровой экономике.
Переход к новой парадигме работы с аналитикой, данными и информацией потребует от организации более высокого уровня зрелости, а это означает, что бизнес будет вынужден решить невыполнимую задачу по обучению специалистов и интеграции новейших технологий работы с данными в кратчайшие сроки, изменив при этом роль и ответственность участников цепочки создания информационного контента.
В этой книге я разберу основные приемы и модели, которые можно применять при выполнении этих задач, и которые помогут ответить на этот вызов. Мы с вами проанализируем: как строить команду, как выглядят новые профессии и какие методы управления могут применяться. Я расскажу, как можно разобрать кейсы, и покажу, как спроектировал новые сервисы, которые смогут заменить традиционные аналитические записки или отчетность.