Big data простым языком

Благирев Алексей

Хапаева Наталья

Глава 2

Стратегия данных

 

 

С чего начинается стратегия данных?

Стратегию данных каждый из ключевых менеджеров компании сегодня понимает по-разному. А некоторые ее вообще до сих не понимают. Оно и понятно, много букв. Это как вишенка на торте инноваций и технологий, в котором еще надо уметь разбираться, чтобы просто банально насладиться тем вкусом, который есть. В том числе по-разному ее понимают и ключевые игроки рынка, производители программного обеспечения, разработчики и архитекторы данных. Нельзя просто взять, собрать всех вместе и наивно полагать, что получится договориться о чем-то одном.

Жизненный цикл данных

Данные – это что-то непонятное, неопределенное, как бесформенный прозрачный кислород. Вроде есть, вроде важен, но с чего начать?

Но во всех взглядах есть общее ядро, которое разделяется каждым из участников и является одним из ключевых факторов выбора и реализации стратегии – это понимание цикла работы с данными. Я выделил несколько моделей, иллюстрирующих наиболее полный жизненный путь данных внутри организации.

Например, модель Малькольма Чисхолма выделяет семь активных фаз взаимодействия с данными:

1. Data Capture – создание или сбор значений данных, которые еще не существуют и никогда не существовали в компании.

а. Data Acquisition – покупка данных, предложенных внешними компаниями;

b. Data Entry – генерация данных ручным вводом, при помощи мобильных устройств или программного обеспечения;

c. Signal Reception – получение данных с помощью телеметрии (интернет-вещей).

2. Data Maintenance – передача данных в точки, где происходит синтез данных и их использование в форме, наиболее подходящей для этих целей. Она часто включает в себя такие задачи, как перемещение, интеграция, очистка, обогащение, изменение данных, а также процессы экстракции-преобразования-нагрузки;

3. Data Synthesis – создание ценности из данных через индуктивную логику, использование других данных в качестве входных данных.

4. Data Usage – применение данных как информации для задач, которые должно запускать и выполнять предприятие. Использование данных имеет специальные задачи управления ими. Одна из них заключается в выяснении того, является ли законным использование данных в том виде, в котором хочет бизнес. Это называется «разрешенным использованием данных». Могут существовать регулирующие или контрактные ограничения на то, как фактически можно использовать данные, а часть роли управления данными заключается в обеспечении соблюдения этих ограничений.

5. Data Publication – отправка данных в место за пределами предприятия. Примером может служить брокеридж, который отправляет ежемесячные отчеты своим клиентам. После того, как данные были отправлены за пределы предприятия, де-факто невозможно их отозвать. Неверные значения данных не могут быть исправлены, поскольку они уже недоступны для предприятия. Управление данными может потребоваться, чтобы помочь решить, как будут обрабатываться неверные данные, которые были отправлены инвесторам.

6. Data Archival – копирование данных в среду, где они хранятся, до тех пор, пока не понадобятся снова для активного использования и удаления из всех активных производственных сред.

7. Data Purge – удаление каждой копии элемента данных с предприятия. В идеале это необходимо делать из архива, так как реализация задачи управления данными на этом этапе жизненного цикла данных определит, что очистка действительно была выполнена должным образом.

При работе с описанной моделью стоит отметить важные допущения:

• «Жизненный путь» – не совсем корректный термин, потому что данные сами себя не воспроизводят, более близкое значение – «история данных», но предлагается его не менять, из-за того, что текущего значения придерживается большинство участников рынка.

• Данные не обязательно должны проходить все семь фаз взаимодействия.

• Фазы взаимодействия не обязательно выстраиваются в конкретную последовательность. В реальности фазы могут проявляться в хаотичном порядке.

• Часть профессионального сообщества так же использует аббревиатуру ILM (Information Lifecyle Management). Разница между двумя понятия состоит в следующем:

Иными словами, по одной из версий управление данными является подмножеством цикла управления информацией, а сами подходы по управлению информацией уже являются подходами по управлению знаниями (Knowledge Management) в организации.

Но стратегия управления данными сама по себе является самостоятельным звеном в этой сложной цепочке. Поэтому, даже не рассматривая всю цепочку управления знаниями, можно с уверенностью сказать, что стратегия управления данными несет в себе самостоятельную ценность.

Утомил? А представьте, что в этом всем копается множество людей, которые в буквальном смысле спорят о дефинициях, правилах и отношениях.

Миссия компании и данные

Итак, при построении стратегии, вслед за определением ключевых точек работы с данными, обычно выбирается традиционный путь создания и разработки любой стратегии:

• Определение стратегической позиции – ответ на несколько ключевых позиций во внутреннем и внешнем окружении компании (с точки зрения регулятора, конкурентов, ресурсов и так далее), в том числе декомпозиция и интеграция миссии и ключевых факторов успешности;

• Определение стратегического выбора – ответ на несколько ключевых вопросов: как именно организация будет конкурировать? В каком направлении? Как организация достигнет выбранного направления?

• Оценка и выбор стратегии – ответ на выборы по приемлемости предложенной стратегии.

Это основы любого стратегического планирования, которое мы не будем разбирать в этой книге, поэтому про него лучше почитать отдельно. Если собрать все основные подходы, которые в том числе известны мне, то получается следующая картинка:

Ключевые фреймворки при подготовке стратегии данных для организации

1 Образована от сокращения шести английских слов: Political (политика), Economic (экономика), Social (общество), Technological (технология), Environmental (развитие) и Legal (законность). Данный анализ направлен на выявление политических, экономических, социальных, технологических и юридических или законодательных аспектов внешней среды, которые могут повлиять на стратегию компании.

2 Методика для анализа отраслей и выработки стратегии бизнеса, разработанная Майклом Портером в Гарвардской школе бизнеса в 1979 году. Методикой выделяются пять сил, которые определяют уровень конкуренции и, следовательно, привлекательности ведения бизнеса в конкретной отрасли.

3 Методика для анализа бизнеса, фокусирующаяся на доступных ресурсах в конкретной отрасли.

4 Матрица Ансоффа представляет собой поле, образованное двумя осями – горизонтальной осью «товары компании» (подразделяются на существующие и новые) и вертикальной осью «рынки компании», которые также подразделяются на существующие и новые.

Одно из ключевых свойств данных, которое необходимо учитывать при проектировании стратегической позиции компании – тот факт, что данные являются не только активом, который необходимо монетизировать, но и обязательством, за которым необходимо крайне внимательно следить во избежание штрафов, издержек или рисков, на которые компания должна аллоцировать соизмеримые резервы.

Перекладывая цикл данных на бизнес-приоритеты (иными словами, декомпозируя бизнес-модель на сильные факторы в текущей конфигурации), получаем следующую матрицу:

Стратегия данных и жизненный цикл данных

Матрица позволяет разобрать на компоненты ключевой путь создания ценности из данных.

Таким образом, всегда есть два типа стратегии, которые будут развиваться:

• Стратегия защиты – сводится к минимизации риска владения данными. Она разворачивается вокруг ключевых активностей, таких как комплаенс, регулирование, выявление мошенничества с данными и других. Защитная стратегия так же ставит ключевой упор на стандартизации, управлении и оперативном выявлении рисков.

• Стратегия нападения – сводится к поддержке роста бизнеса (монетизации, росту конверсии и так далее). Ключевые активности обозначаются как новые знания о клиенте, поддержка решений и маркетинговые кампании.

Конечно, любой организации необходимо следовать обеим стратегиям, но достижение баланса потребует от нее формулирование понимания аппетита к риску – единой позиции организации, так как эти две стратегии будут конкурировать за ресурсы самой организации. Огромное значение в этом будет иметь и размер самой организации, для таких моделей защитная модель всегда выглядит более предпочтительной, а для небольших компаний модель по поддержке роста бизнеса, наоборот, выглядит более преимущественной. Решения по выбору одной или другой всегда создают так называемый trade-off.

В качестве примера можно привести известную трилемму, сформулированную Яном Григгом (Ian Grigg).

Трилемма, сформулированная Ian Grigg в описании концепции Indentity-as-an-Edge. При достижении решения в одной из вершин, остальные вершины теряют ценность. Решение трилеммы подразумевает применение определенных подходов и технологий, например, распределенные реестры (блокчейн).

Трилемма Яна Григга и многомерная стратегия данных

Таким образом, стратегия данных имеет несколько измерений для анализа, каждое из которых необходимо учесть в соответствующей матрице по аналогии с тем, как это сделано для вершин «жизненный цикл», «бизнес ценность», «стратегическая позиция».

Так, по данным HBR выявлена, в том числе и зависимость от степени регулирования и выбираемой стратегии.

 

Ключевые стейкхолдеры

С точки зрения данных как актива, стратегия должна помогать использовать информацию в организации, поэтому основными стейкхолдерами стратегии в первую очередь должны быть зарабатывающие подразделения. С другой стороны, необходимо помнить, что успех во взаимоотношениях с клиентом лежит сегодня в том числе в возможности уметь рассказать о клиенте больше, чем клиент знает о себе сам.

Для данных как обязательства, помимо регулятора, есть еще бизнес-сообщество и клиенты, которым необходимо предоставлять актуальную информацию о соответствии требованиям законодательства. Например, новое европейское законодательство GDPR, вступившее в силу с 31 мая 2018, обязывает организации предоставлять конечным пользователям информацию и инструменты управления их данными.

Ключевые стейкхолдеры стратегии данных

У каждого этапа есть конкретный стейкхолдер, который может оказать наибольшее влияние на организацию. Их нужно учитывать в первую очередь.

Учет интересов большего числа стейкхолдеров позволяет снизить издержки на коммуникацию и хранение данных в будущем, а также повысить шанс на их монетизацию.

Организациям, оперирующим на нескольких территориях, юрисдикциях или отраслях, необходимо учесть взаимное влияние на потенциальный размер рисков, которые создают специальные регуляции. Например, Общий Регламент по Защите Данных (или GDPR) применяет ряд следующих принципов:

1) Законность, справедливость и прозрачность. Персональные данные должны обрабатываться законно, справедливо и прозрачно. Любую информацию о целях, методах и объемах обработки персональных данных следует излагать максимально доступно и просто.

2) Ограничение цели. Данные должны собираться и использоваться исключительно в тех целях, которые заявлены компанией (онлайн-сервисом).

3) Минимизация данных. Нельзя собирать личные данные в большем объеме, чем это необходимо для целей обработки.

4) Точность. Личные данные, которые являются неточными, должны быть удалены или исправлены (по требованию пользователя).

5) Ограничение хранения. Личные данные должны храниться в форме, которая позволяет идентифицировать субъекты данных на срок не более, чем это необходимо для целей обработки.

6) Целостность и конфиденциальность. При обработке данных пользователей компании обязаны обеспечить защиту персональных данных от несанкционированной или незаконной обработки.

Стоит отметить ряд важных аспектов, которые сегодня являются общими для значительного количества регуляторных юрисдикций (регуляций).

• Право на забвение, которое дает европейцам возможность удалять свои личные данные по запросу (во избежание их распространения или передачи третьим лицам).

• Право на переносимость данных (right to data portability) является новацией в правилах обработки данных ЕС, введенной GDPR. Данное право заключается в том, что компании обязаны бесплатно предоставлять электронную копию персональных данных другой компании по требованию самого субъекта персональных данных.

• GDPR устанавливает высокие требования в отношении формы получения согласия на обработку данных. Согласие человека на обработку его персональных данных должно быть выражено в форме утверждения или в форме четких активных действий пользователя. Согласие на обработку персональных данных будет недействительно, если у пользователя не было выбора или возможности отозвать свое согласие без ущерба для самого себя. Если пользователь дал согласие на обработку своих персональных данных, контроллер должен иметь возможность продемонстрировать это.

GPDR не рекомендует использовать по умолчанию поля о согласии с уже поставленной галочкой или другие методы получения согласия по умолчанию. Согласие также не может быть выражено в виде молчания или бездействия пользователя. Информация о порядке отзыва согласия на обработку персональных данных должна быть размещена таким образом, чтобы пользователь мог легко ее найти.

 

Техническая инфраструктура

Стратегия выбора технологического стека, сопровождающего реализацию стратегии данных, во многом будет упираться несколько ключевых составляющих:

• Total cost of Ownership – совокупная стоимость владения технологией. Сюда попадают затраты как на сопровождение, так и на поддержку.

• Total cost of Change – совокупная стоимость изменений. Внешний мир меняется, поэтому в технологический ландшафт потребуется постоянно вносить изменения для того, чтобы соответствовать требованиям внешней среды.

• Total cost per TB – совокупная стоимость технологии за один ТБ решения. При проектировании внутренней экосистемы одной из основных единиц цифровой экономики становится МБ, ГБ или ТБ хранения данных.

Выбор решения может подразумевать разделение на:

• Программные средства – софт, который позволяет обрабатывать или извлекать данные и проделывать с ними различные операции.

• Аппаратные средства – железяки, оборудование, без которого работа с большими и сложными вычислениями становится сложной и бесполезной.

• Программно-аппаратные средства – гибридные решения, которые включают в себя помимо оборудования также и софт.

Себестоимость владения технологией в зависимости от типа средств

С точки зрения поведения экономики гибридные решения имеют ряд определенных ограничений при масштабировании стоимости такого решения и приобретении большего количества данных. В отличии от лицензий, ограничение вводят аппаратные средства, себестоимость производства которых зависит от конкретных драйверов затрат, что в свою очередь сложно переложить на драйвер объема данных. Поэтому с точки зрения снижения TCO более целесообразно выбирать так называемые «serverless-решения».

 

Зачем нужна стратегия данных?

Стратегия позволяет систематизировать усилия организации, прилагаемые для сбора и обработки данных, выделить ключевые события, которые происходят в данных, определить роли и участников и, наконец, поддержать реализацию миссии организации.

Lean цикл данных

Для простоты описания можно выделить несколько ключевых этапов, которые могут развиваться обособленно:

• Data Harvesting – эффективный сбор данных;

• Data Market – эффективный поиск и предоставление данных внутри организации;

• Data as a Service – аналитические сервисы с использованием данных.

 

Как влияет культура компании на успешность стратегии?

Согласно высказыванию Питера Дрюкера, «культура компании съедает ее стратегию на завтрак».

Если в компании ценность использования данных не поддерживается на каждом из уровней управления, то реализация стратегии данных находится под существенным риском.

Скорость роста общемирового объема данных

Большая часть данных, доступных сегодня для исследований и монетизации, была создана или собрана за последние несколько лет, и данные продолжают расти со скоростью 50 000 ГБ/сек. Такие объемы дают определенное конкурентное преимущество при построении новой бизнес-стратегии, но лишь малая часть компаний успела трансформировать свою внутреннюю культуру для эффективной работы с данными на всех уровнях.

В свою очередь, технологии для обработки и хранения данных стали максимально доступными и экономичными. К 2050 году, когда население Земли достигнет 9,6 миллиардов человек, все объекты вокруг будут связаны в единую сеть обмена данными.

Быть успешной компанией, уметь рассчитывать показатели, планировать и ставить задачи стало невозможным без взаимодействия с данными, – с учетом того, что в скором времени большая части таких сервисов станет «коммодити». Чтобы достичь этого, с одной стороны, организации необходимо выровнять единое понимание, что такое данные и какую ценность они создают для конкретной компании. С другой стороны, работа с данными требует скрупулезности и аккуратности. При развитии навыков и компетенций работы с данными, например при машинном обучении, происходит обособление от такой науки как статистика. Возникают постоянные барьеры коммуникаций, сводящие к минимуму возможность успешной кооперации.

Такие барьеры приводят к одной из важнейших проблем в управлении данными – департаменты внутри корпораций работают в формате «Silos» – с изолированными хранилищами данных, которые возникают естественным образом в крупных организациях. По сути, речь идет о «подстольном» BI-хранилище, которое стоит практически у каждого отдельного департамента, и, как показала моя практика, это явление весьма частое. Такие Silos делают невозможным достижение и создание «Единого хранилища данных».

Silos возникают, когда департаменты конкурируют друг с другом. Важно понимать, что основу такой конкуренции создает внутренняя культура организации, поэтому стимулирование внутренней конкуренции вредит стратегии данных. Можно даже утверждать, что вероятность совместить такие организации, где поддерживается и стимулируется конкуренция со стратегией данных, крайне низкая.

Silos как явление существуют не только внутри организации. Если рассмотреть несколько отраслей, например, производство и банкинг, то здесь данные изолированы и хранятся только внутри производственного контура. Банк с наименьшей вероятностью сможет получить доступ к данным производства, хотя как раз получение данных дает возможность разработки и создания «цифрового двойника» производства и моделирования новых финансовых продуктов с использованием данных, таких как гарантии или производственный овердрафт, без необходимости сбора бумаг или отчетности. Именно поэтому фактор культуры и устранения барьеров коммуникации является одним из ключевым при построении дата-центрированной бизнес-модели.

Пример моей стратегии по управлению качеством данных на основе выделенных доменов (блоков данных)

Ряд экспертов предлагает несколько решений по гармонизации и трансформации культуры организации:

• Открытость – сотрудников стимулируют делиться данными, высказывать идеи и поощряют за помощь в исследованиях данных других департаментов и за их использование.

• Top-down менеджмент напрямую координирует и на своем примере показывает важность совместной работы с данными.

• Холократичность – сведение всех ключевых заинтересованных лиц в круг влияния по примеру компании Zappos; формирование «плоских» или одноранговых команд для работы над аналитическими сервисами с использованием данных.

• Стройте сервисы – переход на сервисную модель работы с данными, позволяющий стандартизировать и выравнивать понимание того, как должен выглядеть тот или иной сервис.

• Фокусируйтесь на драйверах  – определение драйверов, которые приводят к появлению Data Silos, такие как:

◊ Множество и различие платформенных решений и компетенций – когда внутри одной организации существуют одновременно много различных платформ по работе с данными.

◊ Политические – борьба за сферы влияния приводит к тому, что информация используется как основной инструмент для разделения влияния.

◊ Неравномерный рост – быстрый рост компании или неорганические приобретения различных бизнес групп приводят к тому, что возникают отличные интерпретации того, как использовать данные.

◊ Сфокусированность на вендоре – каждый из вендоров имеет внутри своего решения уникальную модель данных. Многие из них строят изолированные экосистемные решения, которые не умеют находить общий язык с решениями других вендоров. Сегодня стандартизированы только интерфейсы без интерпретации.

По версии Digital Impact предлагается, наоборот, рассмотреть ряд нестандартных приемов по трансформации культуры организации:

• Предложить сотрудникам делать скетчи с историями про данные. Сотрудники изучают данные и пробуют рассказать историю, для этого организуются регулярные питчи внутри компании в специально отведенное время (так называемые DemoDay).

• Построить скульптуру данных, которая будет представлять те или иные данные. Необходимо подумать и сконструировать решение, которое в том числе будет привлекать внимание других сотрудников и поможет впоследствии рассказать историю #datasculpture.

• Начать формулировать аргументы с использованием данных во время дискуссии или обсуждения.

 

Кто владелец стратегии данных?

Анализируя структуру навыков и требований к современному Data Scientist (которая, кстати, уже тоже устарела, так как на смену работе с Hadoop пришел Spark для работы с NoSQL БД), можно выделить ряд ключевых ожиданий.

Современный исследователь данных по версии MarketingDistillery

Помимо навыков из области математики или статистики, специалист в обязательном порядке должен обладать навыками, позволяющими ему уметь настраивать среду, загружать и обрабатывать данные и подготавливать датасет к исследованиям.

Кроме специалиста по исследованиям необходимы специалисты по контролю и качеству данных, бизнес-аналитики, архитекторы данных, разработчики информационных потоков и сервисов и так далее.

При всем обещающем многообразии компетенций и навыков встает открытый вопрос: к кому из бизнес-лидеров должна относится стратегия данных. Один из традиционных взглядов, преобладающий в большинстве компаний, выглядит следующим образом:

• Финансовый директор отвечает за стратегию данных и имеет специальное подразделение, которое выступает заказчиком и контролирует качество данных для всех остальных подразделений.

• IT-директор отвечает за реализацию, наполнение и сбор данных в соответствии с выставленными требованиями (SLA, OLA и так далее).

В такой конфигурации возникает несколько коллизий при работе с данными:

• Финансовое подразделение оперирует размерностями данных, которые в первую очередь будут покрывать потребности подразделения, входящие в зону его ответственности перед внешними инвесторами (МСФО отчетность, Investor Relations и другие). В этом смысле многомерная и сложная бизнес-сущность организации представляется в виде плоского отчета, во много отвечающего ограниченному количеству аналитических задач.

• IT-подразделение не берет на себя ответственность за качество данных в источниках. Помимо этого, гармонизация источников данных также требует приложение сверхусилий.

Решать такие коллизии призвана модель офиса CDO (Chief data officer) в прямом подчинении CEO, в котором появляются ряд новых профессий и ролей – например, data engineer или data architect. Они вместе с CDO проектируют и внедряют ряд ключевых артефактов, на которых будет строиться стратегия управления данными. Это могут быть:

Восприятие организации с помощью данных

Отличие инженера данных от исследователя данных

• Единая бизнес модель и единая модель данных.

• Аппетит к риску на основании.

• Data Quality и так далее.

В своей основе data engineers имеют ряд отличительных особенностей от data scientists, если поставить их в один ряд, то можно сказать, что data engineers больше занимаются самими данными, нежели поиском инсайтов из них. Их задача – следить, проектировать и организовывать бесконечные потоки данных, структурируя и валидируя их для конечного пользователя.

 

Self-service BI

Отдельно стоит рассмотреть экосистему Microsoft, организованную для двухсот тысяч сотрудников корпорации, и предоставляющую все необходимое для работы с данными. Вызовы, на которые отвечает эта экосистема, сопоставимы с задачами по трансформации культуры, стоящими перед крупнейшими корпорациями.

Команда Microsoft выделила пять видов особенностей в реализации стратегии данных:

• Заменить стратегии оценки эффективности внедрения BI средств на стратегии возможности взамен того, чтобы пытаться оценить ROI от проектов, связанных с данными, организация должна перейти к пути оценки возможностей применения данных.

• Перейти от управления изменения (Change Management) к модели потребления данных. Сервисы на данных – это продукт, у которого есть свой потребитель. Технологическая организация должна полностью сфокусироваться на потреблении технологических продуктов.

• Сфокусироваться вокруг кривой использования BI-инструментов и ранних последователях (Early Adopters), так как они являются самыми важными бизнес-пользователями, которые будут потреблять тот или иной сервис.

• Структурировать инструменты поддержки для каждой группы пользователей с точки зрения канала коммуникации, поддержки продукта, общего видения развития сервиса и так далее.

• Сформировать экосистему поддержки инноваций и работы с данными с вовлечением социальных сетей, каналов коммуникаций, партнеров и поставщиков данных, создавая возможность быстрого масштабирования.

Инфраструктура Microsoft по поддержке развития BI-сообщества

Итак, комплексность взгляда Microsoft на управление культурой данных в больших корпорациях показывает, что помимо трансформации понимания роли данных (перед от ROI и других показателей к оценке возможностей), от организации требуется также глубокая и детальная проработка инструментов поддержки жизненного цикла данных, сегментации потенциальных потребителей и выделение ресурсов на продвижение и поддержку каналов.

В этом смысле управление и развитие таких инициатив сопоставимо с развитием и созданием нового бизнеса, где данные и сервисы на них являются продуктом, а пользователи становятся полноценными потребителями.

Путь формирования культуры работы с данными, по версии компании Microsoft

Известная кривая Мура определяет группы пользователей по взаимодействию с технологией. Ею пользуются большинство компаний в Силиконовой Долине, потому что она содержит ключевую подсказку.

Все пользователи делятся на две группы по пятьдесят процентов. Первая группа имеет явно выделенные внутри три подгруппы:

• Инноваторы – они составляют всего два с половиной процента от общего количества возможных конечных пользователей аналитического продукта. Они ищут новые знания, хотят попробовать новые технологии, им важно влиять и менять новые, зарождающиеся технологии.

• Ранние последователи – их уже больше тринадцати с половиной процентов от общего количества возможных конечных пользователей. Они являются визионерами, поэтому не будут обращать внимания на «шероховатости» аналитического продукта. Тут возникает знаменитое правило шестнадцати процентов о том, что первая часть аудитории быстро соглашается на изменения, поэтому им легче «продать» или объяснить новые технологии и подходы. Культура работы с данными в этом – не исключение, как показал пример Microsoft. После шестнадцати процентов возникает так называемый «Разрыв», а именно, бетонная стена, в которую врезаются все инноваторы, так как следующая категория ребят уже хочет работающий аналитический сервис, а значит, они не готовы больше проглатывать все шероховатости.

• Раннее большинство – их уже больше, целых 34 процента. Это настоящие прагматики, которых убедят использовать продукт только их друзья или доверенные лица, но если они перейдут на него, то будут продвигать успешность этого продукта.

Кривая Мура об адаптивности инноваций, на примере программы Microsoft об активации культуры работы с данными

По версии Мура, каждая группа требует определенного послания или коммуникации. И все эти послания разные, как можно понять. Microsoft, понимая это, разработал уникальную систему коммуникаций, где явно отделил одних пользователей от других и структурировал послание, которое он несет для каждой из групп. Поэтому, если вдруг внутри вашей компании вы внезапно начнете нести проповедь про культуру данных, нужно помнить, что услышать ее могут далеко не все, а только два с половиной или тринадцать процентов, если уже будет что показать.

 

Как измерить успешность стратегии данных?

Команда некоммерческой лаборатории Digital Impact определила следующие критерии успешности реализации стратегии данных:

• Сотрудники распознают, что такое данные, когда их видят, и предлагают креативные решения по их использованию.

• Сотрудники поддерживают и предоставляют доступ к совместному использованию данных.

• Менеджмент организации инвестирует время и средства в развитие инструментов по сбору и анализу.

С другой стороны, измерение стратегии данных потребует формулирования ключевых факторов успеха, необходимых для реализации стратегии (Key Success Factors). Их достижение будет означать успех в реализации стратегии данных. Например, одним из таких факторов может быть поддержание качества данных на определенном уровне.

Качество данных можно измерить разными способами и разными показателями, такими как:

• Полнота – количество данных в источнике и хранилище (или в отчете или в любом другом месте) совпадает. Нет материальных искажений в полноте описания совершившихся транзакций.

• Актуальность – все описанные события актуальны, то есть произошли в релевантном временном периоде.

• Достоверность – каждое из событий существует в реальном мире и может быть подтверждено соответствующим документом, сотрудником или независимым участником.

• Доступность – ко всем необходимым данным имеют доступ соответствующие сотрудники, все важные атрибуты и транзакции, формируемые в бизнесе, могут быть получены.

 

Сколько стоит реализовать стратегию данных?

Реализация всегда затрагивает несколько ключевых измерений:

• Технологии

• Людей

• Процессы

В каждом из измерений необходимо сформулировать те самые критерии успешности, к которым будет стремиться организация.

Технологии

Выбор подхода к созданию внутренней экосистемы будет влиять на себестоимость хранения одного терабайта. Ценообразование Enterprise Grade решения (для корпоративных систем) стоили кратно дороже, чем стоимость решений на open-source.

Например, в 2012 году Fusion Alliance дал оценку в среднюю сумму по рынку с учетом дисконта в шестьдесят процентов (скидка от основной цены предоставляемой вендором), которая составила 26 тысяч долларов за один ТБ, против четырехсот долларов затрат на ТБ для решений на открытом коде. В эти затраты входили лицензии, установка и разработка, закупка и настройка необходимого оборудования.

Минимальная конфигурация шла в составе шестнадцати ТБ, таким образом, планирование происходило блоками. Позднее, в 2015 году, себестоимость начала снижаться с появлением программных комплексов (таких как HP Vertica) до пять тысяч долларов, без учета затрат на оборудование.

Сегодня создание и управление облачным хранилищем данных, например, с использованием сервисов Google или AmazonWebServices, будет обходиться существенно меньше – от десяти до сорока долларов за все.

Проект Apache сегодня насчитывает порядка 38 различных решений с открытым кодом по Big Data, ряд из них конкурируют, но большая часть решают индивидуальные задачи.

Так Нейт Кнапп,инженер компании Thumbstack, предлагает рассмотреть следующую экономичную инфраструктуру из компонент с открытым кодом:

Архитектура Big Data решения от Нейта Кнаппа с использованием бесплатных решений обработки данных

• Spark – фреймворк с открытым кодом для реализации распределенной обработки и загрузки неструктурированных данных.

• Scoop – фреймворк с открытым кодом, предназначенный для обработки и передачи данных между структурированными и неструктурированными источниками данных.

• Airflow – фреймворк-планировщик, который управляет сессиями задач для фреймворков загрузки данных. Разработан компанией AirB’n’B.

• AWS / Google Cloud Storage – облачный сервис по хранению данных.

• Mode, Periscope, Chartio – платформы и фреймворки по визуализации данных и подготовке отчетов.

Большая часть из них относительно бесплатны в использовании.

Люди

Ключевые затраты, связанные с персоналом, разделяются на ряд ключевых факторов:

• Обучение специалистов новым технологиям. Сегодня объем новых доступных технологий и распределение навыков в профессиональной среде слабо коррелирует, поэтому необходимо вкладываться в постоянное развитие и обучение специалистов.

• Поиск и найм талантливых кадров. Из-за высокой конкуренции за ресурс, в среднем по рынку срок работы на одном месте высококвалифицированного специалиста – менее трех лет, поэтому необходимо постоянно работать в направлении привлечения и удержания ключевых сотрудников, создающих ценность из данных.

• Новые профессии и структуры. Создание офиса CDO может столкнуться внутри организации с радикальными трансформациями. Не всегда существующие на рынке практики позволяют применить эти модели внутри организации. Вполне возможно, что потребуется создание новых профессий.

Выбор стратегии в части персонала будет зависеть от характера CDO.

Например, в части цифровых технологий, в одном из исследований специалисты компании PwC,сформулировали, что существует пять архетипов CDO (Cheif Digital Officer):

• Прогрессивный мыслитель (Progressive Thinker) – миссия этого исполнительного лица состоит в том, чтобы думать, как бизнес может быть преобразован посредством цифровизации и вдохновлять компанию на полноценную цифровую стратегию и операционную модель. Желательно работать непосредственно с генеральным директором. Прогрессивный мыслитель, как правило, сосредотачивается на разработке цифровой стратегии и инноваций в масштабах всей компании, одновременно преследуя новаторские идеи и методы как в мире в целом, так и в отрасли. Компании в более традиционных отраслях промышленности, таких как химикаты, нефть и газ, а также горнодобывающая промышленность, которые уже имеют стабильный и сильный набор дифференцирующих возможностей, но до сих пор не извлекли полной выгоды из оцифровки, должны рассмотреть вопрос о найме прогрессивного мыслителя. Это CDO, который может принести вдохновение и опыт, необходимые для дальнейшей оцифровки текущей стратегии компании.

• Креативный дизраптор (Creative Disrupter) – в отличие от прогрессивного мыслителя, «творческий разрушитель» предлагает более практичный подход к непрерывной разработке новых цифровых технологий, бизнес-моделей и решений. «Творческий разрушитель» может быть особенно ценным в компаниях, сталкивающихся с серьезными и драматическими изменениями в результате оцифровки – в отраслях, ориентированных на потребителя, таких как публикации и розничная торговля. Ему или ей придется работать непосредственно с генеральным директором по бизнес-ориентированному подходу к созданию конкурентной дифференциации, которая приведет к росту доходов и повышению прибыльности, часто путем включения идей и технологий извне их традиционных отраслевых структур и конвенций.

• Адвокат клиента (Customer Advocate) – так называют руководителей, которые обычно отчитываются перед CMO и руководителем продаж или могут даже заменить их, в основном они ориентированы на рынок и удовлетворение потребностей клиентов. В результате адвокаты клиента лучше всего подходят для компаний в отраслях, ориентированных на интересы клиентов: розничная торговля, банковское дело и путешествия, особенно если цифровое мышление еще не проникло в повседневную жизнь их продавцов и специалистов по маркетингу. Адвокат клиента фокусируется на разработке удобного, привлекательного и бесшовного опыта работы с клиентами, используя дизайнерское мышление по всем каналам – цифровым и физическим. Таким образом, он или она несет ответственность не только за онлайн-функцию продаж, но и за последующее обслуживание и послепродажное обслуживание. Компании с портфелями продуктов, уже дифференцированные путем оцифровки, могут ограничить роль CDO-защитой для клиентов и опытным трансформатором.

• Инновационный технолоджист (Innovative technologist) – этот CDO, как высокоинновационный и ориентированный на бизнес IT-директор или главный технический директор (CTO), продвигает использование новых цифровых технологий для преобразования цепочки создания стоимости всей компании, обеспечивая технологическую основу для новых цифровых бизнес-моделей с помощью таких технологий, как Интернет (IoT), мобильности, социальных сетей и аналитики, а также повышения внутренней эффективности и поиска путей сокращения издержек. Цель инновационного технолога заключается не в том, чтобы нарушить работу компании, внедряя способы ведения бизнеса из других отраслей, а в том, чтобы скорее работать на границах отрасли, используя цифровые технологии для получения конкурентной дифференциации за счет скорости, эффективности и развития новых бизнес-моделей, основанных на объединении цифровых услуг с физическими продуктами. Например, компании в обрабатывающей промышленности должны рассмотреть возможность обращения к этим руководителям для дальнейшей оптимизации своих цепочек поставок и внедрения цифровых технологий на заводы для таких ключевых этапов производства, как проектирование и прототипирование. В отличие от Industrial Internet или Industry 4.0, оцифровка производства окажет значительное влияние на эти компании, и инновационный технолог будет играть важную роль в их способности извлечь выгоду из этой трансформации.

• Универсалист (Universalist) – миссия этого типа CDO, как правило, заключается в управлении всеми аспектами и рычагами создания ценности, полной цифровой трансформации. Самый дальновидный из пяти архетипов, универсалист, может добиться успеха только благодаря сильному мандату от генерального директора и полной поддержке исполнительной власти. Отчитываясь непосредственно полностью поддерживающему его генеральному директору, универсалист может контролировать спектр возможных цифровых задач: руководство разработкой цифровой стратегии в рамках общей корпоративной стратегии; разработка новых бизнес-моделей; надзор за цифровым маркетингом и опытом работы с клиентами; внедрение цифровых технологий; повышение операционной эффективности; он может также оцифровывать способы, с помощью которых сотрудники выполняют свою работу. Универсалист должен отвечать за процесс управления организационными и культурными изменениями. Этот архетип особенно хорошо подходит для компаний в любой отрасли, которые оказываются за поворотом в своих усилиях по адаптации к цифровому миру и поэтому нуждаются в исполнительной власти, которая может провести быструю и всеобъемлющую трансформацию.

В зависимости от того, какой из указанных архетипов подходит к организации, будет сильно меняться сама управленческая парадигма – модель управления человеческим капиталом. Каждый из указанных архетипов, со стороны PwC, определяет различные модели управления:

• Подчинение – прямое под СЕО, или вхождение в состав CMO, CIO или СТО.

• Зоны ответственности и компетенций – множество различных задач для каждого из архетипов, начиная от разработки цифровой стратегии, заканчивая поддержкой клиента в CRM-системе.

• Бизнес-результат и KPI – CDO может иметь как явный бизнес-результат, так и неявный, и быть лишь центром затрат с соответствующими показателями оценки эффективности деятельности.

• Платформы и компетенции – в зависимости от модели будет также изменяться технологический ландшафт, например, необходимость включения CRM или IoT.

Процессы

Получение быстрого результата потребует от организации эффективного пост-пространства для креативной работы сотрудников.

Так, консультанты компании McKinsey предложили использовать Agile для формирования совместных эффективных небольших Data Teams.

Agile команда Data Lab по версии McKinsey

При этом так же упрощаются существенно сами этапы получения данных и инсайтов:

• Харвестинг данных (или сбор данных)

• Использование гипотез при исследовании

• Создание аналитических сервисов (продуктов на основании данных)

• Модель управления данными (Governance)

• Презентация полученных кейсов.

Первое, о чем стоим договориться команде, – как выглядит Definition of Done по Аналитическому продукту или продукту с использованием данных.

Для организационных структур, которые требуют конкретного описания процессов, всегда доступны стандартные swim lane диаграммы, разработанные командами ведущих компаний.

Например, команда Microsoft представила исчерпывающую методологию построения процесса изучения данных и получения исследований, опираясь на жизненный цикл данных и стандартизированную ролевую модель:

• Архитектор решений (solution architect)

• Руководитель проекта (project manager)

• Исследовать данных (data scientist)

• Руководитель проекта (project lead)

С другой стороны, для извлечения максимальной ценности и получения адаптивного к моменту процесса управления данными, появилась методология DEVOPS, которая была сформулирована Энди Палмером (Andy Palmer), СЕО и сооснователем компании TAMR (ранее – основатель компании Vertica).

По его мнению, на ее распространение повлияло несколько ключевых факторов:

• Демократизация аналитики – сегодня все больше людей по всему миру работают с аналитикой.

• Создание специальных баз данных (Vertica, VoltDB, StreamBase, BigTable) под задачи – реляционные базы данных устарели, и сегодня одно решение не подходит для любых задач.

Процесс поиска инсайта по версии Microsoft

С одной стороны, решения перестали быть универсальными, с другой – решения должны иметь стандартные интерфейсы (API) для интеграции различных решений. Вместе эти тенденции создают «давление с обоих концов технологического стека».

В верхней части стека – все больше пользователей хотят получить доступ к большему количеству данных в большем количестве комбинаций. А на дне стека – сейчас доступно больше данных, чем когда-либо, и лишь некоторые из них агрегированы.

Единственный способ для профессионалов данных справиться с давлением неоднородности как сверху, так и снизу стека состоит в том, чтобы использовать новый подход к управлению данными. Он объединяет операции и сотрудничество для организации и доставки данных из многих источников, надежно совместимым с происхождением необходимых для поддержки воспроизводимых потоков данных.

Сегодня инфраструктура, необходимая для поддержки количества, скорости и разнообразия данных, имеющихся на предприятии, радикально отличается от того, что предполагали традиционные подходы к управлению данными. Характер DataOps включает в себя необходимость управления многими источниками данных и многопотоковыми конвейерами данных с широким спектром преобразования.

DataOps по версии Эндрю Палмера

Звучит адски сложно, но тем не менее это факт.

Выбор подхода по организации работы с загрузкой, обработкой и агрегацией данных для разного количества данных будет зависеть от многих факторов, которые могут быть индивидуальны для организации. Например, если количество источников данных мало, и они контролируются централизованно со стороны организации, то DataOps как подход избыточен. Но если у организации множество источников данных, различные потребители, потребности в аналитических сервисах и нет возможности проконтролировать сам источник, то единственным эффективным решением по организации работы команды будет DataOps.