Big data простым языком

Благирев Алексей

Хапаева Наталья

Глава 8

А что дальше? Проблемы и тренды

 

 

В 2015 году исследовательская компания Gartner убрала Big Data со своей «кривой хайпа». Но до сих пор вокруг этого термина существует какая-то лихорадочная активность. По-прежнему идет речь о Big Data-трансформации, но далеко не всегда понятно, что это такое, и какую конкретно пользу оно может принести бизнесу. Сам по себе переход на новые технологии вряд ли может привести к увеличению прибыли или сокращению накладных расходов.

 

Проблемы с Big Data сегодня

Хотя технологии Big Data сейчас уже применяются промышленно, бо́льшая часть проектов в этой области не имеет успеха. Почему?

 

Мы думаем, что понимаем Big Data

Проекты, связанные с Big Data-аналитикой, часто воспринимаются всеми (менеджментом и самими разработчиками) как традиционные IT-проекты с фиксированным скоупом (объемом работы).

В реальности же это, скорее, RnD-проект (Research and development или исследование и разработка). И ключевую роль здесь играет именно исследовательская часть. На самом деле, не определены ни конечный результат, ни время, за которое будет получено хоть что-то.

Big Data аналитика – это постоянное исследование, в ходе которого скорее появятся внезапные полезные инсайты, чем стабильные и быстрые бизнес-результаты (конечно, если речь идет о новом проекте). Однако то, как раскрывается ценность этих инсайтов, зависит больше от знания предметной области, чем от количества данных, математической или технической сложности решения. И здесь как никогда справедлива фраза «отрицательный результат – тоже результат», только надо уметь это увидеть.

Еще одна проблема – недостаток специалистов. Покупка инструментов и применение agile-методологии в полной мере ее не решает. Уровень опыта и экспертиза также играют роль в успешном завершении исследовательских проектов Big Data.

 

Как рассчитать финансовый эффект?

Большая гибкость в отношении сроков и результатов проекта ведет к необходимости выделения большего количества ресурсов. Оно начинает слабо и предсказуемо расти, когда компания сталкивается с реальными долгосрочными задачами и необходимостью соблюдать SLA, а также требования регуляторов.

Сроки гибкие, результат непредсказуем – значит, на проект может уйти больше ресурсов (времени, людей, денег), чем предполагалось.

Проекты, связанные с Большими данными, не всегда решают уникальные задачи. Эти проекты считаются научными без каких-либо бизнес-целей или показателей. Чтобы извлечь максимальную выгоду из этого, нужно направить усилия на конкретную потребность или проблему бизнеса. Чтобы оправдать инвестиции для проектов Big Data, требуется постоянно демонстрировать результаты. Бизнес требует быстрого и гибкого доступа к данным с прозрачными SLA. В результате оказывается, что бизнес ожидает большого количества дешевых инсайтов, а Big Data- и Data Science-специалисты требуют ресурсов на исследовательскую составляющую проектов и большую толерантность в ошибках и неудачах, являющихся неотъемлемой частью их работы. При правильном использовании, Big Data дает широкий спектр возможностей для бизнеса сегодня и в будущем. Проблема заключается в нехватке квалифицированных специалистов и неравномерной выдаче результатов. Это только вопрос времени, когда Big Data станет важной частью принятия бизнес-решений. Если эти ошибки будут учтены, станет намного проще реализовать любую стратегию, связанную с Большими данными. Еще один способ увеличить шансы на успех – использовать правильные инструменты для правильного проекта.

Вообще, все бизнес-цели можно разделить на два больших направления:

– Создание и запуск нового сервиса с использованием данных

– Оптимизация текущего процесса или сервиса с использованием данных

На практике необходимо забыть о сложности самих технологий и ограничениях в компетенциях, и использовать все возможности как необходимые компоненты при трансформации.

В первом случае расчет доходности использования технологий ничем не отличается от расчета окупаемости инвестиционных затрат при запуске нового продукта. Как ни банально, но мы переступили черту, где хотели кого-то удивить, и попали в мир, где уже «так принято» использовать данные.

Во втором случае финансовый эффект можно оценить по той части процесса, которую мы собираемся менять. Сравнивается себестоимость текущего звена процесса, размер сопутствующих операционных рисков и инвестиционных затрат на разработку и замену этого компонента сервисом с использованием данных. Строится описание текущего процесса, который планируется затронуть с использованием одной из существующих общепринятых нотаций (EPC, BPMN и других), где нужно заменить один из типизированных этапов в процессе:

• Ручной ввод со стороны человека заменяется обработкой и анализом ранее введенных логов. Большинство значений внутри процесса стандартизируется и классифицируется, и человек вводит данные только в исключительных случаях. При этом алгоритм может запоминать введенное значение, чтобы его не нужно было вводить снова. Сравнивается себестоимость текущего звена процесса, размер сопутствующих операционных рисков и инвестиционных затрат на разработку и замену этого компонента сервисом с использованием данных. Такие сервисы в среднем окупаются за срок не более полутора года. Бывают случаи, когда сервис не может полностью заменить оператора процесса: например, оператора для чата мобильного банка, взаимодействующего с пользователем. В этом случае сервис может вместо набора текста использовать всплывающие подсказки, если ему не удастся полностью распознать запрос.

• Сверки и реконсилиации – это целый этап в бизнес-процессе, на котором пользователи тратят время на проверку и аудит полученной ранее информации. Его можно заменить на автоматические проверки. Например, в процессах выпуска финансовой отчетности есть очень много точек, когда информация проверяется и сверяется с источниками данных перед тем, как попасть на стол к финансовому директору.

 

Big Data может быть вообще не нужна

Big Data – это модная и современная технология, и часто возникает соблазн везде ее использовать.

Причины могут быть разные.

– Когда в руках молоток, все вокруг – гвозди.

– Незнание предметной области.

– Необходимость произвести впечатление на бизнес и публику. Было время, когда стартапы, не использующие «ML/AI» просто не воспринимались всерьез.

– Просто интересно попробовать новое. И в этом нет ничего плохого, если отдавать себе отчет о сроках, ресурсах и возможных последствиях.

На вопросы бизнеса зачастую можно ответить с помощью простого SQL. А бизнес-логику сделать на нескольких сценариях «если – то».

И все же, несмотря на эти проблемы, технологии продолжают развиваться и двигаться вперед.

 

К чему мы движемся? Тренды

Облачные решения

В 1980–х появилась концепция Plug and Play (англ. включил и играй/работай). Она позволяла собрать свой домашний компьютер из отдельных деталей, у которых были стандартные интерфейсы. Облачные технологии позволяют сделать то же самое, но уже по отношению к бизнес-процессу или бизнесу в целом. Концепции Process-as-a-Service, Data-as-a-Service, Analytics-as-a-Service уже сегодня позволяют собрать как из конструктора работающую IT-систему для бизнеса.

Облака позволяют сократить затраты на инфраструктуру и ее обслуживание. Еще одно преимущество – быстрое масштабирование. При возросшей нагрузке мы можем быстро увеличить количество доступных системе ресурсов.

Ожидается, что к 2020-му году (по крайней мере) треть всех данных будет проходить через облако.

Лидеры рынка, которые способны эффективно анализировать несколько источников данных, могут использовать различные возможности для повышения эффективности работы. Крупный бизнес уже начал активно менять свои процессы и переносить данные и работу с ними в облако.

– Вся инфраструктура Pinterest находится в облаке.

– Компания Xerox использовала стратегию облачных вычислений для эффективного анализа данных и снижения скорости изнашивания в своем call-центре на двадцать процентов.

– Компания Caterpillar разрабатывает специальные облачные решения для анализа и отслеживания того, как работает ее техника в совокупности с предоставляемыми финансовыми сервисами, что позволяет существенно сократить расходы на аудит и мониторинг объектов, которые могут быть заложены в рамках сделках финансового лизинга.

– Компания Боинг в 2015 году перешла на облачную платформу. Это ускорило более чем в 100 раз работу ее служб доставки и в шесть раз увеличило утилизацию активов.

В России бизнес не всегда спешит переходить на облачные технологии. Это связано с тем, что большинство крупных облачных провайдеров – это зарубежные компании. Поэтому возникают законодательные ограничения и риски, связанные, например, с курсом валют.

Кроме того, многие традиционно не доверяют третьим лицам данные, представляющие собой коммерческую тайну.

Тем не менее, облачные решения появляются и на нашем рынке.

 

Машинное обучение применяется все чаще

По мере того, как развивалась Big Data-аналитика, некоторые компании стали инвестировать в машинное обучение (ML). Машинное обучение остается одной из самых востребованных и внедряемых технологий. И она еще не исчерпала свой потенциал. По прогнозу аналитической фирмы Ovum, машинное обучение – один из главных трендов в Big Data-технологиях. Его применение будет все расширяться. От задач по бизнес аналитике оно перейдет на большинство задач по подготовке и преданализу данных. Не исключено, что ряд задач по интеграции источников данных также будет решаться с привлечением машинного обучения через анализ и интеграцию словарей (описание объектов данных в тех или иных источниках).

Аналитика всего

Предсказательная аналитика тесно связана с машинным обучением. На самом деле, системы ML часто предоставляют инструменты для аналитики интеллектуального программного обеспечения.

На заре появления Big Data компании исследовали свои данные, чтобы понять, что было в прошлом. После этого они начали использовать свои инструменты для анализа, чтобы определять причины тех или иных событий.

Прогностическая аналитика идет еще дальше. Она предсказывает, что произойдет в будущем, используя анализ Big Data. Число организаций, использующих предсказательную аналитику в 2017 году, – не очень большое, всего 29 процентов, согласно опросу 2016 года от PwC.

Тем не менее многие поставщики готовых решений представляют интеллектуальные инструменты для аналитики. И за счет их клиентов количество компаний, использующих предсказательную аналитику, может резко увеличиться.

Большая часть финансовых функций и подразделений также будет заменена алгоритмами и сервисами, позволяющими получать инсайты и ответы на регулярные вопросы со стороны владельцев бизнес-процессов о состоянии дел.

Поменяются и форматы представления данных – в сторону стандартных нотаций (например, XBRL).

Сайты компаний будут иметь интерфейсы для аналитических сервисов, которые будут позволять автоматизировать, например, отчетность для инвесторов.

Big Data приложения – появляется простота и стабильность

Машинное обучение и технологии ИИ используются для создания приложений. Они, например, анализируют предыдущие действия пользователя, и за счет этого делают персонализированные предложения. Одним из известных примеров являются рекомендательные сервисы, которые сейчас используются множеством приложений для электронной коммерции и развлечений.

Развивается направление Intelligent Security

Многие компании также включают Big Data-аналитику в свою стратегию безопасности. Данные из логов организаций предоставляют информацию о прошлых попытках атак. Их можно использовать для прогнозирования и предотвращения будущих атак.

В результате, некоторые компании интегрируют свое ПО для обеспечения безопасности и управления событиями с платформами Big Data, такими как Hadoop. Другие – обращаются к поставщикам решений по безопасности, чьи продукты включают в себя большие возможности для анализа данных.

Все больше решений IoT

Интернет Вещей тоже вносит вклад в Большие данные. Согласно отчету IDC,«31,4 процента опрошенных организаций запустили решения IoT, а 43 процента планируют развернуть их в ближайшие 12 месяцев». Со всеми этими новыми устройствами и приложениями, которые появляются в сети, данных будет еще больше, чем раньше. Многим компаниям потребуются новые технологии и системы для обработки возрастающего потока данных, поступающих из их решений IoT. Большую интеграцию и развитие также получат смежные сервисы, где данные с устройств будут использоваться для предоставления сторонних сервисов, например финансовых, таких как страхование имущества или кредитование под поставку объектов имущества.

Развиваются решения Edge Computing

Одной из новых технологий, которые могут помочь компаниям справиться с Большими данными IoT, являются вычисления на узлах (машинах), близких к источникам данных.

Это называется Edge Computing (англ. edge – «край»). В Edge Computing Big Data-анализ происходит очень близко к устройствам и датчикам IoT, а не в центре обработки данных или облаке. Компаниям это дает существенные преимущества. У них становится меньше данных, передающихся по их сетям. В результате, можно повысить производительность и сэкономить на стоимости облачных вычислений в сети. Это позволяет организациям удалять данные IoT, которые являются ценными в течение ограниченного периода времени, что снижает затраты на хранение и инфраструктуру. Edge Computing также может ускорить процесс анализа, снижая time-to-market для аналитики.

Возрастает ценность людей

Для IT-специалистов рост Big Data-аналитики, вероятно, будет означать высокий спрос и высокие зарплаты для тех, кто смог быстро набрать опыт по работе с Big Data-технологиями. По данным IDC: «Только в США в 2018 году будет 181000 вакансий, связанных с аналитикой, и в пять раз больше позиций, требующих соответствующих навыков управления и интерпретации данных».

Появился целый новый рынок труда со множеством профессий и специализаций, не имеющий пока четких критериев для отбора и поиска специалистов, за исключением рейтингов Kaggle или участием в тех или иных исследовательских проектах. Большим риском в предстоящем развитии новых профессий по работе с данными является в том числе их оторванность от понимания бизнес-специфики, так что специалисты, которые будут совмещать в себе понимание как IT, так и бизнес-составляющей, будут получать высокие зарплаты.

Существенную роль сыграет постепенное появление CDO (Chief Data Officer) в команде руководства большинства компаний. Если проанализировать публичные профили известных CDO, то большинство из них сегодня пришло к этой роли из бизнеса через трансформацию своей компании, сохранив при этом определенный уровень компенсаций и ожиданий.

Растет популярность Self-Service

Поскольку стоимость найма экспертов возрастает, многие организации будут искать инструменты, которые позволят обычным бизнес-пользователям удовлетворять свои потребности в аналитике данных. Ранее IDC предсказывал, что «инструменты для визуальной работы с данными будут расти в два с половиной раза быстрее, чем рынок бизнес-аналитики (BI). К 2018 году инвестиции в этот инструмент Self-Service конечных пользователей станут обязательными для всех предприятий». Несколько поставщиков уже запустили инструменты для аналитики Больших данных с такими возможностями. Эксперты ожидают, что тенденция продолжится и дальше. IT, скорее всего, будет менее вовлечен в процесс, так как большая аналитика данных относится, в первую очередь, к предметной области, которой занимаются бизнес-пользователи.

Рост объемов данных продолжится

Сегодня компаниям нужно все больше знать о своих продуктах и пользователях и, как следствие, успевать адаптироваться к изменяющимся требованиям со стороны рынка.

Даже промышленный сектор стал активно переходить в область использования аналитики и работы данными. Так, промышленная компания по разработке программного обеспечения Uptake быстро достигла капитализации в один миллиард долларов, получив звание единорога. Суть ее предложения – помогать промышленным компаниям оптимизировать свой бизнес и продукты на основе инсайтов, полученных из анализа при работе с промышленными данными. Компании удалось построить решения для различных индустрий, начиная от транспорта и добычи, заканчивая использованием аналитики для альтернативных источников энергии (ветер и так далее).

Согласно исследованиям рост данных для аналитики в реальном времени составит около тридцати процентов в ближайшие два года.

Работа с большими объемами и потоками данных – больше не прерогатива крупных компаний с большими бюджетами, теперь она доступна и среднему, и малому бизнесу. Это стало результатом популярности (и, как следствие, появлению простых упакованных решений) технологий Big Data и уменьшению их стоимости.

In-memory решения

Одна из технологий, которую компании исследуют и начинают применять в попытках ускорить обработку Больших данных, – это in-memory решения. В традиционных БД данные хранятся в системах хранения, оборудованных жесткими дисками или твердотельными накопителями (SSD). In-memory технология хранит данные в ОЗУ, а это во много раз быстрее. В отчете Forrester Research говорится, что рост количества данных в in-memory решениях будет составлять 29, 2 процента в год.

Конец Big Data

Термин Big Data постепенно отмирает. Он охватывает слишком много тем.

Развивается и специализация. Скоро говорить: «Я работаю в Big Data» будет так же странно, как и «Я работаю с компьютером». Уже сейчас существует множество дисциплин – от машинного обучения, сбора и управления данными до их безопасности. Эти дисциплины имеют между собой мало общего или вообще не связаны, но все равно относятся к Big Data. Кроме того, Big Data сейчас проникает абсолютно во все сферы жизни, и выделять ее в отдельную отрасль становится бессмысленным. Промышленность, IT, образование и даже дизайн сейчас используют или начинают использовать инструменты Big Data для сбора и анализа данных, появляющихся в процессе цифровизации.

 

Послесловие

Сегодня данные стали (или становятся) важной частью нашей жизни. Сервисы и продукты становятся цифровыми.

Надеюсь, что эта книга помогла составить общее понимание о том, как работают системы Больших данных и для чего они вообще применяются.

Появляются новые инструменты и фреймворки, которые позволяют работать с данными максимально широкому кругу людей. И поэтому очень важно, чтобы все эти люди говорили на одном языке и хотя бы примерно представляли, как все это работает.

В этом смысле книга полезна как начинающим, так и уже сложившимся специалистам. Она будет интересна тем, кто задумывается о смене карьеры, и тем, кого своя карьера устраивает/кому просто любопытно.

Мир меняется, и сейчас навык анализа данных требуется и юристам, и маркетологам, и множеству других профессий. Во многих организациях сейчас идут кампании по продвижению data-driven культуры, но тут часто дело ограничивается только технической стороной – базовым обучением программированию, SQL и, может быть, вебинарами «Learning для чайников».

Но этого недостаточно. Золотой принцип аналитики – это «Garbage in – garbage out», что означает: никакие технические навыки не заменят умения понимать, откуда данные взялись, насколько им можно доверять и каковы границы их применимости.

Высокоуровневое представление о Big Data важно и для бизнеса. Сотрудники компаний, собирающиеся монетизировать свои потоки данных, могут с ее помощью оценить, насколько их подход к вопросу системный. Те, кто еще этого не делает – оценить, что им (возможно) предстоит сделать в будущем.

«Взгляд с высоты птичьего полета» нужен и обычным людям, никак, казалось бы, не связанным профессионально с миром Big Data. По аналогии с компьютерной грамотностью людям сейчас нужна и data-грамотность. Любой человек сейчас должен понимать, какие «следы из данных» он оставляет, и что с этими данными будет дальше.

Данные, которые мы сейчас довольно бездумно и беззаботно оставляем в публичном доступе, могут остаться там на всю нашу жизнь – и влиять на нее. Яркий пример – расторжение контракта с Джеймсом Ганном из-за твитов, сделанных в 2011 году.

Аналогичная история с данными, которые мы отдаем разным коммерческим и некоммерческим организациям. Многие ли из нас хотя бы просматривают соглашение об использовании данных при регистрации в новом сервисе? Понятно, что почти никто.

Как эти данные будут применяться, сколько лет они будут храниться, могут ли их кому-то перепродать? Будете ли вы рады, если информация о ваших покупках войдет в данные для скоринговой модели микрофинансовой организации?

Не хотелось бы заканчивать книгу на мрачной ноте. Работа с данными – это увлекательное занятие, результаты которого действительно меняют мир.