Глава 5. Метаданные. «Big data простым языком» | Благирев Алексей

Сижу смотрю фильм «Анон», где общество лишено личной жизни и прав. Специальные службы записывают на сервера с терабайтами данных все, что происходит вокруг, используя наше зрение. Внезапно происходит череда загадочных убийств…Главный герой встречается со своим напарником, чтобы исследовать их, и вместе они начинают анализировать метаданные жертв.

В этот момент в моей голове не происходит сбоя, потому что я понимаю, что такое метаданные, и все в фильме выглядит крайне логичным. Но что, если я понятия не имею об этом? Тогда мне подсовывают красивый фантастический фильм по аналогии с «Особым Мнением».

Глаза – это самый высокоскоростной интерфейс, поэтому они находятся на голове. Если бы они были, скажем, на заднице, то сигнал от них доходил был долго, и весь мир воспринимался бы нами с большой задержкой. Герои фильма «Анон» все делают глазами: звонят друг другу, оплачивают покупки, передают файлы того, что видят, идентифицируют себя. Все с помощью глаз.

Samsung представил в 2018 году, умную контактную линзу, которая может совершать эти операции с помощью глаз. Линза проецирует изображение на глаз, позволяя воспринимать контент новым образом. Но также линза содержит и камеру, позволяя записывать видеопоток того, на что смотрит человек.

На протяжении всего фильма бравые парни пытаются отследить цепочку серверов и выследить метаданные.

И вот тут мое сознание дало сбой, потому что я не смог сформировать в голове единую платформу, на которой все живут. Возникла куча вопросов: как так вообще получилось, что всех на нее перевели.

По ряду причин я не сторонник централизованных платформ. Во-первых, делать их очень долго и дорого. Во-вторых, размер риска взлома гораздо выше, так как все находится в одном месте. В-третьих, чтобы управлять таким объемом данных, нужно правильно структурировать их, а это определенные компетенции.

В моем опыте был один проект построения крупного хранилища данных. Мы пытались совместить все ключевые функциональные подразделения организации вместе и получили ситуацию, сложность которой не могли представить.

Представьте себе на минуту, что человек, который работает с большими объемами данных и проектирует сервисы, должен уметь разбираться в том, с чем именно он работает, – риски, продажи, бэк-офис, финансы и отчетность и так далее. По факту, таких людей единицы, поэтому централизованные системы обречены. В какой-то момент с ними никто не сможет разобраться.

В этом заключается интересный парадокс: чем больше люди хотят контролировать и чем больше они тратят ресурсов на централизацию, тем меньше в реальности они контролируют, и тем сложнее становится сама система. Выживут только небольшие управляемые компоненты.

Лазейки, оставляемые архитекторами таких платформ, похожи на небольшие тропинки, по которым идешь будто в потемках. Если мир полон красок, то эти лазейки переносят в пространство, где красок нет, но есть описание, что какие-то материалы применяются. Будто хоббит надел кольцо, и мир преобразился, лишился красок и стал похож, скорее, на чертежи.

Уж не знаю, какие еще аналогии привести, но смысл, думаю, понятен. Речь идет про те самые метаданные. Подложку мира. Описание того, как работает основная сцена.

Изучать эту подложку – это как смотреть на чертежи здания. Либо ты видишь, что архитектура безупречна, либо, что у архитектора руки растут из другого места.

А если таких зданий много, и вы находитесь в большом городе? Вдруг вы хотите открыть свой бизнес по продаже окон. Вам бы прикинуть, сколько окон вы можете продать и кому. Сможете просто взять и посчитать?

Возьмем что-то посложнее, например локомотив. Он состоит из секций, секции состоят из узлов, узлы представляют собой объединение деталей. Вот локомотив приехал на ремонт. Как понять, сколько конкретных болтов в нем нужно заменить в рамках регулярного ремонта? Нужно, чтобы техническая документация имела определенное описание, чтобы это описание можно было использовать и сделать запрос к информационной системе, где оно хранится. Бинго, правильно, используем метаданные.

Метаданные не только нужны для поиска и работы с большими массивами данных. Их еще очень часто используют различные люди и организации для получения доступа к тому, к чему они его легально получать не должны.

Большинство провайдеров сервисов (телекоммуникационные компании, мессенджеры и другие) собирают метаданные о звонках и сообщениях. В случае с iMessage, такие сообщения будут содержать помимо времени звонка еще и данные о номере телефона, IP-адресе и номере адресата, который получил сообщение. Все это хранится в едином логе – истории изменения метаданных. Информация используется и предоставляется третьим лица, если на то есть решение правоохранительных органов.

В фильме «Анон» следователь получал доступ, используя метаданные к архивным файлам людей, и показывал их родственникам или пострадавшим жизнь глазами обвиняемых. И все это через метаданные, которые хранят последовательности с обращениями серверов о том, какие данные там хранятся.

Метаданные чаще всего используются для ведения каталога. Книжки, вещи, запчасти к велосипеду. В общем, если запускать большой бизнес, который будет торговать или что-то предлагать в Интернете, то работа с метаданными – это из ряда must have.

Откуда она такая появилась

В 1965 году одним из первых появился стандарт IPTC-описания фотографий в Ассоциации Новостных Газет Америки. Стандарт включал в файл обязательную информацию – автора, заголовок, дату создания. Когда файл обрабатывали приложения, появившиеся чуть позднее (к примеру, Photoshop), они уже адаптировали этот стандарт, и все изменения сохраняли в файлики с форматом *JPEG, *PNG или *TIFF.

Позднее, в начале 90-х, все это было уже структурировано более изящно и преобразовано в XML, чтобы можно было работать со сложным поиском. Adobe показал миру платформу XMP, которая встраивала мета-информацию в файлы самостоятельно, без участия пользователя в формате, который мог быть воспринят как человеком, так и машиной.

Метаданные стали ключом к поиску. К сложному поиску в больших массивах данных.

Самое важное здесь, конечно же то, что формат данных по-прежнему понятен и человеку, и машине.

Стандарт XMP впоследствии стал открытым стандартом ISO (16684-1). В совокупности такая стандартизация дала возможность:

• Управлять контекстом не только во время путешествия вокруг баз данных, но и обмениваться их в индустрии в целом.

• Организовать полноценный поиск среди разных форматов файлов и различного контекста.

• Управлять и определять взаимосвязями объектов, их жизненного цикла (создание контента и его удаление).

Почему я начал с фото, а не с книг, где метаданные появились в первую очередь? Например, с той же Десятичной Классификации Дьюи,которая впоследствии стала основным иерархическим справочником материала для библиотек на добрые полтора века.

Просто потому, что фотографии сыграли ключевую роль в обучении алгоритмов данных. Большая часть нейронный сетей обучалась изначально на большом массиве фотографий, где метаданные были размечены вручную – Image.Net. Собственно, если бы не эта большая работа, алгоритмы не могли бы отличать красное от черного, собак от кошек, человека от унитазного бачка…

Сегодня метаданные к картинкам теперь могут заполнять сами алгоритмы. То есть они прямо анализируют картинку. Пусть, скажем, там изображена собака на прогулке вдоль городской улицы. Алгоритм напишет, что на фотографии – собака, порода – лабрадор, а также там есть дома, пожарный гидрант, и все происходит днем. Теперь это тоже часть метаданных.

Само слово «метаданные» впервые ввел Филипп Бэглей в своей книге «Extension of Programming Language Concepts», опубликованной в 1968 году. Он и ввел понятие «прескрипторы», которые описывали данные кратким и понятным образом.

Теперь такие данные собираются обо всем, начиная с географических карт, заканчивая музыкальными файлами.

В России стал популярен сериал «Карточный домик», он о том, какие нелегкие дела творятся в Белом Доме США. Сериал встал наравне с таким гигантом, как «Игра престолов». Пока я работал в офисах последние несколько лет, за обедом коллеги обсуждали исключительно то, как разворачиваются дела у Фрэнка Андервуда, одного из главных героев политического триллера. Но кто задумывался о том, что Netflix инвестировал в создание этого сериала анализ метаданных от 44 миллионов своих пользователей?

В общем, понятно, что метаданные – это важно, и что на них делают бизнес.

Правда, сегодня существует ряд проблем, связанных с ними. Вот ребята делают исследование. Их больше всего интересует его результат, нежели сделать по итогам исследования правильную архивацию, расставить необходимые метки и признаки. Получается, что исследование есть, а поженить это исследование с другими наборами данных – сложновато.

Порой даже те данные, которые публикуют, представляют собой не полную выборку, а какой-то ее определенный фрагмент для поддержания результатов исследования.

В 2016 году журнал «Science» опросил более полутора тысяч ученых, представляющих ключевые дисциплины (химия, биология, медицина, физика, экология и другое), с целью понять, как именно они используют свои данные: могут ли они их воспроизвести и повторить результат исследования?

Оказалось, что более семидесяти процентов исследователей не смогли воспроизвести результаты других ученых. Как факт 52 процента из них подтвердило, что в науке начался новый кризис воспроизводимости результатов, говорящий о том, что большинство результатов полученных в современной науке невозможно повторить. Одна из названных причин – данные, другая – отчетность, публикуемая в поддержку тех или иных гипотез. Такая отчетность представлена выборочно, то есть команда проекта публикует только те отчеты, которые поддерживают исследование, а не опровергают его.

Низкий уровень культуры работы с ними делает невозможным повторное их использование. С другой стороны, в науке нет консенсуса в вопросе «как нужно использовать данные, чтобы можно было возобновить на них результаты исследований другого учетного». Просто потому, что время, потраченное на причесывание таких данных, увеличивает время, потраченное на исследовательский проект, более чем на тридцать процентов, поэтому не всем очевидно, зачем это делать.

Одна из успешных стратегий снижения риска заключается в том, что на основании данных нельзя будет ничего воспроизвести – в этом случае необходимо формулировать гипотезу и планировать, какие данные нужны будут для ее подтверждения с участием третьих лиц.

Какова разница между воспроизведением и репликацией результатов исследования? Для репликации можно взять данные из репозитория и использовать на них код. Пусть это не всегда работает, но все же работает. А вот получить результаты, близкие к лабораторным, крайне сложно, потому что нет единой модели метаданных – то есть, описания того самого единого города, в котором мы находится.

Представьте, что у вас есть чертежи различных строений на разных языках с разным форматом описания. А вам нужно попробовать выделить общее между ними, например, понять, где находится лифт, нуждается ли он в ремонте, узнать, как организованы системы снабжения и коммуникации. У вас на столе лежит несколько различных схем, в которых без бутылки не разобраться.

А что, если часть таких схем просто сфабрикована и не имеет ничего общего с реальными построениями?

Йошихиро Сато был известным уважаемым японским специалистом по костям. Он посвятил пятнадцать лет исследованиям в области остеохондроза, опубликовал порядка двухсот научных результатов и провел более 33-х клинических исследований.

В составе группы ученых Йошихиро Сато исследовал влияние болезни Паркинсона на снижение массы костей и скелета, как следствие, на возможное осложнение остеохондроза у пациентов в районе Kahanzan. Формировались небольшие выборки пациентов по 86 человек в среднем, к которым добавляли других пациентов с болезнью Паркинсона, и давали лекарство вместе с таблеткой плацебо. Средний возраст пациентов составил 70,6 лет (от 65 до 88). В контрольной группе было 35 мужчин и 51 женщина.

Группы наблюдались в течение 18-ти месяцев, пациенты оценивались и осматривались каждые две недели. Им давали витамин D, а сложное рентгеновское оборудование анализировало толщину их костей. Во избежание влияния третьих факторов составлялись сложные опросники по диете, влиянию солнечного света и так далее. У одной из групп было выявлено существенное снижение кальция в костях (более чем на 25 процентов). Тогда этим пациентам предложили использовать определенные витамины и питание для повышения усвояемости витаминов в костях, чтобы не было потери массы. Исследования показали положительную корреляцию употребления витаминов D и B для пожилых людей со сложными болезнями Паркинсона и Альцгеймера.

В январе 2017 года Йошихиро Сато скончался при невыясненных обстоятельствах. Оказалось, большинство его работ по клиническим исследования содержат сфабрикованные данные, которые впоследствии были опровергнуты научным сообществом. Он стал автором крупнейшего скандала в науке с подделкой данных.

Годом ранее Марк Болланд из университета Окланда (Новая Зеландия) провел статистические исследования с использованием данных господина Сато за все 15 лет работы и выявил, что большинство его исследований – подделка. Даже соавторы в большинстве работ, как оказалось, не знали о своем участии и не участвовали в этих работах вовсе. Теперь ответ, каким образом Йошихиро Сато смог опубликовать более двухсот научных работ, лежал на поверхности. При более детальном изучении данных, открывались новые подробности о том, как он мог собирать 280 пациентов для своих исследований всего за два месяца или наблюдать 780 пациентов в течение 18 месяцев одновременно.

Для сравнения отмечу: нанять на работу 280 сотрудников за два месяца возможно, разве что для простой работы, например, контакт-центр или поддержки. Найти квалифицированных специалистов или, как было указано в исследовании, пациентов с конкретной болезнью – очень проблематично.

Судьбы людей вершились исключительно при использовании данных. Болланд никогда лично не встречался с Сато и впервые о нем услышал только в 2012 году, когда его коллега доктор Алисия Авенелли рассказала ему о странных данных в исследованиях Сато, которые при проверке оказались слишком научными.

Первый контакт состоялся в Марте 2013 года, когда Болланд и Авенелли написали в журнал Американской Медицинской Ассоциации – наиболее уважаемый журнал из тех, которые публиковали статью и исследования Сато. Главный редактор журнала дал указание обратиться к Сато и его институту, чтобы получить пояснения по выявленным в данных фактам.

Через два года, в апреле 2015-го, никакого ответа не пришло, в связи с чем журнал опубликовал результаты расследования и претензию к полученным и ранее опубликованным результатам Сато. Репутация Сато была настолько высокой, что журналы не решались поначалу идти против него и предъявлять обвинения в искажении результатов.

К декабрю 2016 года только 10 из 33 опытов были опровергнуты, когда вышло очередное расследование в журнале «Нейрология».

Только пять процентов из опубликованных исследований приходят из Японии, поэтому такой удар по научной среде привел к потере репутации для японских ученых. Остается загадкой, зачем Йошихиро Сато подделывал так много результатов своих работ и фальсифицировал данные.

На сегодняшний день он занимает шестую строчку по количеству отозванных результатов клинических исследований.

На первом месте в этом списке находится японский ученый Йошитака Фуджи, который занимался клиническими исследованиями в области анестезии. Согласно отчету, опубликованному 8 марта 2012 года, во всех 169-ти клинических испытаниях данные были искажены и сфабрикованы (в общей сложности для 171-го исследования).

На втором месте находится Хоаким Болд с исследованиями в области грудной хирургии, который так же был уличен в подделке данных.

На третьем месте – Дидерик Штапель со своими сфабрикованными исследованиями в области социальной психологии. В целом масштаб таких проблем в науке поражает. Эти имена – лишь верхушка айсберга.

Спасти эту ситуацию может блокчейн. Одно из решений – платформа Frankl, которая интегрирует всех ученых в единую открытую сеть. Туда можно загружать данные и делиться ими друг с другом для проверки чужих или проведения своих подобных исследований. Если не вдаваться в подробности, то Frankl пытается создать распределенную сеть, где можно будет контролировать качество данных, что фактически снизит размер потенциальных фальсификаций.

Регистрировать все метаданные на блокчейне – самый простой шаг, но очень мощный, чтобы контролировать полноту данных, используемых в исследованиях.

Итак, метаданные – это в первую очередь явление чисто человеческое, то есть, его нет в природе. Человек разработал его специально для себя, чтобы обрабатывать большие объемы информации и оптимизировать поиск необходимого контента. Метаданные уже спроектированы и во многом генерируются автоматическими устройствами.

С другой стороны, мы вовсе не коснулись проектирования баз данных. И это хорошо, потому что это очень занудная для обычного читателя тема. Если кратко, то при проектировании сложных экосистем метаданные используются для управления потоками загрузки и обработки данных. Они формируют управляющую логику того, как данные собираются и обрабатываются.

Есть интересная работа, надеюсь, не поддельная, по оптимизации работы с базой данных Википедии. В работе предложен специальный инструмент по управлению и архивированию исторических данных: индексы, каталоги, описание – все, что помогает оптимизировать поиск по историческим данным.

В зависимости от используемого решения систем хранения и обработки данных, на рынке предлагаются различные решения по управлению метаданными, использующими специальные сервера. По версии «волшебного квадранта» Гартнера, лидером таких решений является Informatica. Хотя, конечно, я слышал, что за то, чтобы попадать регулярно в этот квадрант, нужно платить определенную сумму, поэтому там нет начинающих или малоизвестных компаний.

Все эти решения отличаются как функциональными возможностями, так и пользовательским интерфейсом. Пользователями таких решений являются инженеры в области данных, они здесь самый ценный ресурс, так как этой компетенции, к сожалению, не обучают в ВУЗах, а количество специалистов на рынке стремится к минимуму.

Раньше процесс найма проходил в основном самостоятельно, в недрах IT. Сегодня за это должен отвечать отдельный лидер в организации. Но вопрос о том, где взять специалистов, по-прежнему актуален, поэтому приходится выкручиваться. Я, например, был сторонником того, чтобы поощрять горизонтальное движение сотрудников как внутри организации, так и за ее пределами.

Мы собирали ребят из службы IT-поддержки, потому что им по факту приходилось ковыряться в базах данных различных IT-систем, анализируя те или иные метаданные. Приглашали на работу сотрудников других компаний, которые занимались выпуском и проверкой финансовой отчетности. Такие люди понимают ценность данных и анализируют, в каких системах лежат наиболее ценные данные. Каждый такой кейс мы рассматривали отдельно.

Обучение новым навыкам мы строили на основе практики, потому других источников знаний у нас не было. С одной стороны, это создавало риски, с другой – поощряло свободу к действиям. Сотрудники были как никогда нацелены на результат, а их предыдущий опыт помогал находить нестандартные решения в тех или иных вопросах.

Стоит отметить, что бизнес-лидеры не всегда понимают ценность отдельно взятых решений по работе с метаданными.

Это какая-то малопонятная область работы и применения ресурсов, и не всегда ясно, зачем на это нужно тратить время. Надеюсь, что пример с чертежами зданий и новые фильмы по аналогии с «Аноном» позволяют раскрыть потенциал метаданных. Моделей монетизации таких решений очень мало.

Например, при расчете себестоимости функции работы с данными как сервиса, я использовал исследования Калифорнийского университета, где была приведена модель затрат и ценообразований функции использования данных. В этом отношении я мыслил достаточно просто – нужно было продавать именно данные как сервис, а работу с метаданными сделать обязательным компонентом себестоимости этого сервиса. Сервисная модель работы с данными – относительно новое явления для бизнеса, так как большинство лидеров для тех или иных задач выделяют ресурсы напрямую.

Сервисная модель предоставления данных – это отражения новой идеологии, постепенной захватывающей новые ниши в различных секторах экономики. Эта идеология называется концепцией единого цикла, – конечному клиенту предоставляется не сам продукт, а результаты работы этого продукта как сервис. Можно не покупать автомобиль, а платить за эффективный километр. Так и здесь. Нет смысла продавать сложную инфраструктуру, нужно предложить сервис доступа и получения данных.

Сервисы работы с метаданными можно также выделить в отдельный сервис для поддержки работы и обучения нейронных сетей. С другой стороны, с использованием метаданных можно сделать отличный сервис по получению и сбору данных из различных источников, так называемые краулеры для создания хабов данных. Такие краулеры помогают собирать различные данные из сложно структурированных источников, таких как сайты, сложные файлы, внешние хранилища и другие.

Из метаданных выстраиваются те самые связи, благодаря которым герои фильма «Анон» могли перемещаться между различными источниками данных. Вспоминая этот фильм, я в первую очередь представляю объем работы, которую проделало человечество, чтобы связать источники данных, сделать сложно иерархические структуры, эффективно применяющие алгоритмы быстрого поиска.

Но, с другой стороны, именно метаданные становятся тем самым уязвимым местом в системе, если за ним никто не присматривает. Хакеры могут использовать эти данные для получения незаконного доступа, а проблемы с качеством могут поставить крест на важнейших исследованиях для человечества.

Все так красиво и понятно. Строить здания без чертежей – как бы неправильно, но что же делать со всей существующей инфраструктурой, где место для метаданных могло быть не заложено вовремя в виду тех самых коммуникационных сложностей?

Необходимо искать нестандартные пути и решения, потому что эффективное управление информационным ландшафтом – это ключевой вызов сегодняшнего дня, на который крупному бизнесу еще предстоит ответить.

Название книги

Big data простым языком

Благирев Алексей

Хапаева Наталья

Глава 5

Метаданные