В один из дней 275 года до н. э. в общественную баню вошел молодой человек. Погрузившись в ванну с горячей водой, он заметил, как вода начала переливаться через бортики. Внезапно он подскочил и, как был голым, побежал домой, крича «Эврика! Эврика!» Видевшие эту сцену прохожие наверняка решили, что парень сошел с ума. Это был Архимед, а эврика на греческом языке означает «Я нашел!» Расскажем вкратце, что же нашел Архимед и почему его это так взволновало. Предварительно отметим, что для решения своей проблемы он использовал одновременно количественный анализ и творческий подход.
Часто считается, что количественный анализ и креативность несовместимы. Креативный подход отличается стремлением к поиску, свободой мышления, вдохновенностью и способностью к провидению. Количественный же анализ воспринимается как скучные, рутинные упражнения с цифрами. Поэтому мы интуитивно ощущаем, что креативный подход и количественный анализ – это противоположные по сути явления, хотя и тесно связанные. Наиболее успешные примеры применения аналитики очень креативны (надеемся, что это уже доказано приведенными в книге историями), да и вообще креативность – важная составляющая аналитического подхода к проблеме. Мы попробуем доказать, что одна только креативность, без сбора информации и аналитики, не может обеспечить оптимального решения. Нам постоянно встречались образцы того, что наиболее успешные люди и организации сочетали креативность с количественным подходом.
В наши дни Apple часто называют одной из самых творческих компаний на планете. Действительно, продукты компании выглядят очень нестандартно. Но тем не менее это не мешает компании строго контролировать производственный процесс и применять аналитику в организации поставок, чтобы удостовериться в том, что необходимые продукты будут готовы к моменту отгрузки. В своих розничных магазинах Apple, к примеру, собирает и анализирует огромное количество данных. В одной статье говорилось: «Когда продукт поступает в продажу, компания может отслеживать спрос в каждом магазине сети за определенный период и на этой основе ежедневно корректировать планы производства». В описании требований к претенденту на вакансию менеджера в розничной цепи магазинов Apple среди прочего сказано, что успешный кандидат должен «сочетать актуальные знания о цепи поставок продуктов компании мирового уровня, выдающиеся аналитические способности и предпринимательскую жилку». Если даже высококреативные компании вроде Apple требуют аналитических навыков от большинства своих сотрудников, то в будущем мы, скорее всего, увидим еще больше разнообразных сочетаний креативности и аналитики.
Конечно, креативность в сочетании с аналитикой может представлять угрозу. Возможно, вы слышали о книге Даррела Хаффа «Как обмануть с помощью статистики» (How to Lie with Statistics), вышедшей в 1954 году. Даже из названия понятно, что знающий основы аналитики мошенник способен использовать количественный анализ для искажения правды. Мы часто слышали, как в шутку говорят: «Мы просто пытали статистиков, пока они не сознались». Между допустимой и недопустимой креативностью применительно к аналитике грань довольно тонкая. Критерием тут можно считать искреннее стремление выяснить правду. Если же вы творчески используете аналитику, чтобы доказать правильность вашей (или вашего босса) идеи и при этом обращаете мало внимания на то, что числа упорно не хотят ложиться в заданную схему, то лучше не усердствовать с креативностью и переключиться на другую гипотезу.
Краткий обзор шести шагов количественного анализа
Сначала сделаем краткий обзор того, каким образом творческий подход мог бы вписаться в наши шесть шагов реализации аналитического проекта (описанных в главах , и ). Затем рассмотрим те применения креативного подхода, которые выходят за рамки стандартного процесса количественного анализа.
На шаге определения и формулирования проблемы творческий подход чрезвычайно важен и полезен. Половина дела в решении проблем и принятии решений состоит в креативном подходе к формулированию проблемы; именно это позволяет решить ее максимально эффективно. Именно на этом шаге аналитического процесса аналитик разрабатывает гипотезу о закономерностях, имеющихся в данных. Это творческий и интуитивный акт. В определенном организационном и деловом контексте, с учетом ограничений креативная формулировка проблемы может изменить сам контекст, заставить рассматривать его с других точек зрения, сократить или исключить ограничения. Например, в уравнении цены вина, описанном в , Орли Ашенфельтер сформулировал проблему цены как показателя, который можно спрогнозировать на основании одних только погодных факторов и возраста вина. Аналогично в исследовании продолжительности браков, описанном в , Джеймс Мюррей и Джон Готтман весьма творчески предположили, что продолжительность брака можно прогнозировать на основе анализа отношений между супругами. Очень часто применительно к аналитическим исследованиям креативность означает, что целый ряд сложных факторов можно прогнозировать и объяснить на основе намного более простых и легко измеримых факторов.
Очевидно, что обзор результатов предшествующих исследований не назовешь самым творческим шагом, но и здесь существует возможность проявить креативность, решая вопрос о том, какие именно предшествующие исследования теснее всего связаны с текущим. Например, процедура анализа «дожития» традиционно применяется в тех ситуациях, когда требуется выяснить причины и уровень смертности людей или других живых существ. Однако один из исследователей, Хун Сянлу, успешно применил ее для прогнозирования ценности, получаемой зрителями на протяжении всей жизни в области телекоммуникаций. Другие исследователи применили ту же процедуру для решения иных проблем маркетинга, в частности оценки готовности покупателя купить тот или иной товар.
Моделирование (выбор переменных), несмотря на аналитическое название, также может быть творческим делом, особенно если вы впервые используете данную модель. Выбор переменных для модели иногда очевиден и определен предшествующими исследованиями или интуицией, а иногда может стать по-настоящему креативным. Вспомним хотя бы анализ длины употребляемых в тексте слов для определения авторства Марка Твена, описанный в . Для Клода Бринегара это был умеренно креативный шаг, поскольку о таком методе анализа он и раньше читал в книгах. Зато для Томаса Менденхолла это определенно был весьма творческий подход, поскольку он впервые применил его для установления авторства Шекспира. Конечно, если вы используете такой же подход к разработке модели и выбору переменных, как и все остальные исследователи, то, скорее всего, получите такие же результаты, как у остальных. Тогда зачем вообще тратить время на этот анализ?
Сбор данных сам по себе довольно скучен, но решение вопроса о том, какие именно данные собирать, несет в себе массу креативности. Хотите ли вы изучать поведение людей, крыс или атомов, нужно найти какой-то способ наблюдать и оценивать интересующие вас явления, которыми, может быть, никто до вас и не интересовался.
Социальные психологи Михай Чиксентмихайи и Рид Ларсон хотели исследовать эмоции и отношения в среде тинейджеров. Чтобы собрать данные о том, как меняются эмоции подростков на протяжении дня, пришлось разработать уникальный метод. Исследователи раздали пейджеры 75 старшеклассникам и набрали группу студентов университета, поручив им в течение дня в произвольные моменты посылать школьникам на пейджер запрос о том, какие чувства они испытывают сейчас. Этот метод сбора данных получил название метода выборки переживаний и ныне широко используется в психологических исследованиях.
Исследователи не слишком удивились тому обстоятельству, что в течение большей части дня тинейджеры чувствовали себя несчастливыми. Но то, что их настроение переключается на позитив, когда им нужно выполнить трудное и ответственное задание, оказалось по-настоящему неожиданным. В 1984 году по итогам эксперимента вышла книга Being Adolescent: Conflict and Growth in the Teenage Years, в которой впервые Чиксентмихайи описал особое состояние увлеченности и вдохновения, получившее название потокового. Впоследствии именно оно оказалось предметом большей части исследований психолога. По сути, Михай весьма творчески собирал данные о креативности!
Анализ данных считается неподходящим шагом для проявления креативности, если только вы не разбираетесь профессионально в математике и статистике, но и в этом случае лучше действовать осторожнее. Это именно тот этап аналитического процесса, креативность на котором может закончиться большими неприятностями. Любой статистический эксперимент или математический анализ имеет исходные предпосылки и ограничения; пренебрегать ими не стоит, разве что вы действительно знаете, что вы делаете.
В противоположность этому на шаге обнародования результатов и принятия мер творческий подход жизненно важен, но не так уж часто к нему прибегают. Поскольку слушатели без специальной подготовки обычно не воспринимают результаты анализа, изложенные математическим или техническим языком, хороший аналитик должен проявить креативность, придумав, как оформить их в понятном и даже забавном виде. Например, не стоит рассуждать о значениях коэффициентов или доле объясняемой вариации. Вместо этого формулируйте выводы примерно так: «Если мы увеличим расходы на рекламу на доллар, то в среднем получим 1,29 доллара дополнительной выручки». Это звучит гораздо более доступно для понимания и принятия необходимых мер, чем технические рассуждения. Для того чтобы перевести аналитику на доступный язык, как раз и требуется проявить творческий подход.
Четыре этапа креативного аналитического мышления
Мы не сторонники выделения очень уж большого количества этапов и шагов, но, возможно, будет полезно поговорить о том, каким образом процесс креативного аналитического мышления вписывается в те шесть шагов, о которых мы говорим в этой книге. В целом креативность включает четыре последовательных этапа.
Подготовка. Подготовительная работа для решения проблемы.
Погружение. Интенсивное погружение в решение проблемы и анализ имеющихся данных. Обычно от аналитика требуются настойчивые и длительные усилия для оптимального решения.
Созревание. Проблема «отлеживается» в подсознании, что включает нестандартное мышление (нередко проявляющееся в тот момент, когда аналитик растерян и готов сдаться).
Озарение. Большой прорыв в понимании путей решения проблемы с помощью методов количественного анализа.
Обычно большая часть обзора предшествующих исследований и выбора переменных для модели по данной классификации приходится на этап подготовки. Этап погружения включает часть шага моделирования, весь шаг сбора данных и часть шага анализа данных. Этап созревания начинается тогда, когда аналитик заходит в тупик на шаге анализа данных. Затем, когда внезапно приходит озарение, все части пазла сходятся. Графически все вышеизложенное представлено на рис. 5.1.
Рис. 5.1. Качественный анализ и креативность
Пример аналитического мышления: Архимед и корона
Проиллюстрируем наложение четырех фаз процесса аналитического мышления на шесть этапов количественного анализа на примере истории Архимеда – одного из первых известных в истории примеров креативного аналитического мышления.
Определение и формулирование проблемы. Тиран Сиракуз (Сицилия) Гиерон пожелал украсить храм, посвященный бессмертным богам, золотой короной в форме лаврового венка. Он отмерил точное количество необходимого золота и отдал золотых дел мастеру. В назначенный день мастер, к восторгу Гиерона, принес изящную корону тонкой работы, по весу равную полученному количеству золота. Но когда король уже готовился к церемонии подношения храму, до него дошли слухи, что корона сделана не из чистого золота. Якобы мастер заменил часть золота серебром (в те времена, как и сейчас, ювелиры частенько прибегали к такому мошенническому трюку). Гиерон заподозрил, что стал жертвой обмана. Но как это выяснить? Гиерон задал этот вопрос своим советникам, но те не смогли порекомендовать надежный способ. Наконец Гиерон поручил Архимеду до назначенного дня церемонии выяснить, не было ли разбавлено золото, и при этом ни в коем случае не повредить корону. Архимеду на тот момент было всего двадцать два года, но он уже был широко известен своими работами по математике и физике. Он принял вызов.
Обзор предшествующих исследований Тогда не существовало способа измерить объем предмета произвольной формы, поэтому Архимеду предстояло самостоятельно его найти. С этого начался этап подготовки. Архимед, возможно, один из величайших математиков и изобретателей всех времен, умел измерять объем большинства предметов правильной формы. Он рассудил, что, поскольку золото весит больше, чем серебро, то корона, изготовленная из сплава золота и серебра, при одинаковом весе должна иметь больший объем, чем корона из чистого золота. Проблема в том, как точно измерить объем предмета неправильной формы (короны), не повредив его.
Моделирование (выбор переменных). На том же этапе подготовки Архимед решил, что объем короны и будет ключевой переменной, вычислив которую можно будет ответить на поставленный вопрос. Но чтобы сделать это, требовалось полностью погрузиться в имеющиеся данные и возможные варианты измерения объема. Самый простой способ – переплавить корону в куб и измерить его грани. Но этого делать нельзя, ведь Гиерон приказал не повреждать ее. Ученый постоянно думал об этой проблеме и в конце концов решил отложить поиск решения на некоторое время. Однако, как он ни старался, найти ответ не удавалось.
Сбор данных. Погрузившись в проблему, Архимед должен был собрать некоторые данные. Он выяснил плотность золота и серебра и предположил, что сплав, из которого изготовлена корона, содержит 30 процентов серебра. Но как бы то ни было, требовалось измерить объем короны в форме лаврового венка, а он не знал, как это сделать.
Анализ данных. День церемонии подношения короны храму приближался. Расстроенный Архимед уже готов был признать поражение, пусть даже его репутация гениального математика и физика серьезно пострадала бы. Но в результате глубокого погружения в проблему мозг продолжал работать над ее решением на подсознательном уровне. Начался этап созревания. Как-то раз Архимед решил дать отдых телу и духу, изнуренному бесплодной борьбой с проблемой, отправившись в общественную баню. Когда он погрузился в горячую ванну (это другая форма погружения!), вода начала переливаться через борта. Внезапно математик понял, что объем вытесненной воды равен объему той части его тела, которая погружена в воду. Это означало, что найден способ точно измерить объем предметов неправильной формы: если погрузить корону в заранее известный объем воды и она вытеснит больше воды, чем такое же по весу количество золота, то отсюда можно будет сделать вывод о том, что объемы короны и бруска золота не равны. Он выскочил из ванны и голым помчался по улицам Сиракуз, радостно крича: «Эврика! Эврика!» Очевидно, что в этот момент на Архимеда снизошло озарение. Он провел эксперимент, погрузив в воду сначала корону, а потом брусок золота равного веса, и обнаружил, что их объем различен. Следовательно, можно было утверждать, что корона изготовлена не из чистого золота и мастер действительно добавил более дешевый металл, стремясь присвоить часть драгоценного материала.
Результаты и необходимые меры. Архимед сообщил о своем эксперименте тирану Гиерону, и тот восхитился изяществом найденного решения. Репутация Архимеда как гениального математика и физика еще более упрочилась. Однако далеко не для всех история кончилась благополучно, ведь нечистого на руку мастера казнили.
Креативность можно определить как способность генерировать оригинальные и полезные идеи. Пример Архимеда говорит о том, что с точки зрения количественного анализа креативность – это всего лишь способность видеть неочевидные связи между переменными, предварительно отобрав их для анализа и собрав необходимые данные. В соответствии с этим определением креативности можно научить и научиться, внедрить в практику повседневной деятельности. Человек может развить в себе творческий подход, приобретя аналитические навыки. Компании могут добиться того же, внедрив ряд образовательных программ по аналитике для сотрудников и создав корпоративную культуру, поощряющую аналитическое мышление.
Погружение и упорный труд как источники креативности и озарения
Томас Эдисон произнес знаменитую фразу: «Гений – это на 99 процентов труд и лишь на 1 процент – вдохновение». Творение – это озарение, нисходящее к человеку неожиданно и позволяющее решить проблему. Но откуда берутся творческие находки? Мы считаем, что это продукт упорного труда. Озарение и ведущее к нему креативное аналитическое мышление отнюдь не даются человеку от природы случайно – это результат упорного труда на ниве количественного анализа: анализа предшествующих исследований, отбора и измерения переменных, настойчивого поиска закономерностей, управляющих динамикой данных. Если вы каждый день без устали бьетесь над решением задачи и не сдаетесь, то в один прекрасный день сможете воскликнуть: «Эврика!» Именно это случалось с Архимедом, Ньютоном и многими другими гениями.
Американский ученый Барбара Макклинток в 1983 году получила Нобелевскую премию за открытие генной транспозиции. Она единственная женщина, единолично получившая Нобелевскую премию в физиологии и медицине. Во время своих полевых экспериментов она часто испытывала моменты «Эврика!» и говорила, что источник ее вдохновения – это забвение себя, полная погруженность в работу и подчинение всей жизни ей.
Макклинток настолько хорошо изучила кукурузные стебли, что, исследуя хромосомы, идентифицировала себя с ними:
Я обнаружила, что чем больше я работаю, тем большая часть моей личности ассоциируется с ними. Я уже не воспринимала себя отдельно от них; казалось, что я где-то там, внутри. Я стала частью системы. Казалось, я могу рассмотреть внутреннее устройство хромосом – все, что там было. Это было удивительно, ведь была полная иллюзия вхождения в клетку, а все, что там было, стало моими друзьями. Когда вы смотрите на них, то чувствуете, что они становятся частью вас. Вы забываете себя. Это самое главное: вы забываете себя [72] .
Конечно, креативность и тяжелый труд ассоциируются не только с миром количественного анализа. Например, они точно так же присутствуют в мире искусства и литературы. Известный корейский автор Те Дзюн Ра тоже считает, что вдохновение не вспыхивает внезапно на пустом месте, а требует долгой и трудной подготовительной работы, погружения в тему.
Вы концентрируетесь и погружаетесь в одну тему, продолжая накапливать разнообразные идеи, а затем в один прекрасный момент вас озаряет вспышка, неожиданный полет вдохновения и вдруг становится понятно, что же вы так отчаянно искали все это время. Говорят, что вдохновение приходит внезапно. Это правда, если говорить о самом моменте озарения. Но до этого может потребоваться долгий и кропотливый труд. В конечном счете можно сказать, что глубина погружения в предмет и объем проделанной кропотливой работы предопределяют приход вдохновения [73] .
Чаще всего интуицию определяют как непосредственное восприятие истины без всякого объяснения или логического обоснования. Однако мы верим в то, что интуиция – это качество, которое можно развить в себе путем постоянного анализа, как количественного, так и качественного. Нейробиологи считают, что нейроны можно «обучать» путем постоянного повторения анализа. Мы считаем, что точно так же способность к интуитивному восприятию развивается, если человек на основе накапливаемого со временем опыта пытается выявить взаимосвязи между переменными, не собирая и не анализируя для этого данные. Немецкий философ Георг Гегель считал, что только тот, кто способен мыслить глубоко аналитически, обладает чистой истинной интуицией.
Поиск моделей методами аналитической креативности
Суть креативного анализа данных состоит в выявлении модели отношений между переменными. Модель – это устойчивая неочевидная взаимосвязь переменных. На этом этапе математическое мышление весьма полезно, поскольку математика сама по себе является наукой о моделях: эвклидова геометрия, первая великая наука Древней Греции, развилась из наблюдения за геометрическими фигурами в окружающей природе. Теорема Пифагора – это не что иное, как модель зависимости между тремя сторонами прямоугольного треугольника.
Поиск моделей в современных организациях осуществляется главным образом путем статистического, а не чисто математического анализа. Некоторые статистические инструменты помогают выявить наличие в данных модели – связи, встречающейся чаще, чем можно было бы ожидать, если бы распределение было случайным. Анализ дает основания полагать, например, что потребители с определенной моделью покупательского поведения (или ее отсутствием) в тот или иной момент могут вообще прекратить покупки. Или что покупатели, приобретающие определенную книгу, часто покупают и другие: например, на сайте Amazon.com имеется встроенная функция рекомендаций. (Друг Тома Дэвенпорта получил от Amazon.com рекомендацию купить вместе с книгой Тома шуточный сувенир в виде собачьих экскрементов – по мнению сайта, именно такое сочетание предпочитают другие покупатели!) В табл. 5.1 представлены различные виды моделей, а также бесплатное и коммерческое программное обеспечение для их построения.
Таблица 5.1
Программное обеспечение для интеллектуального поиска данных для построения моделей на основе баз данных
Пример аналитического мышления: пиво и пеленки
Более подробно механизм выявления моделей на основе анализа массива данных можно проиллюстрировать на хорошо известном примере из области интеллектуального поиска данных: мужчины, заходящие в продовольственные магазины только по выходным, склонны вместе с пивом покупать пеленки. Это открытие было сделано отнюдь не в Древней Греции, а в Чикаго в 1992 году. Его определенно можно считать примером выявления модели поведения; другое дело, что вряд ли это удачный пример аналитического мышления (правда, мы считаем, что изучение и положительных, и отрицательных примеров в равной степени поучительно).
Определение и формулирование проблемы. Том Блисчок, на тот момент менеджер группы консультантов по розничной торговле в компании Teradata, создающей аппаратно-программные комплексы для обработки и анализа данных, вместе с командой проводил анализ розничной торговой точки (point-of-sale – POS) для своего клиента, компании Osco Drug. По словам одного из членов этой группы, Джона Эрла, целью их работы был поиск закономерности в том, какие продукты чаще всего приобретаются вместе: «Мы предложили несколько экспериментов по размещению товара в торговом зале, чтобы посмотреть, как это будет влиять на склонность потребителей приобретать определенные товары вместе». Эрл предполагает, что истинной целью анализа было не столько решить какую-то конкретную проблему или обосновать управленческое решение для клиента, сколько продемонстрировать ему преимущества технологий, применяемых Teradata.
Обзор предшествующих исследований Подобные исследования ранее практически не проводились. Единственное, что было известно, это то, что товары для малышей высокорентабельны, поэтому было бы хорошо найти товары, вместе с которыми они бы чаще продавались и, соответственно, рос бы их объем продаж.
Моделирование (отбор переменных). Частота покупок различных видов товара по данным кассовых аппаратов аптек.
Сбор данных. Osco Drug располагала данными с кассовых аппаратов в своих аптеках (розничных торговых точках) и предоставила их аналитикам. База данных содержала информацию о перечне и ценах купленных по одному чеку товаров по 1,2 миллиона таких чеков, пробитых в двадцати пяти аптеках сети.
Анализ данных. Сегодня доступны значительно более сложные технологии интеллектуального поиска данных, но в 1992 году они еще не получили распространения. Команда аналитиков Teradata сформулировала запросы по базе данных, чтобы выявить товары, покупаемые вместе чаще, чем другие. Такой анализ, проведенный К. Хис, одной из членов группы, показал, что покупатели (вообще говоря, не обязательно мужчины), заходившие в магазин в интервале между 17:00 и 19:00 по четвергам и субботам, очень часто покупали вместе пиво и пеленки. Однако никаких статистических тестов для подтверждения того, что это не случайное явление, проведено не было.
Результаты и необходимые меры. Это именно тот случай, когда анализ показал свою неэффективность. В досужих рассуждениях об этой истории частенько проскальзывали разные предположения – например, что магазинах пиво и пеленки располагались на соседних стеллажах или что, наоборот, они находились в разных концах магазина и покупателям приходилось пересекать весь торговый зал. По сути, ни одно из этих предположений не подтвердилось. Результат анализа сочли забавным курьезом, и ни аналитики Teradata, ни менеджеры Osco Drug даже не пытались произвести какие-то действия на их основе или хотя бы оценить потенциальные их последствия.
У нас недостаточно информации, чтобы судить о том, почему этот интересный пример поиска моделей в данных так и не получил достойного продолжения. Но он наглядно свидетельствует о том, что любой этап аналитического процесса будет эффективным только в том случае, если приведет к какому-то результату. Компьютеры способны найти модели в базе данных, но только человек может сказать, есть ли в этих моделях какой-то смысл, и принять соответствующие меры (см. вставки «Компьютеры и модели: число π» и «Закон первой цифры – способ обнаружения мошенничества»).
Компьютеры и модели: число π
Число π – это отношение длины окружности к ее диаметру. π приблизительно равно 3,141592 в обычном десятичном исчислении. Многие формулы математики, инженерного дела и науки используют это значение, что и делает его самой важной математической концепцией после теоремы Пифагора [77] .
π – иррациональное число, что означает, что его значение не может быть выражено обыкновенной дробью, а последовательность знаков после запятой никогда не заканчивается и не является периодической. Однако это не значит, что человечество, начиная с древних вавилонян и до современных математиков, прекратило попытки обнаружить повторяемость в десятичных знаках π.
Конечно, появление компьютеров в XX веке привело к новым попыткам поставить рекорд, рассчитав число π до еще большего количества знаков; компьютеры полностью заменили в этом деле людей. Нынешний рекорд количества разрядов, до которых рассчитано число π, составляет пять триллионов. Дальнейшее увеличение числа разрядов зависит не столько от математических способностей человека, сколько от технических возможностей компьютеров. Тем не менее до сих пор повторяющихся групп цифр в знаках числа π не обнаружено.
Зато математики нашли множество новых применений этому замечательному числу, что говорит о важной роли креативности в аналитическом мышлении. Например, математик Дэвид Ачесон рассказывает такую историю.
Представьте себе удивление математиков, когда в середине XVII века они обнаружили появление числа π в разных областях, подчас весьма далеких от геометрии окружности. Один из самых замечательных фактов этого рода состоит в необычной связи между π и рядом нечетных чисел.
…Удивительные взаимосвязи такого рода принадлежат к явлениям, которые всегда волновали математиков» [78] .
Была обнаружена также взаимосвязь между рядом четных чисел и числом π. Более того, π появляется в уравнении «знаменитая пятерка» [79] , выведенном великим швейцарским математиком XVIII века Леонардом Эйлером. В 1988 году читатели авторитетного математического журнала признали это уравнение «самой красивой математической формулой в истории математики».
Все эти изыскания в области истории расчета и применения числа π говорят о том, что даже сейчас, когда компьютеры выполняют многие математические расчеты, креативность человеческого ума всегда найдет себе выход. Применительно к количественному анализу в сфере бизнеса и корпораций компьютеры взяли на себя подавляющее большинство статистических расчетов. Но творчеству по-прежнему есть место там, где заходит речь об использовании этих расчетов для принятия решений.
И в заключение об аналитике и креативности
Хотелось бы надеяться, что нам удалось показать читателям: аналитическое мышление и креативность не только вполне совместимы, но и тесно взаимосвязаны. Вы не сможете ни стать хорошим количественным аналитиком, ни компетентно пользоваться аналитическими данными, если не умеете подключать к делу все ваши творческие способности. Однако помните, что в манипулировании цифрами и интерпретации результатов анализа баз данных креативность должна иметь предел. Творческий подход очень важен, но правда еще важнее.
Закон первой цифры – способ обнаружения мошенничества
Профессор математики в Политехническом институте штата Джорджия Тед Хилл в начале курса дает студентам задание на дом: или подбросить монетку двести раз и записать результаты, или представить, как подбрасываешь монетку двести раз, и сфальсифицировать результаты. На следующем семинаре он просматривает отчеты о домашней работе и, к восторгу аудитории, легко обнаруживает почти всех, кто занимался фальсификациями. Как это ему удается? На основании небольшого эксперимента он знает, что в некоторый момент при длительном подбрасывании монетки начинают выходить серии из шести-семи орлов или решек подряд. «Фальсификаторы» об этом не знают и интуитивно пытаются не писать подряд слишком много одинаковых результатов, поскольку считают, что это маловероятно. Хилл с первого взгляда выявляет записи о шести-семи орлах или решках, выпавших подряд (или их отсутствие), на основе чего и делает вывод о действительно проведенном студентом эксперименте или о фальсификации его результатов. На первый взгляд, это просто небольшой фокус для привлечения внимания студентов, но на самом деле в этом есть глубокий смысл. Если в данных отсутствуют те модели и зависимости, которые вы ожидали там увидеть, логично предположить фальсификацию или мошенничество.
Мы хорошо знаем, что наша система исчисления использует цифры от 1 до 9. Поэтому можно предположить, что вероятность выбора любой из этих цифр в качестве первой значащей в числе равна 1/9. Но, как ни странно, это не так. «Закон первой цифры», называемый также законом Бенфорда, гласит, что в списке чисел, взятых из реальных баз данных, частота распределения той или иной цифры на первое место в числе подчиняется специфической закономерности: примерно в 30 процентах случаев такой цифрой будет 1, а вероятность появления на первом месте остальных цифр тем меньше, чем цифра больше. В соответствии с законом Бенфорда вероятность распределения цифр на первом месте в числе такова:
Этот довольно удивительный факт был обнаружен в 1881 году американским астрономом Симоном Ньюкомбом, заметившим, что в справочнике логарифмов первые страницы всегда гораздо более потрепанные, чем последующие. В 1938 году физик Франк Бенфорд сделал то же открытие на основе анализа гораздо большего массива данных, чем Ньюкомб. Он рассмотрел 20 229 наборов данных, включая географические координаты рек, бейсбольную статистику, количество статей в журналах, и номера домов первых 342 человек, перечисленных в рейтинге «Деятели науки Америки». Анализ всех этих вроде бы не связанных друг с другом баз данных показал, что вероятность распределения цифр на первое место в числе та же, что и для потрепанных таблиц логарифмов. Эта модель определения первой цифры в числе получила впоследствии название закона Бенфорда в честь ее первого исследователя. Стало общепризнанным действие закона Бенфорда во многих ситуациях реальной жизни.
Многие статистики и бухгалтеры твердо убеждены в том, что закон Бенфорда является очень простым, но надежным способом выявления возможных случаев мошенничества, хищений, неуплаты налогов и бухгалтерской небрежности. Идея проста: если кто-то фальсифицирует базу данных, то вряд ли он сможет имитировать распределение первой значимой цифры в числах в соответствии с законом Бенфорда. Поэтому простое сравнение распределения по закону Бенфорда и фактического распределения первых значимых цифр в базе данных поможет выявить сфальсифицированные блоки чисел. Как правило, в них частота распределения 1 как первой значимой цифры намного меньше 30 процентов, зато частота распределения 6 – намного больше, чем в доброкачественных массивах данных.
В 1972 году докторант университета Беркли Хэл Вэриан показал, что этот закон применим для выявления возможных искажений в массивах социологических данных, предоставляемых для подтверждения общественного мнения по готовящемуся политическому или экономическому решению. Судебный эксперт по бухгалтерским вопросам Марк Нигрини получил известность благодаря применению разработанной им на основе закона Бенфорда системы выявления мошенничества в некоторых громких делах в Бруклине. В наши дни многие налоговые управления используют специальное программное обеспечение для выявления фальсифицированных данных, разработанное на основе закона Бенфорда. Точно так же поступают крупные компании и аудиторские фирмы. В США доказательства фальсификаций на основе закона Бенфорда официально признаны в судебных разбирательствах на государственном уровне, уровне штата и местном уровне.
Пример аналитического мышления: языковые способности и болезнь Альцгеймера
Болезнь Альцгеймера – это дисфункция мозга, вызывающая проблемы с памятью, мышлением и поведением. Симптомы обычно развиваются медленно, с течением времени усиливаются и в конце концов начинают мешать человеку выполнять обычные домашние дела; затем пациент умирает по неизвестной причине. Болезнь Альцгеймера лежит в основе 60–80 процентов всех случаев приобретенного слабоумия. Около 5,3 миллиона американцев, в том числе каждый восьмой в возрасте старше 65 лет (а их 13 процентов от общей численности населения), страдают от болезни Альцгеймера. В США эта болезнь является шестой по распространенности причиной смерти. Помимо страданий самого пациента необходимо принять во внимание эмоциональные и физические страдания его семьи, необходимость повседневного ухода, изменение социальных ролей в семье, трудное решение о помещении в специальное лечебное учреждение.
Причины возникновения и развития болезни Альцгеймера до конца не выяснены. Многие исследователи пытались найти взаимосвязь между развитием болезни и характеристиками (или маркерами) группы повышенного риска. Например, люди с низким уровнем образования в большей степени подвержены заболеванию, чему способствует их образ жизни, в том числе питание, ежедневные занятия, употребление алкогольных напитков и риски профессиональной деятельности. Профессор центра геронтологии Сандерс-Браун при Кентуккийском университете Дэвид Сноудон и его коллеги считают, что языковые способности – более надежный показатель для прогнозирования вероятности болезни Альцгеймера, чем образ жизни. Они предположили, что высокий уровень лингвистических способностей становится неким буфером для развития когнитивного снижения мнемонических процессов в мозгу, обеспечивающих декодирование, организацию и поиск информации. Они провели образцовое и весьма креативное исследование, связав когнитивные способности в молодом возрасте с риском возникновения болезни Альцгеймера в пожилом. В качестве целевой выборки они, что весьма необычно, взяли членов монашеского ордена, причем в качестве источников информации использовались их автобиографии. Рассмотрим это исследование с точки зрения наших шести шагов количественного анализа.
Определение и формулирование проблемы. Определить, ассоциируются ли языковые способности в раннем возрасте с когнитивными функциями и низкой вероятностью болезни Альцгеймера в пожилом.
Обзор предшествующих исследований Многие аналитические процедуры, применявшиеся командой Сноудона, ранее были описаны в работах доктора Дэвида Векштейна и доктора Уильяма Марксбери. В 1989 году они проводили исследование изменений когнитивной функции и поведения, связанных с возрастом, в группе пожилых пациентов, согласившихся после смерти пожертвовать свой мозг для научных исследований. Цель исследования состояла в том, чтобы установить, как изменения ткани мозга связаны с развитием болезни Альцгеймера и других неврологических заболеваний.
Моделирование (отбор переменных). Участниками исследования Сноудона стали сестры ордена Нотр-Дам из Милуоки (штат Висконсин). С 1991 по 1993 год сестер монастыря, родившихся до 1917 года, попросили принять участие в долговременном исследовании причин болезни Альцгеймера в пожилом возрасте. Из 1027 подходивших по возрасту сестер предложение приняли 678 (66 процентов), дав письменное согласие. Процент согласившихся довольно высок, особенно с учетом того факта, что все участницы обязались пожертвовать свой мозг для научных исследований после смерти, а также ежегодно проходить обследование когнитивных функций и общего физического состояния. Далее Сноудон и его коллеги обследовали выборку из 93 участниц, при вступлении в монастырь написавших автобиографию. Эти бумаги сохранились в монастырском архиве. Были выбраны следующие переменные для анализа:
• Языковые способности в молодости (способность формулировать мысли и грамматическая сложность речи).
• Когнитивные функции (семь различных показателей) и наличие болезни Альцгеймера в пожилом возрасте.
Сбор (измерение) данных. Автобиографии сестер использовались для оценки их языковых способностей в молодости. После примерно четырех лет жизни в монастыре каждая из них написала автобиографию незадолго до принятия монашеского сана. Из архивных документов стало известно, что всех их попросили написать краткий очерк о своей жизни. «По объему он не должен был превышать двухсот-трехсот слов и одного листа… в нем должны быть указаны место рождения, имена родителей, памятные и поучительные события детства, посещение школы, факторы, повлиявшие на решение уйти в монастырь, религиозная жизнь с ее замечательными событиями».
Каждую автобиографию оценивали по двум параметрам: способность формулировать мысли и грамматическая сложность речи. Способность формулировать мысли оценивалась путем подсчета «идей», приходящихся на каждые десять слов текста. Под идеями понимались элементарные предложения, в состав которых входили глагол, наречие или прилагательное, существительное с предлогом. Сложные фразы – те, что содержат констатацию или предположение о существовании причинно-следственных, мирских и церковных или других взаимосвязей между элементарными идеями.
Грамматическая сложность рассчитывалась на основе методики оценки развития, классифицирующей предложения по восьми уровням грамматической сложности, начиная от 0 (простые односоставные предложения) и до 10 (сложные предложения со вставными оборотами и подчиненностью).
Когнитивные функции оценивали на основе комплекса из семи нейропсихологических тестов. Они включали оценку памяти, способности к концентрации, речи, способности ориентироваться в пространстве и времени. Девяносто три участницы написали первые биографии в возрасте около 22 лет и прошли обследование когнитивных функций в среднем 53 спустя, в возрасте от 75 до 87 лет.
Анализ данных. Неспособность формулировать мысли и низкая грамматическая сложность биографий, написанных в юные годы, ассоциировались с невысокими результатами когнитивных тестов в пожилом возрасте. При этом неспособность формулировать мысли имела большее влияние на результаты когнитивных тестов по сравнению с низкой грамматической сложностью. Из четырнадцати умерших сестер подтвержденная неврологом болезнь Альцгеймера имелась у всех тех, кто когда-то продемонстрировал низкие способности формулировать мысли; из тех, кто показал хорошие результаты по этому критерию, болезнью Альцгеймера не страдал никто.
Результаты и необходимые меры. Сноудон и его коллеги пришли к выводу, что способность письменно излагать свои мысли, принятая в качестве показателя когнитивных способностей в молодости, «является эффективным маркером когнитивных проблем, болезни Альцгеймера и заболеваний мозга в пожилом возрасте». Это означает, что слабые лингвистические способности в молодости – это первый симптом изменений в мозге, впоследствии ведущих к болезни Альцгеймера. Такие исследования помогают точнее определить группу риска для болезней, связанных с возрастом.
Сноудон и его коллеги опубликовали статью Linguistic Ability in Early Life and Cognitive Function and Alzheimer’s Disease in Late Life в ведущем медицинском журнале Journal of the American Medical Association. Сноудон, кроме того, написал популярную книгу о сестрах ордена Нотр-Дам под названием Aging with Grace: What the Nun Study Teaches Us About Leading Longer, Healthier, and More Meaningful Lives. Ее высоко оценили, в том числе журнал Library Journal.
Книга Сноудона написана с симпатией к этим монахиням и восхищением перед сестрами, благородно согласившимися пожертвовать свой мозг для научных исследований после смерти. Результаты исследования Сноудона показали, что патологические изменения поведения не всегда вызываются видимыми изменениями в мозге, а лингвистические способности в молодости, по всей видимости, предотвращают в старости развитие болезни Альцгеймера. Предупреждение инсультов и сердечных заболеваний помогает избежать деменции (приобретенного слабоумия), а наследственность, диета и физические упражнения также играют в этом значительную роль. Изложение научных фактов на фоне реальных человеческих судеб, вдохновляющий и восхищенный взгляд на процесс старения будут весьма интересны читателям [82] .
Работа Сноудона с сестрами-монахинями стала темой статьи, проиллюстрированной на обложке журнала Time в 2009 году. Это еще раз говорит о том, что творческое аналитическое мышление способно заинтересовать самую широкую аудиторию.
Пример аналитического мышления: продажа инсайдерской информации
Симон Хайнес в прошлом работал инвестиционным банкиром в банке Macquarie. Под вымышленным именем Марк Бус он купил опцион на пакет акций транспортной компании TNT на общую сумму около 90 тысяч долларов. Банк Macquarie предоставлял услуги по финансовому консультированию компании TNT, и перед самым увольнением из банка Хайнес получил косвенные свидетельства того, что TNT в скором времени будет поглощена. Так и случилось буквально через пару дней после покупки опциона. Хайнес исполнил опцион и получил прибыль около двух миллионов долларов за одну эту операцию. Кроме того, он умело замел следы, и инспекторам из Австралийской комиссии по ценным бумагам и инвестициям пришлось проделать большую аналитическую работу, чтобы разобраться в сути махинации.
Определение и формулирование проблемы. Нетипичная торговая активность с опционами TNT была отмечена за три дня до объявления о поглощении компании. Это объявление привело к росту рентабельности на инвестиции в акции компании до 200 процентов. Хотя инспекторы биржи называли нескольких физических и юридических лиц, покупавших и продававших акции компании на протяжении этих трех дней, но они не могли определить, кто из них был первым. Дело было передано в Комиссию по ценным бумагам и инвестициям – орган, ответственный за состояние фондового рынка. Несмотря на то, что к расследованию привлекли все возможные ресурсы и обычные судебные процедуры, Комиссия три месяца не могла добиться результата. В конце концов она пришла к выводу, что операции проводились по фальшивым документам.
Изучение предыдущих поисков решения. Конкретно в рамках этого случая предыдущие исследования отсутствовали, поскольку он оказался исключительным. Но у сотрудников Комиссии был большой опыт проведения аналогичных расследований. Они предположили, что информация об операции может «протечь» в социальную сеть. Члены Комиссии умели искать информацию о людях, компаниях и адресах во внутренних корпоративных и социальных сетях.
Моделирование (отбор переменных). В качестве двух основных переменных в модель включены доступ неустановленного лица к информации о грядущем поглощении компании TNT и наличие у него необходимых предпосылок (счет в банке, деньги и т. п.) для торговли ценными бумагами на момент поглощения TNT.
Сбор (измерение) данных. Традиционные методы расследования позволяли установить того, кто имело или мог иметь доступ к инсайдерской информации («информированные лица»). Кроме того, с их помощью можно было отследить операции по снятию соответствующих денежных сумм со счетов («люди с наличностью»). Имея эту информацию, они могли выявлять и накапливать сведения о связях между людьми, компаниями, адресами и активами, принадлежащими «информированным людям» и «людям с наличностью». Процесс анализа этих связей привел к созданию аналитической базы данных, содержащей сведения о более чем 160 тысячах человек, компаний, адресов, активов и операций по снятию наличных, между которыми установлено более миллиона разнообразных контактов.
Анализ данных. Одни и те же элементы многократно встречаются в базе данных в связи с различными операциями, поэтому, прежде чем переходить к следующему этапу, аналитики решили выделить операции, относящиеся к одному и тому же элементу (то человеку, компании, активу или адресу нахождения). Для выполнения этой задачи было задействовано более сотни разработанных специалистами Комиссии алгоритмов. Энтони Вьель, на тот момент главный следователь Комиссии по данному делу, а ныне партнер по аналитике и расследованиям в австралийском отделении аудиторской фирмы Deloitte, так прокомментировал этот процесс: «После того как все повторяющиеся элементы были объединены, мы запустили специальный алгоритм для выявления связей между “информированными людьми” и “людьми с наличностью”. При этом характер связей оценивался как либо “слабый”, либо “прочный”, чтобы можно было отсортировать полученные результаты. На первом этапе анализа мы выявили 65 элементов со слабыми и прочными связями, на втором из них было отобрано только два элемента с прочными связями. Один из них оказался ложной переменной, появившейся в результате некорректно выполненного объединения операций, зато вторым и был тот человек, который нас интересовал».
Результаты и необходимые меры. У Симона Хайнеса, найденного сложными методами сетевого анализа, был проведен обыск. В его доме обнаружили улики, достаточные для предъявления обвинения по нескольким статьям уголовного кодекса. Состоялся суд, и жюри присяжных признало его виновным. Поданная апелляция была отклонена. Хайнес провел два с половиной года в тюрьме и выплатил 100 тысяч долларов штрафа. Кроме того, у него конфисковали всю прибыль, полученную в результате незаконной сделки с использованием инсайдерской информации.
Вьель и сейчас использует те же методы сетевого анализа при расследовании случаев мошенничества.