Автор позволяет себе слишком много мучного, дабы прочувствовать, как рождалась статистика.

Некоторое время назад я приобрел электронные кухонные весы. Они состояли из стеклянной платформочки и «легкого в использовании голубого дисплея с задней подсветкой». Покупка эта отнюдь не была симптомом овладевшего мною желания готовить изысканные десерты. Равным образом не рассчитывал я и на частые посещения моей квартиры местными наркоторговцами. Просто меня заинтересовал процесс взвешивания. Вынув весы из коробки, я тут же отправился в ближайшую булочную — «Греггс» — и купил там багет. Взвесив его, я выяснил, что его вес составляет 391 грамм. На следующий день я снова отправился в ту же булочную и купил еще один багет. Этот оказался чуть тяжелее — 398 граммов. «Греггс» — это известная британская сеть, в которую входит более тысячи магазинов, где вы можете выпить чашку чаю и купить сэндвич с колбасой или булочку, покрытую сахарной глазурью. Однако меня интересовали только багеты. Третий, купленный в «Греггсе» багет весил 399 граммов. Мне уже изрядно надоело поглощать в день по целому багету, однако я продолжал ежедневную процедуру взвешивания. Четвертый багет оказался гигантом: 403 грамма. Я прикидывал даже, не повесить ли его на стену, как чучело рекордно большой рыбы. Ведь вес багета, продолжал размышлять я, не должен постоянно увеличиваться. Так и случилось: пятый весил жалкие 384 грамма.

В XVI и XVII веках Западную Европу охватила страсть к сбору всевозможных данных. Такие измерительные средства, как термометр, барометр и курвиметр — колесико, позволяющее засекать пройденное вдоль дороги расстояние, — были изобретены именно тогда, и их использование представляло собой восхитительное новшество. Не последнюю роль сыграло и то, что арабские числительные, обеспечивавшие эффективные обозначения для выражения результатов измерений, наконец полностью утвердились среди образованных классов. Возникший измерительный бум ознаменовал собой начало современной науки. Возможность описывать мир в количественных, а не качественных терминах полностью изменила наши взаимоотношения с природой. Числа, предоставив язык для научного исследования, внушили человеку уверенность, что он может добиться более глубокого понимания истинного устройства вещей.

Процедура измерения содержит в себе некий элемент веселой игры; и правда, мой ежедневный ритуал, состоящий в приобретении и взвешивании багета, оказался на удивление приятным занятием. От «Греггса» я возвращался почти бегом, сгорая от нетерпения, — сколько же граммов будет весить мой новый багет? И тут острота моих чувств ничуть не уступала жажде узнать счет футбольного матча или результаты финансовых торгов.

Мои ежедневные походы в булочную были обусловлены желанием составить таблицу распределения весов; после приобретения десятого багета я мог заключить, что самый малый вес составляет 380 граммов, самый большой — 410 граммов, а одно из значений — 403 грамма — повторялось. Разброс оказывается довольно широким, решил я. Все багеты куплены в одном и том же магазине, у всех одна и та же цена, и тем не менее самый тяжелый почти на 8 процентов тяжелее самого легкого!

Заинтригованный происходящим, я продолжал свои опыты. Несъеденный хлеб копился у меня на кухне, а я приходил в полный восторг, глядя, как веса распределялись по моей таблице. Хотя я и не мог предсказать, сколько будет весить следующий багет, было уже видно, что, без сомнения, в таблице присутствует некоторая закономерность. После сотого багета я прекратил эксперимент. К концу моих исследований каждое число между 379 граммами и 422 граммами, за исключением всего четырех, встречалось по крайней мере однажды.

Хотя я и приступил к реализации «хлебного» проекта по причинам математическим, я заметил, что тут имеют место и интересные психологические побочные эффекты. Перед взвешиванием каждого багета я внимательно его разглядывал и размышлял о его цвете, длине, толщине и текстуре, каковые довольно заметно варьировали от одного образца к другому. К самому себе я стал относиться как к знатоку багетов и временами даже говорил себе: «Ну, этот будет потяжелее», или «Сегодня, вне всякого сомнения, попался совершенно рядовой». При этом ошибался я столь же часто, как и оказывался прав. Тем не менее мой ограниченный опыт предсказателя нисколько не умалил мою веру в то, что я и в самом деле стал экспертом по оценке багетов. Видимо, это было нечто вроде того самообольщения, что свойственно знатокам спорта и финансов, которые хотя и не способны предсказывать случайные события, однако же с успехом строят на таких предсказаниях свою карьеру.

Надо сказать, более всего меня обескураживали ситуации, когда багеты от «Греггса» оказывались или экстремально тяжелыми, или экстремально легкими. В эти редкие моменты я испытывал сильное волнение. Когда вес багета оказывался исключительно необычным, весь день становился, казалось, таким же исключительно необычным, как если бы уникальные свойства данного багета как-то влияли на другие стороны жизни. Рассуждая рационально, я понимал, что время от времени мне обязательно должны попадаться или сверхбольшие, или сверхмалые багеты, но тем не менее каждое появление багета с экстремальным весом подстегивало мои эмоции. Я не считаю себя суеверным, но, удивительное дело, я не смог избежать попытки углядеть какой-то смысл в случайности. Насколько же все мы подвержены ни на чем не основанным верованиям!

* * *

Ученые эпохи Просвещения нашли в цифрах надежных помощников, привнесших в мир некую определенность, однако она, эта определенность, никогда не была полной. В самом деле, стоит вам только измерить одну и ту же вещь дважды, как вы получите два различных результата. Эти различия немало смущали ученых, вознамерившихся дать ясные и точные объяснения природных явлений. Галилео Галилей, например, заметил, что, когда он с помощью своего телескопа вычислял угловые расстояния между звездами, результаты были подвержены вариациям, причем вариации эти нельзя было отнести на счет ошибки в его вычислениях. Скорее они случались потому, что процедура измерения неизбежно содержит в себе некую «размытость». Числа, казалось, не вполне оправдывали возложенные на них надежды всегда быть точными.

Ровно это я и наблюдал, взвешивая свои багеты. Вероятно, целый ряд факторов вносил вклад в вариации веса: количество и консистенция использовавшейся муки, время, проведенное в печи, путешествие багетов от центральной пекарни «Греггса» к ближайшему ко мне магазину, влажность воздуха и т. д. Подобным же образом, имелось много переменных, влиявших на результаты, получаемые с помощью телескопа Галилея: например, атмосферные условия, температура оборудования и личные факторы, вроде того, насколько уставшим был Галилей, когда снимал показания.

Тем не менее Галилей смог заметить, что вариации в его результатах подчинялись определенным правилам: данные каждого измерения имели тенденцию группироваться вокруг некоторого центрального значения, причем малые отклонения от этого центрального значения случались намного чаще, чем большие. Кроме того, Галилей заметил, что разброс был симметричным — каждое данное измерение могло оказаться меньше центрального значения с той же частотой, что и больше него.

Точно так же полученные мной результаты по взвешиванию багетов показали, что веса группируются приблизительно вблизи значения в 400 граммов, плюс-минус 20 граммов. Хотя ни один из моих ста багетов не весил ровно 400 граммов, имелось намного больше багетов с весом около 400 граммов, чем с весом около 380 граммов или около 420 граммов. И разброс также был на вид довольно симметричным.

* * *

Первым, кто осознал закономерность, проявляемую подобными ошибками измерений, был знаменитый немецкий математик Карл Фридрих Гаусс (1777–1855). Закономерность описывается следующей колоколообразной кривой:

Гауссовский график требует некоторых пояснений. Горизонтальная ось изображает некоторый набор исходов, например вес багета или угловое расстояние между звездами. Вертикальная ось показывает вероятности этих исходов. Кривая, построенная на осях с такими параметрами, называется распределением. Она показывает разброс исходов и то, насколько вероятен каждый из них.

Имеется множество различных типов распределений, но самый главный тип описывается именно приведенной выше кривой. Колоколообразная кривая известна также как нормальное распределение, или гауссово распределение. Исходно оно называлось кривой ошибок, но из-за ее отличительной формы больше привился термин колоколообразная кривая. У колоколообразной кривой есть среднее значение, которое отмечено буквой X. Среднее — это наиболее вероятный исход. Чем дальше вы уходите от среднего, тем менее вероятны соответствующие исходы.

Когда измеряется некая величина и процесс подвержен случайным ошибкам, результат, как правило, одним и тем же не получается. Однако чем больше делается измерений, тем сильнее распределение исходов начинает напоминать колоколообразную кривую; другими словами, исходы симметрично группируются вокруг среднего значения. Конечно, график, выражающий результаты измерений, будет не непрерывной кривой, а (как в случае с моими багетами), ломаной линией, проходящей через фиксированные точки. Колоколообразная кривая — это теоретический предел того, как ведут себя случайные ошибки. Чем больший объем данных собран, тем лучше ломаная линия ложится на эту кривую.

В конце XIX столетия другой выдающийся математик — француз Анри Пуанкаре (1854–1912) понял, что распределение исходов, подверженных случайным ошибкам измерения, аппроксимируется колоколообразной кривой. Пуанкаре на самом деле провел тот же «хлебный» эксперимент, что и я, но совсем по другой причине. Он подозревал, что булочник обманывает его, продавая хлеб заниженного веса, и решил с помощью математики вывести мошенника на чистую воду. Каждый день в течение года Пуанкаре взвешивал купленную килограммовую буханку хлеба. Пуанкаре знал, что если вес несколько раз окажется ниже 1 килограмма, то это еще не свидетельство злонамеренности булочника, поскольку следует ожидать, что вес будет колебаться, оказываясь то несколько выше, то несколько ниже указанного килограмма. И он предположил, что график, отражающий вес хлеба, будет напоминать нормальное распределение, поскольку ошибки, неизбежно закрадывающиеся при изготовлении хлеба (количество использованной муки или продолжительность выпечки), носят случайный характер.

Спустя год он рассмотрел все собранные им данные. Распределение весов очень неплохо аппроксимировало колоколообразную кривую. Однако пик кривой пришелся на 950 граммов. Другими словами, средний вес буханки был равен 0,950 килограмма, а не 1 килограмму, как объявлялось. Подозрения, мучавшие Пуанкаре, подтвердились. Знаменитого ученого обманывали в среднем на 50 граммов на каждой буханке. Согласно распространенной легенде, Пуанкаре известил парижскую полицию, и пекарь получил строгое предупреждение.

Добившись этой небольшой победы в борьбе за права потребителей, Пуанкаре не остановился на достигнутом. Он продолжал каждый день взвешивать хлеб, и еще через год обнаружил, что форма графика не описывается правильной колоколообразной кривой; оказалось, кривая скошена направо. Поскольку он знал, что полностью случайная ошибка приводит к правильной колоколообразной кривой, он заключил, что на вес продаваемого хлеба влияет какой-то неслучайный фактор. По-видимому, решил Пуанкаре, пекарь не прекратил хитрить, недовешивая хлеб. Просто каждый раз мошенник продавал Пуанкаре — с которым, как он считал, лучше было не связываться — самый большой хлеб из имевшихся, тем самым внося в распределение систематическую ошибку.

К несчастью для булочника, его покупатель был одним из умнейших людей во всей Франции. Пуанкаре снова информировал полицию.

Способ, который применил тогда Пуанкаре, был поистине провидческим; в наше время он составляет теоретическую основу защиты прав потребителей. Когда магазины продают продукты заявленного веса, по закону эти продукты не обязаны иметь в точности этот вес — такого и быть не может, потому что в процессе производства неизбежно некоторые изделия оказываются немного тяжелее, а некоторые — немного легче. Работа служащих, следящих за соблюдением стандартов в торговле, состоит в случайной выборке образцов продукта, доступного в продаже, и построении графика, показывающего вес. Для всякого продукта, подвергающегося такой процедуре, распределение весов должно укладываться на колоколообразную кривую с центром на заявленном значении.

* * *

За полвека до того, как Пуанкаре занялся укладкой веса хлеба на колоколообразную кривую, другой математик видел эту кривую повсюду и во всем. Бельгиец Адольф Кетле (1796–1874) был по образованию геометром и астрономом, но интересовало его совсем иное — его увлекали массивы данных, а точнее говоря, нахождение закономерностей в цифрах. В одной из своих первых работ Кетле исследовал французскую национальную статистику преступлений, которую правительство начало публиковать в 1825 году. Ученый заметил, что число убийств год от года практически не менялось. Даже частота использования различных видов орудий убийства — было ли оно произведено с помощью ружья, сабли, ножа, кулака и т. д. — оставалась, в грубом приближении, той же самой. В наши дни это не вызывает особого интереса — и в самом деле, вся система функционирования общественных институтов основана на использовании, например, частоты преступлений, частоты прохождения экзамена и частоты несчастных случаев, от которых мы и в самом деле ожидаем постоянства, — но Кетле был первым, кто обратил внимание на потрясающую регулярность социальных явлений. На каждый данный год появлялась возможность с достаточной точностью предсказать количество будущих убийств. Из такого рода закономерностей возникала совсем иная трактовка личной ответственности и справедливости наказания. Ведь если общество подобно машине, вырабатывающей заданное число убийств, то не означает ли это, что вся вина лежит скорее на обществе, чем на индивидууме-преступнике?

Работы Кетле привели к тому, что слово статистика изменило свое значение. Исходно оно не имело отношения к числам, а использовалось для описаний общих фактов о государстве, вроде той информации, которая нужна государственным деятелям. Кетле превратил статистику в гораздо более широкую дисциплину, в меньшей степени имеющую отношение к делам государства, а в большей — к математике коллективного поведения. Едва ли он сильно преуспел бы на этом поприще, если бы не параллельное бурное развитие теории вероятностей, которая предоставляла методы для анализа случайных данных. В 1853 году Кетле организовал в Брюсселе первую международную конференцию по статистике.

Глубокие наблюдения Кетле, касающиеся коллективного поведения, оказали большое влияние и на другие области знания. Коль скоро изучение данных о народонаселении позволяло проследить устойчивые тенденции, требовался лишь небольшой толчок, чтобы осознать, что, например, в поведении атомного «населения» также имеются предсказуемые закономерности. Джеймс Клерк Максвелл и Людвиг Больцман воспользовались многими «статистическими» идеями Кетле и предложили кинетическую теорию газов, согласно которой давление газа определяется столкновениями его молекул, летящих в случайных направлениях с различными скоростями. Хотя скорость каждой отдельной молекулы узнать нельзя, в целом молекулы ведут себя предсказуемым образом. Происхождение кинетической теории газов — интересное исключение из общего правила, согласно которому прогресс в социальных науках основан на достижениях в науках естественных. В данном случае знание перетекало в обратном направлении.

Самая общая закономерность, найденная Кетле в его исследованиях, выражалась колоколообразной кривой. Она присутствовала повсюду в данных, имевших отношение к народонаселению. В те времена собирать информацию было гораздо труднее, чем сегодня, так что Кетле прочесывал все и вся в поисках нужных ему данных с упорством профессионального коллекционера. Например, однажды он наткнулся на исследование, опубликованное в 1814 году в «Edinburg Medical Journal» и содержавшее результаты измерений грудной клетки у 5738 шотландских солдат. Кетле нанес эти числа на график и показал, что распределение размеров груди следовало колоколообразной кривой со средним значением около 40 дюймов. На основе других данных он смог показать, что рост мужчин и женщин также распределяется по колоколообразной кривой. И ныне розничная торговля опирается на сделанные Кетле открытия. Причина, по которой в магазинах одежды всегда запасено больше средних размеров, нежели малых или больших, состоит в том, что распределение людей по размерам примерно соответствует колоколообразной кривой.

* * *

Кетле умер в 1874 году. Десятилетие спустя на другой стороне Ла-Манша на улицах британских городов можно было наблюдать лысого 60-летнего человека с изящными викторианскими бакенбардами, который, уставившись на проходившую мимо женщину, начинал шарить у себя в кармане. Фрэнсис Гальтон (1822–1911), знаменитый географ, антрополог и психолог, решил измерить женскую привлекательность. Чтобы деликатно фиксировать свое мнение о встречаемых женщинах, он в кармане втыкал иголку в сложенный вчетверо листок бумаги, отмечая, показалась ли она ему «привлекательной», «нейтральной» или «отталкивающей». По окончании исследования он нанес на карту страны результаты своих зрительных впечатлений. Наивысший балл среди городов получил Лондон, а наинизший — Абердин.

Судя по всему, из европейских ученых XIX века только Гальтон был одержим идеей сбора данных более, чем сам Кетле. Еще будучи совсем молодым, Гальтон ежедневно измерял температуру чайника с чаем, а также собирал информацию об объеме кипящей воды и о том, насколько тонким получился вкус. Цель его состояла в установлении способа приготовления чашки совершенного чая. (К окончательным выводам, впрочем, он так и не пришел.) Гальтон также создал в Лондоне «антропометрическую лабораторию» — нечто вроде клиники, принимавшей всех желающих, куда представители широкой публики могли прийти, дабы измерить свой рост, вес, силу рук, частоту дыхания, зрение и другие физические характеристики. Лаборатория Гальтона собрала данные о более чем 10 000 человек, и он удостоился такой славы, что премьер-министр Уильям Гладстон даже заглянул как-то к нему, чтобы его тоже измерили.

Исследования Гальтона подтвердили то, что утверждал Кетле, — вариации в человеческих популяциях строго предопределены. Гальтон тоже повсюду обнаруживал колоколообразную кривую. Именно то, что она появлялась столь часто, навело его на мысль использовать термин «нормальное» как наиболее подходящее определение для данного распределения. Окружность человеческой головы, размер мозга и количество мозговых извилин — колоколообразные кривые были везде, хотя сам Гальтон больше всего интересовался нефизическими характеристиками, например интеллектом. Тесты для измерения IQ. тогда еще не придумали, так что Гальтон решил использовать результаты вступительных экзаменов в Королевскую военную академию в Сандхерсте. Баллы, выставленные за экзамен, также ложились на колоколообразную кривую! Она вызывала в нем чувство восхищения, смешанного с ужасом. «Едва ли мне известно что-либо другое, столь же впечатляющее, чем эта по-истине чудесная форма космического порядка, выраженная в колоколообразной кривой, — писал он. — Если бы древние греки знали о таком законе, они бы придумали для него специального бога, который правит, невозмутимый и незаметный, среди ужасного беспорядка. Чем огромней толпа и чем больше анархия, тем более совершенно его действие. Это высший закон иррациональности».

Гальтон изобрел на удивление простое приспособление, названное «квинканкс», для объяснения той математики, что стоит за обожаемой им кривой. Слово «квинканкс» исходно означало пятерку — пять точек, расположенных как на игральной кости 5, а придуманное им приспособление представляло собой нечто вроде пинбол-машинки — ящик с прозрачной передней стенкой, в заднюю стенку которого в шахматном порядке вбиты штырьки. Сверху в ящик через воронку, расположенную посередине, кидаются шарики. Нижняя часть ящика разделена перегородками, число которых равно числу штырьков в последнем ряду. Падая, шарики скапливаются на дне и образуют столбики. Распределение высот этих столбиков напоминает колоколообразную кривую.

Квинканкс

Разобраться в том, что здесь происходит, можно используя идею о вероятности. Сначала представим себе квинканкс с одним-единственным штырьком; когда шарик ударяется о него, исход такого соударения случаен: в 50 процентах случаев шарик отскочит налево, а в 50 процентах случаев — направо. Другими словами, с вероятностью 1:2 он попадет в положение слева, а с вероятностью 1:2 — справа от центра.

Теперь добавим второй ряд штырьков. Теперь шарик может повернуть или сначала налево и потом еще раз налево, что мы будем обозначать как LL, или налево и потом направо, что мы обозначим как LR, или же, в тех же обозначениях, пройти пути RL или RR. Поскольку исход «сначала повернуть налево, а затем сразу же направо» эквивалентен исходу «положение шарика не меняется», L и R сокращают друг друга (как, равным образом, и R и L), так что в результате вероятность того, что шарик попадет в левое положение, равна 1:4, вероятность того, что он попадет в середину, равна 2:4, и вероятность того, что он уйдет направо, также равна 1:4.

Добавим третий ряд. Повторяя наши рассуждения, видим, что равновероятные исходы состоят в том, что пути шарика будут LLL, LLR, LRL, LRR, RRR, RRL, RLR и RLL. Это дает вероятность 1:8 приземлиться в крайнем левом положении, 3:8 — слева рядом с центром, 3:8 — справа рядом с центром и 1:8 — в крайнем правом положении.

Другими словами, если в квинканксе имеется два ряда и мы накидаем туда уйму шариков, то по закону больших чисел шарики лягут на дно в отношении, близком к 1:2:1.

Если рядов три, то шарики соберутся на дне в отношении 1:3:3:1.

Если рядов четыре, то в отношении 1:4:6:4:1.

Подсчитывая вероятности и дальше, для квинканкса с десятью рядами штырей получим, что шарики распределятся в отношении

1:10:45:120:210:252:210:120:45:10:1.

Если нанести эти числа на график, то получатся распределения, показанные на рисунке.

Форма кривой становится все более знакомой по мере увеличения числа рядов из штырей. На рисунке приведены также диаграммы, получающиеся для 100 и 1000 рядов. (Для двух последних диаграмм показаны только их центральные области, поскольку значения в областях, уходящих налево и направо, слишком малы, чтобы их можно было изобразить.)

Итак, как же игра в пинбол связана с тем, что имеет место в реальном мире? Представим себе, что каждый ряд штырей в квинканксе — это случайная переменная, которая приводит к ошибке в измерении: или добавляет немного к измеряемому значению, или же, наоборот, немного из него вычитает. В случае Галилея и его телескопа один из рядов, составленных из штырей, мог бы представлять наличие проходящего рядом атмосферного фронта, а другой ряд мог бы представлять наличие загрязняющих примесей в воздухе. Каждая переменная вносит тот или иной вклад в ошибку — в точности как шарик отскакивает в квинканксе вправо или влево. При любом измерении имеется много миллионов ненаблюдаемых случайных ошибок, однако их совместный эффект приведет к результатам, распределенным по колоколообразной кривой.

* * *

Если характеристики, относящиеся к народонаселению, распределены нормально — другими словами, группируются вблизи среднего и ложатся на колоколообразную кривую, — и если колоколообразная кривая есть результат случайных ошибок, то, как утверждал Кетле, вариации в человеческих характеристиках можно воспринимать как ошибки, отвечающие отклонению от некоего образца. Он назвал такой образец «l’homme тоуеп» — «средний человек». Популяции, утверждал он, составлены из отклонений от этого образца. По мысли Кетле, следовало всячески стремиться к тому, чтобы быть средним, потому что именно таким образом общество удерживалось бы под контролем, а отклонения от среднего, писал он, приводят к «телесному уродству и моральному разложению». Хотя концепция «l'homme тоуеп» не получила признания в науке, использование этого термина просочилось в широкие слои общества. Часто, рассуждая о морали или вкусах, мы апеллируем к тому, что подумал или почувствовал бы средний представитель человечества, и говорим о том, что приемлемо «с точки зрения среднего человека».

Кетле превозносил идею среднего, но Гальтон смотрел на нее свысока. Как уже говорилось, Гальтон заметил, что результаты экзаменов следуют нормальному распределению. Больше всего людей получают средние оценки, и лишь немногие — очень высокие или очень низкие. Сам Гальтон, кстати, происходил из семьи, которая весьма заметно возвышалась над средним. Двоюродным братом ему приходился Чарльз Дарвин, с которым он регулярно обменивался научными идеями. Лет через десять после выхода книги Дарвина «О происхождении видов» Гальтон начал теоретизировать о способах управления человеческой эволюцией. Его интересовала передача гениальности по наследству, и он задавался вопросом о том, как можно было бы повысить уровень интеллекта населения в целом. Он стремился сдвинуть колоколообразную кривую вправо. С этой целью Гальтон предложил новую область исследований, направленных на «культивацию расы», то есть повышение интеллектуального потенциала населения посредством направленного разведения одаренных людей. Одно время он думал назвать свою новую науку «витикультурой», от латинского «vita» — жизнь, но в конце концов остановился на «евгенике» — от греческого «eu» — хороший и «genos» — род. (Сегодняшнее значение слова «витикультура», относящееся к возделыванию винограда, происходит от «vitis» — лоза по-латыни — и восходит примерно к тому же самому времени.) Хотя немало либерально настроенных интеллектуалов в конце XIX и начале XX столетия поддерживали евгенику как способ улучшения общества, идея «разводить» более умных людей впоследствии претерпела значительные искажения и окончательно дискредитировала себя, когда в 1930-х годах евгеника стала синонимом бесчеловечной политики нацистов по созданию высшей арийской расы.

Оглядываясь назад, не так уж сложно заметить, что оценочные критерии — такие, как уровень интеллекта или расовая чистота, — могут порождать дискриминацию и слепой фанатизм. Поскольку колоколообразная кривая появляется, как только какие-то человеческие качества подвергаются измерению, она стала неким сигналом, говорящим о том, что предпринимаются попытки объявить некоторых людей априори лучше других. Примером, наделавшим много шума, стала публикация в 1994 году книги Ричарда Дж. Херрнстайна и Чарльза Мюррея «Колоколообразная кривая». Эта книга вызвала яростную полемику. Название ее апеллирует к результатам распределения тестов на IQ: авторы этого труда утверждают, что различия в IQ между расовыми группами свидетельствуют о биологических различиях. Гальтон писал, что колоколообразная кривая правит «невозмутимо и незаметно». Ее наследие, однако, оказалось каким угодно, но только не спокойным и не незаметным.

* * *

Другой способ получить те наборы цифр, которые мы наблюдаем, рассматривая распределение шариков в квинканксе, состоит в том, чтобы сложить из них нечто вроде числовой пирамиды. Организованные таким образом цифры более известны как треугольник Паскаля.

Треугольник Паскаля можно построить методом гораздо более простым, чем изучение распределения шариков, случайным образом просеивающихся через квинканкс. Начнем с 1 в первой строке, а под ней расположим две 1 так, чтобы все они образовывали треугольник. В следующих строках всегда будем помещать по 1 в начале и в конце, а во всех остальных положениях будем писать сумму двух чисел, расположенных выше.

Этот треугольник назван по имени Блеза Паскаля, хотя Паскаль был далеко не первым, кого очаровала эта конструкция. Индийские, китайские и персидские математики знали об этой структуре за столетия до Паскаля. Правда, Паскаль, в отличие от предшественников, написал книгу о том, что он называл «le triangle arithmetique». Его зачаровывала математическая глубина открытых им структур. «Удивительно, насколько изобилен он (имелся в виду треугольник) в своих свойствах», — поражался Паскаль, добавляя, что в книгу он смог поместить меньшую часть того, что ему известно.

Мне в треугольнике Паскаля больше всего нравится вот какое свойство. Пусть каждое число сидит в квадратике. Закрасим черным все квадратики с нечетными числами, а все квадратики с четными числами оставим белыми. В результате получается чудесная мозаика:

Возникающий узор напоминает ковер Серпинского — кусок математической фрактальной структуры, похожий на обивку, о котором говорилось во второй главе (квадрат делится на девять подквадратов, а потом центральный подквадрат удаляется, и тот же процесс повторяется для каждого из оставшихся подквадратов до бесконечности). Треугольный вариант ковра Серпинского называется треугольником Серпинского: в данном случае равносторонний треугольник делится на четыре одинаковых равносторонних треугольника, средний из которых затем удаляется, а три оставшихся снова подвергаются той же операции — разбиению на четыре и удалению среднего. Вот как выглядят первые три итерации:

Если распространить описанный выше метод закрашивания треугольника Паскаля на все большее и большее количество строк, то возникающая структура будет все более напоминать треугольник Серпинского. На самом деле в бесконечном пределе треугольник Паскаля становится треугольником Серпинского.

Серпинский — не единственный наш знакомец, кого можно встретить на этом черно-белом паркете. Рассмотрим белые треугольники, расположенные внизу по центру основного треугольника. Первый из них составлен из одного квадрата, второй — из 6 квадратов, третий — из 28, а далее идут числа 120 и 496. Ничего не напоминает? Три из этих чисел — 6, 28 и 496 — это совершенные числа, рассматривавшиеся в седьмой главе. Их появление — замечательное и очень наглядное выражение абстрактных идей, с виду никак не связанных.

* * *

Интерес древних индийцев к треугольнику Паскаля был вызван задачей о комбинациях объектов. Пусть, например, у нас имеется три фрукта: манго, личи и банан и всего одна их комбинация: манго, личи, банан. Если же мы желаем выбрать только два фрукта, то сделать это можно тремя различными способами: взять манго и личи, или манго и банан, или же личи и банан. Также тремя способами можно выбрать какой-то один фрукт. Наконец, надо рассмотреть и случай, когда выбирается нуль фруктов, и это можно сделать только одним-единственным способом. Другими словами, число комбинаций трех различных фруктов дает последовательность 1, 3, 3, 1 — третью строчку в треугольнике Паскаля.

С четырьмя объектами число комбинаций, в которых не выбирается а) ни одного объекта, б) выбирается один, в) два сразу, г) три сразу и д) четыре сразу, равны, соответственно, 1, 4, 6, 4, 1, что представляет собой четвертую строчку в треугольнике Паскаля. Подсчет можно продолжить для все большего числа объектов, и окажется, что треугольник Паскаля — это справочная таблица для числа комбинаций. Если у нас есть n предметов и нас интересует, сколько комбинаций можно составить, беря из них m штук, за ответом надо обратиться к m-му элементу в n-й строке в треугольнике Паскаля. (Замечание: примем соглашение, что самой левой 1 в каждой строке приписано нулевое положение в строке.) Например, каково число способов взять три фрукта из имеющихся семи? Таких способов 35, потому что третий элемент в седьмой строке равен 35.

Давайте теперь перейдем к комбинированию математических объектов. Рассмотрим выражение x + у. Что представляет собой (x + у)2? Это то же самое, что (x + у)(x + у). Чтобы разложить это выражение, умножим каждый член в первой скобке на каждый член во второй. Таким образом, получится xx + xy + yх + yy, или х 2 + 2ху + у 2 . Дальнейшие вычисления делают структуру более ясной. Коэффициенты перед отдельными членами — это строки из треугольника Паскаля:

(x + у) 2 = х 2 + 2ху + у 2 ,

(x + у) 3 = х 3 + 3х 2 у + 3ху 2 + y 3 ,

(x + y) 4 = х 4 + 4х 3 y + 6х 2 у 2 + 4ху 3 + у 4 .

В начале XVIII столетия математик Абрахам де Муавр (1667–1754) — француз и гугенот, нашедший убежище в Лондоне, — первым понял, что коэффициенты в этих равенствах все лучше ложатся на кривую-колокол по мере, того как (x + у) все большее число раз умножается само на себя. Он не назвал то, что получилось, ни колоколообразной кривой, ни кривой ошибок, ни нормальным распределением, ни даже гауссовым распределением — все эти имена были даны ей позже. Данная кривая впервые появилась в математической литературе в написанной в 1718 году книге Муавра об играх — «Теория случайностей» («The Doctrine of Chances»). To был первый учебник по теории вероятностей, а заодно и пример того, как азартные игры способствовали прогрессу научного знания.

* * *

Я говорил о колоколообразной кривой так, как если бы это была одна кривая; на самом же деле это семейство кривых. Все они выглядят похожими на колокол, но одни уже, а другие шире.

Вот объяснение, почему ширина бывает различной. Если бы Галилей, скажем, в своих астрономических измерениях пользовался телескопом XXI века, то ошибка была бы меньше, чем при использовании телескопа XVI столетия. Современный инструмент дал бы гораздо более узкую колоколообразную кривую, чем первый телескоп. Ошибки были бы намного меньше, но все равно были бы распределены нормально.

Колоколообразные кривые с различными отклонениями

Помимо среднего значения, колоколообразная кривая характеризуется еще шириной, называемой отклонением. Если известны среднее и отклонение, то полностью известна и форма кривой. Это исключительное удобство связано с тем фактом, что нормальную кривую можно описать, используя всего два параметра. Ну или, быть может, это даже слишком удобно. Те, кто имеет дело со статистикой, нередко принимают желаемое за действительное, стремясь обнаружить колоколообразную кривую во всех своих результатах. Билл Робинсон — экономист, возглавляющий отдел судебной бухгалтерии в KPMG в Лондоне, признает, что подобное имеет место. «Мы обожаем работать с нормальными распределениями, потому что их математические свойства очень хорошо изучены. Стоит нам только узнать, что речь идет о нормальном распределении, как мы уже готовы делать всяческие интересные утверждения».

Работа Робинсона, грубо говоря, состоит в том, чтобы, исследуя структуру колоссальных объемов данных, сказать, не намухлевал ли кто в бухгалтерской отчетности. Робинсон придерживается той же стратегии, что использовал Пуанкаре, ежедневно взвешивая хлеб, с той лишь разницей, что он — британский экономист — ежедневно анализирует гигабайты финансовых данных и применяет для этого гораздо более продвинутые средства.

Робинсон говорит, что сотрудники его отдела имеют склонность работать, исходя из предположения, что любому набору данных априорно свойственно нормальное распределение. «Я полагаю, что в отношении финансовых рынков истина состоит в том, что мы зачастую предполагаем наличие нормального распределения там, где оно, возможно, не работает». В последние годы и правда наблюдалось некоторое попятное движение — как в мире науки, так и в мире финансов — прочь от исторически сложившейся практики опираться на нормальное распределение.

Когда некоторое распределение сконцентрировано вблизи среднего в меньшей степени, чем колоколообразная кривая, про него говорят, что оно плосковершинное или что у него эксцесс меньше нормального. Наоборот, когда распределение в большей степени сконцентрировано вблизи среднего, говорят, что оно островершинное, или что оно имеет положительный эксцесс. Уильям Сили Госсет, специалист по статистике, работавший на пивоварне Гиннесса в Дублине, придумал в 1908 году памятку, облегчающую запоминание того, что есть что: «У утконоса с плоским утиным носом (и плоской спиной) плосковершинное распределение, а у целующихся кенгуру — островершинное». Он выбрал кенгуру из-за того, что они «высоко скачут, хотя, честно говоря, по той же самой причине можно было выбрать и зайцев!». Поскольку в составленной Госсетом памятке главные действующие лица — животные, далекие правые и далекие левые участки кривых, описывающих распределения, называют хвостами.

Плосковершинное и островершинное распределения

Когда экономисты говорят, что у распределения «толстые» или «тяжелые» хвосты, они имеют в виду, что кривые в далеких от среднего областях проходят выше, то есть на большем удалении от горизонтальной оси, чем кривая нормального распределения, как если бы у госсетовских животных хвосты были толще средних. Эти кривые описывают распределения, в которых крайние события более вероятны, чем в случае нормального распределения. Например, если вариации в цене акций имеют толстые хвосты, это означает, что вероятность резкого падения или, наоборот, резкого роста этих акций в цене больше, чем в случае нормального распределения. По этой причине иногда довольно безрассудно предполагать колоколообразную кривую там, где распределение имеет толстые хвосты.

В своем бестселлере «Черный лебедь» экономист Нассим Николас Талеб утверждает, что нам свойственна тенденция к недооценке размера и важности хвостов кривых, описывающих распределения. Его аргумент состоит в том, что колоколообразная кривая — это исторически дефективная модель, потому что она не позволяет предсказывать ни появление очень редких, крайних событий, ни производимый ими эффект, — а к таким событиям могут относиться ключевые научные открытия, подобные изобретению Интернета, или нападение террористов, подобное атаке и сентября 2001 года. Вездесущность нормального распределения не относится к числу свойств окружающего мира, утверждает он, — тут проблема нашего восприятия, порожденная тем, как мы смотрим на те или иные явления.

Желание всюду усматривать колоколообразную кривую, пожалуй, сильнее всего проявляется в образовании. Расстановка оценок от А до F на экзаменах в конце учебного года основана на том, как набранные учащимися баллы ложатся на колоколообразную кривую, — причем предполагается, что она и в самом деле будет аппроксимировать полученные оценки. Затем данная кривая разбивается на участки, и оценка А выставляется тем, чьи баллы попали в самый верхний участок, В — в следующий и т. д. Во избежание резких встрясок образовательной системы важно, чтобы из года в год процент учащихся, получающих оценки от А до F, оставался примерно постоянным. Если в какой-то год получается слишком много оценок А или слишком много оценок F, то потом на некоторых курсах окажется слишком много или слишком мало студентов, что, в свою очередь, повлечет изменение требований к преподавательскому составу. Экзамены целенаправленно устроены таким образом, чтобы распределение результатов по возможности наилучшим образом ложилось на колоколообразную кривую, независимо от того, насколько точно это отражает реальный уровень знаний.

Высказывалось мнение, что почтение, питаемое некоторыми учеными к колоколообразной кривой, поощряет небрежность в работе. Из нашего примера с квинканксом мы видели, что случайные ошибки распределены нормально. Так что чем больше случайных ошибок мы сможем внести в измерение, тем более вероятно, что данные будут описываться колоколообразной кривой — даже если измеряемые явления сами по себе не распределены нормально. Когда же нормальное распределение обнаруживают в наборе данных, причина этого может состоять просто в том, что измерения делались недостаточно тщательно.

* * *

Что и возвращает нас к багетам. Действительно ли их веса были распределены нормально? Был ли хвост распределения узким или широким? Как вы помните, я взвесил в общей сложности 100 багетов. Результаты продемонстрировали определенные обнадеживающие тенденции: среднее оказалось равным примерно 400 граммам, а разброс был более или менее симметричным — между 380 и 420 граммами. Если бы я был неутомим в той же степени, что и Анри Пуанкаре, я продолжил бы эксперимент и взвешивал багеты в течение года, получил бы 365 (плюс-минус несколько штук с учетом тех дней, когда пекарня закрыта) весов, которые мог бы сравнивать. При наличии большего объема данных характер распределения был бы яснее. И тем не менее моя скромная выборка оказалась достаточной, чтобы примерно представить себе, как формируется результат. Я использовал трюк, состоящий в «сжатии» полученных данных: нарисовал график, на котором сгруппировал багеты по весу со шкалой не в 1 грамм, а в 8 граммов. Вот что у меня получилось:

Нарисовав это, я почувствовал облегчение, поскольку и в самом деле было похоже, что в моем эксперименте с багетами веса укладываются на колоколообразную кривую. Но при ближайшем рассмотрении оказалось, что график вовсе не является колоколообразной кривой. Да, веса группировались вокруг среднего значения, но кривая с очевидностью не обладала симметрией. Левая ее сторона оказалась не такой крутой, как правая, словно какой-то невидимый магнит немного вытягивал кривую влево.

Отсюда следовало два возможных вывода. Или веса багетов от «Греггса» не распределены нормально, или же они распределены нормально, но в ход моего эксперимента вкралась какая-то систематическая ошибка. У меня были определенные соображения, что это могла быть за ошибка. Несъеденные багеты скапливались у меня на кухне, и теперь я решил взвесить один из них. К моему удивлению, в нем был всего 321 грамм — существенно меньше, чем самый малый из весов, что появлялся в ходе моего эксперимента. И тут меня осенило: вес багета — величина не постоянная, багет становится легче по мере высыхания! Я снова отправился в магазин и выяснил, что багет теряет около 15 граммов веса за время от 8 утра до полудня.

Мне стало ясно, что мой эксперимент далеко не идеален. Я не учитывал время дня, в которое осуществлял свои измерения. Вне всякого сомнения, именно это внесло систематическую ошибку в распределение весов. Чаще всего я приходил в магазин к открытию и взвешивал свой хлеб около 8:10 утра; но иногда я вставал поздно. Эта случайная переменная не распределена нормально, потому что среднее время попадает куда-то между 8 и 9 утра, но нет никакого хвоста, описывающего период до 8 утра, поскольку магазин в это время еще закрыт. Зато с другой стороны хвост тянулся до самого обеда. И тогда мне пришло в голову кое-что еще. А как обстояло дело с окружающей температурой? Я начал свои опыты в начале весны, а закончил их в начале лета, когда стало существенно теплее. Я взглянул на цифры и обнаружил, что веса моих багетов в целом уменьшались по мере приближения к концу эксперимента. Летняя жара, заключил я, способствовала их более быстрому высыханию. И опять же, этот фактор мог влиять на вытягивание кривой влево.

Из моего эксперимента можно, наверное, заключить, что веса багетов аппроксимируются слегка искаженной колоколообразной кривой, но главный урок, который я для себя извлек, состоял в том, что измерение — вовсе не простая штука. Нормальное распределение — это теоретический идеал, и нельзя предполагать, что все результаты будут ему соответствовать. Тогда я задумался об Анри Пуанкаре. Когда он взвешивал свой хлеб, исключил ли он систематические ошибки, связанные с парижской погодой или временем измерений? Быть может, из его экспериментов вовсе не следовало, что ему продавали 950-граммовый хлеб вместо килограммового, а следовало лишь, что между выпечкой и взвешиванием килограммовый хлеб теряет в весе 50 граммов? Вся история колоколообразной кривой в действительности представляет собой прекрасную аллегорию нетривиального взаимоотношения теоретических и прикладных областей знания. Однажды Пуанкаре получил письмо от французского физика Габриэля Липмана, который блестяще выразил, почему нормальное распределение столь высоко превозносится: «Все верят в колоколообразную кривую: экспериментаторы — поскольку полагают, что ее присутствие доказано математически; математики — поскольку считают, что она следует из наблюдений». В науке, как и во многих других сферах, мы часто выбираем то, что устраивает нас более всего.