Список терминов, представленный ниже, нельзя назвать исчерпывающим. Скорее это мой личный выбор. Безусловно, вы вправе применить собственное независимое мышление и оспорить какие-то определения.
Cum hoc, ergo propter hoc («Вместе с этим, следовательно, по причине этого») — логическая ошибка, результат следующего рассуждения: если два события происходят в одно время, значит, одно было вызвано другим. Корреляция не подразумевает причинно-следственных связей.
GIGO (Garbage in, garbage out) — «Мусор на входе, мусор на выходе».
Modus ponens — «правило вывода». Вид обоснованного дедуктивного рассуждения, имеющего следующую форму:
Если A, то B
A
Следовательно, B
Post hoc, ergo propter hoc («После этого, следовательно, по причине этого») — логическая ошибка, возникающая в результате такого рассуждения: из того, что одна ситуация (Y) происходит после другой (X), следует, что X стала причиной Y. X и Y могут быть взаимосвязаны, но это не означает, что имеет место причинно-следственная связь.
Абдукция — форма рассуждений, получившая известность благодаря Шерлоку Холмсу, в которой из разумных догадок выводится теория, способная объяснить все имеющиеся факты.
Бимодальное распределение — серия наблюдений, в которых два значения встречаются чаще, чем другие. На графике, отображающем частоты разных значений, видны два пика, или горба.
Верные цифры показывают, насколько близко число к настоящему количеству того, что измеряют. Не путать с точными цифрами.
Гипотетический силлогизм — то же, что и «правило вывода», или modus ponens.
Двойная ось Y — графическая техника для отображения двух серий наблюдений на одном графике, в котором все величины для каждой серии представлены на двух осях (обычно с разными шкалами). Этот метод хорош, только когда с помощью двух серий наблюдений мы измеряем непохожие величины, как было показано в . Графики с двойной осью Y могут только запутать, потому что тот, кто их составляет, может подправить шкалу осей, преследуя корыстные цели. На страницах книги мы приводили пример с компанией Planned Parenthood.
Дедукция — форма рассуждения, в которой мы идем от общего к частному.
Диаграмма рассеяния — тип диаграммы, изображающей значения двух переменных в виде отдельных точек. Например, ниже вы найдете .
Индукция — форма умозаключений, в которой серия конкретных наблюдений ведет к общему утверждению.
Интерполяция — отыскание промежуточных значений величины по некоторым известным ее значениям.
Контрапозиция — тип дедукции следующего вида:
Если A, то B
Не B
Следовательно, не A
Корреляция — статистический показатель, характеризующий, насколько близко связаны две переменные. Может принимать любые значения от –1 до 1. Когда одна величина совершенно закономерно увеличивается с увеличением другой, имеет место полная корреляция (корреляция = 1). Если же наоборот, одна величина совершенно закономерно увеличивается с уменьшением другой, то имеет место полная отрицательная корреляция (корреляция = –1). Когда две переменные совершенно друг с другом не взаимосвязаны, корреляция равна 0.
Корреляция показывает только то, что две (или более) переменных как-то связаны, но не то, что одна есть причина другой. Корреляция не подразумевает причинно-следственных связей. Корреляция полезна, потому что отражает оценку того, насколько изменчивость в наблюдениях вызвана двумя переменными, которые мы отслеживаем. Например, корреляция 0,78 между ростом и весом показывает, что в 78 % случаев в изучаемой выборке разница в весе связана с разницей в росте. Статистика умалчивает, какие факторы скрываются за оставшимися 22 %, — тут нужно проводить дополнительные исследования, но можно предположить, что это могут быть диета, генетика, занятия спортом и т. д.
Кумулятивный график — тот, на котором измеряемая величина, например продажи или членство в политической партии, представлена итоговой суммой, а не количеством новых наблюдений за какой-то период времени. Пример мы видели в случае с .
Медиана — один из видов среднего значения (центральная тенденция серии наблюдений). Это значение, для которого половина наблюдений больше, а половина меньше. Когда существует равное количество наблюдений, статистики в качестве медианы могут взять среднее арифметическое двух срединных наблюдений. Например, для ряда (10, 12, 16, 17, 20, 28, 32) медиана будет 17. Для (10, 12, 16, 20, 28, 32) — 18 (среднее арифметическое двух срединных величин, 16 и 20).
Мода — один из видов среднего значения (центральная тенденция целой серии наблюдений). Это та величина, которая в распределении появляется чаще всего. Например, для ряда (100, 112, 112, 112, 119, 131, 142, 156, 199) мода будет 112.
Ошибка исключения — ошибка в рассуждении, которая случается, когда делают выводы о целой группе, основываясь на сведениях о нескольких частных случаях.
Обратное утверждение — вид необоснованного дедуктивного рассуждения, имеющего следующую форму:
Если A, то B
B
Следовательно, A
Объединение выборок — объединение наблюдений за одной или более группами. Если группы схожи в каком-то важном аспекте, то есть гомогенны, то это правильный подход. Если нет, это может привести к искажению данных.
Ошибка подтверждения следствием. См. Обратное утверждение .
Противоположное утверждение — вид необоснованного дедуктивного рассуждения, имеющего следующую форму:
Если А, то B
Не A
Следовательно, не B
Разделение на группы — разделение серии наблюдений на более мелкие группы. Это допустимо, когда мы имеем дело с разнородными данными и когда большая группа состоит из объектов, отличающихся только по одному важному показателю. Однако разделение на группы может применяться в жульнических целях, чтобы создать много маленьких групп, которые не сильно отличаются по изучаемой переменной.
Распространенность — число существующих случаев (например, заболевания).
Силлогизм — тип логического утверждения, в котором выводы должны обязательно следовать из посылки.
Среднее — суммарный показатель, характеризующий серию наблюдений. «Среднее» — нетехнический термин, часто под ним понимают среднее арифметическое, медиану или моду.
Среднее арифметическое — один из показателей среднего (центральная тенденция целой серии наблюдений). Его можно высчитать, суммировав все наблюдения и поделив на их количество. Два других типа среднего — это медиана и мода. Например, для (1, 1, 2, 4, 5, 5) среднее арифметическое равно (1 + 1 + 2 + 4 + 5 + 5) / 6 = 3. Обратите внимание, что, в отличие от моды, среднее арифметическое не обязательно находится среди наблюденных значений.
Точные цифры показывают, с точностью до какого десятичного разряда проводили измерение. Например, в числе 909 нет знаков после запятой, это результат измерения с точностью до целых. В числе 909,35 — два знака после запятой, это результат измерения с точностью до сотых. Точные цифры не всегда верные: второе число точнее первого, но не вернее его, если настоящее значение 909,00.
Усеченные оси используются в графиках, в которых шкалы на осях начинаются не с самых низких возможных значений. Иногда это может быть полезно: подробнее изображается та часть графика, где фиксируются результаты наблюдений. Но если использовать эту технику с целью манипуляции, то можно сильно исказить реальность. График, приведенный в качестве примера в этом разделе (см. Диаграмма рассеяния ), эффективно использует две усеченные оси и не искажает данных. , данные искажает, истинные значения представлены на переделанном графике ниже.
Условная вероятность — вероятность, что какое-то событие произойдет при условии, что произойдет или уже произошло другое событие. Например, вероятность того, что сегодня пойдет дождь, при условии, что дождь шел вчера. Слова «при условии» обозначаются вертикальной чертой: |.
Фрейминг — способ, которым сообщают о статистических данных. Например, предоставленный контекст, группа сравнения или объединение выборок могут повлиять на то, как человек интерпретирует информацию. Сравнение общего числа авиакатастроф за 2016 год с показателями за 1936-й может быть неверным, потому что по сравнению с 1936-м в 2016-м было намного больше перелетов, — поэтому такие показатели, как количество авиакатастроф на 100 тысяч перелетов или количество авиакатастроф на 100 тысяч преодоленных километров, предоставляют более точную информацию. Нужно всегда найти лучший фрейм для статистического показателя — это значит наиболее подходящий и информативный. В этом смысле показатели в виде относительных частот обычно оказываются лучше, чем в виде общего количества.
Экологическая ошибка — ошибка в рассуждениях, которая случается, когда делают выводы о человеке, основываясь на совокупных данных (например, на среднем внутри класса).
Экстраполяция — процесс угадывания или выведения заключения о том, какие значения могут принимать величины за пределами интервала наблюденных значений.