Статистика
Парадоксы о сериях, воронах и зелубом цвете
Статистика, занимающаяся сбором, обработкой и анализом численной информации, приобретает все большее значение в сложном современном мире. На нас обрушиваются потоки информации - от сведений о состоянии экономики до оценок эффективности зубной пасты, и для того, чтобы разобраться в ворохе этих данных, необходимы хотя бы элементарные познания из области статистики. Без них современный человек не в состоянии принимать правильные решения. Трудно найти такую область науки, в которой статистика не играла бы жизненно важную роль, не говоря уже о неоценимых услугах, оказываемых статистикой таким областям человеческой деятельности, как страхование, здравоохранение, реклама и т. д.
Эту главу отнюдь не следует рассматривать как популярное введение в статистику. Прочитав се, вы не усвоите даже ее элементарных основ. Перед вами выборка красочных парадоксов. Буду рад, если, ознакомившись с ними, вы захотите узнать побольше об их математической подоплеке.
Открывается глава историей, в которой вводятся три фундаментальных понятия статистики: среднее, медиана и мода. За ней следуют несколько необычных примеров неправильного использования данных - великого искусства "лгать" с помощью статистики. Они должны насторожить вас и тем самым помочь вам избежать некоторых подводных камней, встречающихся на пути всякого, кому приходится пользоваться статистическими данными.
Всякого рода удивительные совпадения утрачивают свою таинственность в свете теории вероятностей и математической статистики. Взять хотя бы знаменитый парадокс с днями рождения. Среди случайно выбранной группы из 23 человек с вероятностью чуть большей, чем 1/2, найдутся по крайней мере двое людей, родившихся в один день и в один месяц! Если выбрать наугад группу из 40 человек, то вероятность совпадения возрастет до 9/10. Первая реакция на подобные столкновения - полное недоверие. Затем заядлые скептики подвергают сообщение эмпирической проверке либо путем опроса 40 знакомых, либо по 40 наугад выбранным фамилиям из биографического справочника. Третья стадия наступает, если вам захочется узнать, какая математика кроется за этим парадоксом, чтобы понять причины совпадений. Именно в этом смысле собранные в этой главе парадоксы можно рассматривать как волшебные ступени, ведущие к серьезной математике.
В этой главе вы найдете описания нескольких карточных фокусов, в которых удивительные на первый взгляд совпадения находят естественное объяснение в рамках простых математических законов. Парадокс с выборами - одна из наиболее известных противоречащих интуиции теорем теории решений - нового раздела математики, занимающегося изучением методов принятия рациональных решений на основе статистической информации. История о Мери Лоунлихартс представляет собой беллетризованный вариант другого, не менее поразительного, но малоизвестного парадокса.
Завершается глава двумя парадоксами, которые обычно наиболее широко обсуждаются: парадоксом о вороне и парадоксом о странном свойстве быть "зелубым". Оба парадокса показывают, сколь важную роль играет статистика при оценке степени правдоподобия научных гипотез.
Обманчивое среднее
Статистические утверждения могут быть весьма парадоксальными, а иногда даже вводить в заблуждение. История о фабрике мистера Гисмо показывает общий источник недоразумений - различие между средним, медианой и модой.
Слово "среднее" мы обычно понимаем как синоним "среднего арифметического". Среднее - ценный статистический показатель. Но если имеются большие выбросы, например суммы, еженедельно получаемые мистером Гисмо и его братом, то "средний" заработок может давать ложное представление об истинном положении дел.
Нетрудно привести и другие примеры того, как утверждения о "средних" способны вводить в заблуждение. Так, в заметке репортера одной из газет сообщалось о человеке, утонувшем в реке, глубина которой "в среднем" едва достигает полуметра. Создается впечатление, будто человек утонул на мелководье. Печальное происшествие утрачивает всю загадочность после того, как вы узнаете, что человек утонул в одном из мест, где глубина превышает
Некая корпорация сообщает, будто ее деятельность демократично контролируется общим собранием держателей акций, так как на 50 держателей приходится 600 голосов, что составляет в среднем по 12 голосов на 1 держателя акций. Но если каждый из 45 держателей акций имеет лишь по 4 голоса, а 5 избранных имеют по 84 голоса, то среднее число голосов на одного держателя акций по-прежнему составляет 12 голосов, хотя пятерка избранных полностью заправляет всей деятельностью корпорации.
Еще один пример. Желая привлечь в город фирмы, занимающиеся розничной продажей товаров, торговая палата выступает в печати с заявлением о необычайно высоком среднем уровне доходов на душу населения, Большинство людей, прочитав в газете это заявление, делают вывод, что жители города извлекают из своего рода деятельности большие доходы. Но если среди жителей города окажется лишь один миллиардер, то даже если все остальное население будет получать малые доходы, средний доход на душу населения по-прежнему останется высоким.
Иногда под "средним" понимают не среднее арифметическое, а медиану или моду, что приводит к еще большим недоразумениям. Если значения расположить в порядке возрастания или убывания, то медиана - это значение, стоящее в середине. Если число значений нечетно, то медиана - это значение, равноудаленное от концов такого упорядоченного списка. Если число значений четно, то за медиану обычно принимают среднее арифметическое двух значений, стоящих в середине.
Для Сэма медиана была бы полезнее, чем среднее арифметическое, но даже медиана дает искаженную картину истинного распределения доходов среди служащих фирмы. В действительности Сэму необходимо знать моду - значение, наиболее часто встречающееся в списке данных. На фабрике мистера Гисмо мода - это зарплата, выплачиваемая большему числу сотрудников, чем любая другая зарплата. Иногда моду называют "типичным случаем", так как она встречается чаще других. В нашем последнем примере "типичная" семья в городе (та, чьи доходы служат модой) может быть очень бедной, хотя средний доход горожан очень велик из-за небольшого числа весьма состоятельных жителей.
"Мать года"
Еще одно широко распространенное заблуждение, связанное со "средним", - убеждение, будто среднее непременно должно существовать. После того как из нашего рассказа в картинках вы узнали о том, что среднее число детей, приходящихся на одну семью, может быть равным 2 1/2, вам не составит труда привести другие примеры, в которых средняя величина не реализуется в действительности. Кто сумеет бросить игральную кость так, чтобы на ней выпало среднее число очков за длинную серию бросаний?
А вот еще несколько вопросов, которые помогут вам глубже понять различие между средним арифметическим, медианой и модой.
1. Предположим, что редактору пришло в голову поместить фотографию семьи, "типичной" в смысле моды. Всегда ли фотограф сумеет найти такую семью? (Да, типичная семья в смысле моды существует.)
2. Могут ли существовать сразу несколько мод? Например, могут ли быть одновременно образчиками моды семьи с двумя и с тремя детьми? (Да, если в городе проживает 1476 семей с двумя детьми, 1476 семей с тремя детьми, а число семей с одним ребенком или с четырьмя и более детьми меньше 1476, то в городе наиболее распространены семьи двух первых типов. Каждая из семей с двумя и с тремя детьми с полным основанием может быть названа модой.)
3. Удастся ли фоторепортеру выполнить задание, если редактору понадобится снимок семьи-медианы? (В большинстве случаев удастся, но не всегда. Как мы уже упоминали, даже если в городе проживает четное число семей, но в двух средних семьях (в списке семей, расположенных в порядке возрастания или убывания числа детей) число детей будет различным; медиана не обязательно должна быть целым числом.)
Поспешные выводы
Три эпизода, рассказанные нами в "картинках", показывают, как важно не делать поспешных выводов о причине и следствии, когда речь идет о статистической закономерности. Вот еще несколько примеров.
1. Нередко приходится слышать, будто большинство дорожно-транспортных происшествий приходится на начальный отрезок пути, едва автомобилист успевает отъехать от дома. Означает ли это, что езда по скоростному шоссе за много километров от дома безопаснее, чем езда по родному городу? Разумеется, не означает. Статистика просто отражает тот факт, что близкие поездки автомобилисту приходится совершать чаще, чем дальние.
2. Как показали исследования, в некоторых штатах наблюдается высокий процент людей, пьющих молоко, и высокий уровень смертности от рака. Означает ли это, что молоко вызывает рак? Нет. В этих штатах высок процент людей пожилого возраста, а поскольку раковые заболевания обычно удел престарелых людей, более высокий уровень смертности от рака связан с тем, что старшая возрастная группа составляет значительную долю населения.
3. Как показали исследования, в некотором городе отмечено резкое увеличение количества смертей от сердечной недостаточности и потребления пива. Может ли потребление пива увеличивать вероятность сердечного приступа? Нет, увеличение обоих показателей вызвано быстрым ростом численности населения этого города. Причиной повышения вероятности можно считать возросшее потребление кофе, жевательной резинки, увеличение доли населения, играющего в бридж, смотрящего многочасовые телепередачи и т.п.
4. Как показали исследования, в одном европейском городе отмечено резкое увеличение численности населения и аистов, гнездящихся в черте города. Можно ли считать это подтверждением распространенного поверья, будто аисты приносят младенцев? Нет, нельзя. Отмеченный параллелизм в росте численности населения и аистов обусловлен тем, что с увеличением числа зданий в городе появляется больше мест, пригодных для гнездовий аиста.
5. Как показало недавно проведенное исследование, большинство математиков были старшими сыновьями. Означает ли это, что существует большая вероятность обнаружить математические способности у старшего сына, чем у кого-нибудь из младших? Нет, статистика просто отражает тот удивительный факт, что большинство сыновей старшие.
В связи с последним примером вы можете провести несколько интересных опытов. Вспомните знакомых мужского пола. Проверьте, будет ли больше половины из них старшими сыновьями. Повторите тот же эксперимент со знакомыми женского пола. Какая доля из них будет старшими дочерьми?
Проведем мысленный эксперимент. Рассмотрим 100 двухдетных семей. Какая доля мальчиков (девочек) будет старшими сыновьями (дочерями)? (Ответ: 3/4.) Вычислите долю старших сыновей (дочерей) в 100 трехдетных семьях. (Ответ: 7/12.) Вряд ли нужно говорить о том, что в однодетных семьях единственный ребенок всегда старший.
Точная доля старших сыновей или дочерей изменяется в зависимости от числа детей в семьях, но всегда больше 1/2 и в большинстве случаев значительно больше 1/2.
Приведенных примеров достаточно, чтобы побудить вас к самостоятельному поиску других примеров статистических утверждений, которым неправильно приписывается несуществующая причинно-следственная связь. Богатым источником такого рода утверждений служит коммерческая реклама, в особенности передаваемая по телевидению.
Мир тесен
Многие очень удивляются, когда при встрече с незнакомым человеком (в особенности вдали от дома) обнаруживают, что у них есть общий знакомый. Группа социологов из Массачусетского технологического института под руководством Итиль де Сола Пул исследовала этот парадокс, который условно можно было бы назвать "Мир тесен". Они обнаружили, что если выбрать наугад двух жителей США, то каждый из них знает в среднем около 1000 людей. Это означает, что они знают друг друга с вероятностью около 1/100000. Вероятность того, что у них есть общий знакомый, значительно больше и составляет примерно 1/100. Вероятность того, что они связаны между собой (как в диалоге, приведенном в подписи к нижнему рисунку) через цепочку из двух посредников, больше, чем 99/100! Иначе говоря, если Браун и Смит - два выбранных наугад жителя США, то с вероятностью, почти равной единице, можно утверждать, что Браун знает кого-то, кто знает Смита.
Психолог Стенли Милгрэм подошел к решению парадокса "Мир тесен" с другой стороны: он отобрал наугад группу "отправителей". Каждому: из отправителей Милгрэм вручил некий документ с просьбой передать его незнакомому "получателю", живущему в отдаленном штате. Получив документ, отправитель пересылал его по почте тому из своих близких знакомых, кто, по его мнению, с наибольщей вероятностью мог знать получателя. Знакомый в свою очередь пересылал документ своему знакомому и т. д., пока наконец документ не доходил до получателя. Милгрэм обнаружил, что число посредников между отправителем и получателем колебалось от 2 до 10 с медианой, равной 5. (На вопрос о том, сколько посредников понадобится для пересылки документа, люди обычно отвечали, что около 100.)
Исследование Милгрэма показало, сколь тесно связаны между собой люди сетью общих знакомых. Поэтому нет ничего удивительного в том, что двое людей, впервые видящих друг друга, встретившись далеко от дома, обнаружили общего знакомого. Сеть общих знакомых позволяет объяснить и другие странные на первый взгляд статистические явления, например необычайную скорость, с которой распространяются слухи, сенсационные новости, конфиденциальная информация и анекдоты.
Под каким знаком зодиака вы родились?
|
Возможно, совпадение покажется вам удивительным, но в действительности оно случается в 4 случаях из 10. Предположим, что каждый из четырех людей мог с равной вероятностью родиться под любым из 12 знаков зодиака. Какова вероятность -того, что по крайней мере двое из четырех родились под одним знаком зодиака?
Рассмотрим задачу на модели - специально подготовленной колоде карт. Извлечем из колоды и отложим в сторону четырех королей. В колоде останется по 12 карт каждой из четырех мастей. Каждая масть соответствует одному из четырех людей, каждое значение карты - одному из знаков зодиака. Извлечем наугад по одной карте каждой масти. Какова вероятность, что значения по крайней мере двух карт будут совпадать? Найти эту вероятность означает найти вероятность того, что по крайней мере два из четырех незнакомых между собой людей родились под одним знаком зодиака.
Эту задачу проще всего решить, вычислив вероятность того, что значения любых двух карт не совпадают. Если вычисленную вероятность вычесть из единицы, то получится вероятность того, что значения по крайней мере двух карт совпадают, которую и требуется найти.
Если мы возьмем карты двух мастей, например червовой и пиковой, то вероятность того, что значения любых двух карт не совпадают, равна 11/12, так как существует лишь 1 шанс против 12, что какая-то карта червовой масти совпадает по значению с картой пиковой масти. Вероятность того, что трефовая карта отличается по значению от червовой и пиковой, равна 10/12, а вероятность того, что бубновая карта отличается по значению от червовой, пиковой и трефовой, равна 9/12. Произведение этих трех дробей дает нам вероятность того, что никакие две из четырех карт не совпадают. Она равна 55/96. Вычитая ее из единицы, получаем 41/96. Следовательно, вероятность того, что по крайней мере двое из четырех незнакомых между собой людей родились под одним знаком зодиака, составляет около 4/10, то есть почти 1/2, поэтому совпадение знаков вряд ли можно считать столь удивительным.
Парадокс со знаками зодиака - вариант хорошо известного парадокса с днями рождения. Выберем наугад 23 человека. С вероятностью чуть больше 1/2 по крайней мере двое из них родились в один и тот же день одного и того же месяца. Вычисления аналогичны проделанным выше, только умножать на этот раз приходится 22 дроби:
364/365 * 363/365 * 362/365 * * 343/365.
Вероятность того, что по крайней мере 2 из 23 людей родились в один и тот же день одного и того же месяца, равна разности 1 минус произведение 22 дробей, или 0,5073 , то есть чуть больше 1/2. В правильности этого утверждения нетрудно убедится с помощью микрокалькулятора. Если число выбранных наугад людей больше 23, то вероятность совпадения дней рождения по крайней мере у двоих из них быстро возрастает. Так, если наугад выбрано 30 человек, то эта вероятность равна 7/10. Если же выбрано 100 человек, то шансы на совпадение повышаются примерно до 3000000 против 1.
Предлагаем вам несколько вопросов для размышления.
1. Выбрано наугад n человек. Начиная с какого n вероятность того, что по крайней мере двое из них родились в одном месяце, больше 1/2? (Ответ: начиная с n = 5, когда вероятность совпадения месяца равна 89/144 ~ 0,62.)
2. Выбрано наугад n человек. Начиная с какого n вероятность того, что по крайней мере двое из них родились в один день недели, больше 1/2? (Ответ: начиная с 4, когда вероятность совпадения дня недели равна 223/343 ~ 0,65.)
3. Выбрано наугад n человек. Начиная с какого n вероятность того, что по крайней мере у одного из них день рождения совпадает с вашим? (Ответ: начиная с n = 253, а не с n = 183, как было бы в том случае, если бы у всех выбранных наугад людей дни рождения не совпадали.)