УПП

Цитата момента



Врачи давно знают, кто по-настоящему заботится о своем здоровье всю жизнь. Это люди, пережившие в молодости серьезную болезнь.
А вам также повезло?

Синтон - тренинг центрАссоциация профессионалов развития личности
Университет практической психологии

Книга момента



В 45 лет я обнаружила, что завораживаю многих мужчин, они после первого же разговора в меня влюбляются. Муж-то давно мне это говорил, но я всё не верила. События заставили поверить…

Светлана Ермакова. Из мини-книги «Записки стареющей женщины»

Читать далее >>


Фото момента



http://old.nkozlov.ru/library/fotogalereya/s374/
Мещера-2010

Статистика

щелкните, и изображение увеличится

Парадоксы о сериях, воронах и зелубом цвете

Статистика, занимающаяся сбором, обработкой и анализом численной информации, приобретает все большее значение в сложном современном мире. На нас обрушиваются потоки информации - от сведений о состоянии экономики до оценок эффективности зубной пасты, и для того, чтобы разобраться в ворохе этих данных, необходимы хотя бы элементарные познания из области статистики. Без них современный человек не в состоянии принимать правильные решения. Трудно найти такую область науки, в которой статистика не играла бы жизненно важную роль, не говоря уже о неоценимых услугах, оказываемых статистикой таким областям человеческой деятельности, как страхование, здравоохранение, реклама и т. д.

Эту главу отнюдь не следует рассматривать как популярное введение в статистику. Прочитав се, вы не усвоите даже ее элементарных основ. Перед вами выборка красочных парадоксов. Буду рад, если, ознакомившись с ними, вы захотите узнать побольше об их математической подоплеке.

Открывается глава историей, в которой вводятся три фундаментальных понятия статистики: среднее, медиана и мода. За ней следуют несколько необычных примеров неправильного использования данных - великого искусства "лгать" с помощью статистики. Они должны насторожить вас и тем самым помочь вам избежать некоторых подводных камней, встречающихся на пути всякого, кому приходится пользоваться статистическими данными.

Всякого рода удивительные совпадения утрачивают свою таинственность в свете теории вероятностей и математической статистики. Взять хотя бы знаменитый парадокс с днями рождения. Среди случайно выбранной группы из 23 человек с вероятностью чуть большей, чем 1/2, найдутся по крайней мере двое людей, родившихся в один день и в один месяц! Если выбрать наугад группу из 40 человек, то вероятность совпадения возрастет до 9/10. Первая реакция на подобные столкновения - полное недоверие. Затем заядлые скептики подвергают сообщение эмпирической проверке либо путем опроса 40 знакомых, либо по 40 наугад выбранным фамилиям из биографического справочника. Третья стадия наступает, если вам захочется узнать, какая математика кроется за этим парадоксом, чтобы понять причины совпадений. Именно в этом смысле собранные в этой главе парадоксы можно рассматривать как волшебные ступени, ведущие к серьезной математике.

В этой главе вы найдете описания нескольких карточных фокусов, в которых удивительные на первый взгляд совпадения находят естественное объяснение в рамках простых математических законов. Парадокс с выборами - одна из наиболее известных противоречащих интуиции теорем теории решений - нового раздела математики, занимающегося изучением методов принятия рациональных решений на основе статистической информации. История о Мери Лоунлихартс представляет собой беллетризованный вариант другого, не менее поразительного, но малоизвестного парадокса.

Завершается глава двумя парадоксами, которые обычно наиболее широко обсуждаются: парадоксом о вороне и парадоксом о странном свойстве быть "зелубым". Оба парадокса показывают, сколь важную роль играет статистика при оценке степени правдоподобия научных гипотез.

Обманчивое среднее

щелкните, и изображение увеличится

Фирма "Гисмо продактс" владеет небольшой фабрикой по производству супергисмо.

щелкните, и изображение увеличится

В правление фирмы входят мистер Гисмо, его брат и 6 родственников. Рабочая сила состоит из 5 бригадиров и 10 рабочих. Дела на фабрике идут хорошо, и правление решило нанять еще одного рабочего.

щелкните, и изображение увеличится
Мистер Гисмо беседует с Сэмом, пришедшим справиться об условиях работы.

М-р Гисмо. Мы платим хорошо. Средний заработок - 600 долларов в неделю. За время обучения вы будете получать сначала по 150 долларов в неделю, но довольно быстро последует надбавка.

щелкните, и изображение увеличится
Проработав несколько дней на фабрике, Сэм пришел на прием к боссу.

Сэм. Вы обманули меня! Я опросил всех рабочих и оказалось, что никто из них не получает больше 200 долларов в неделю. Как может средний заработок достигать 600 долларов в неделю?

щелкните, и изображение увеличится

М-р Гисмо. Успокойтесь, Сэм, никто вас не обманывал. Средний заработок на нашей фабрике действительно составляет 600 долларов в неделю. Сейчас я докажу вам это.

щелкните, и изображение увеличится
М-р Гисмо: Взгляните, вот еженедельная ведомость. Я получаю 4800 долларов, мой брат 2000 долларов, каждый из б родственников по 500 долларов, каждый из 5 бригадиров по 400 долларов и каждый из 10 рабочих по 200 долларов. Всего в неделю мы выплачиваем 23 сотрудникам 13800 долларов. Так?

щелкните, и изображение увеличится

Сэм. Так-то так, средний заработок действительно составляет 600 долларов в неделю, но вы все равно меня обманули.

щелкните, и изображение увеличится
М Гисмо. Друг мой, вы просто неверно меня поняли. Я мог бы перечислить всех сотрудников нашей фирмы, сообщить вам, кто сколько получает и затем сказать, что средний заработок составляет 100 долларов в неделю, но это был иы не средний заработок, а медиана.

Сэм. А что такое 200 долларов в неделю?

щелкните, и изображение увеличится

М-р Гисмо. 200 долларов в неделю - это так называемая мода, то есть заработок большинства сотрудников нашей фирмы.

щелкните, и изображение увеличится
М Гисмо. Ваша беда в том, мой друг, что вы не знаете, чем отличается среднее от медианы и моды.

Сэм. Отчего же? Теперь я отлично знаю это. Ищите себе других простачков!

Статистические утверждения могут быть весьма парадоксальными, а иногда даже вводить в заблуждение. История о фабрике мистера Гисмо показывает общий источник недоразумений - различие между средним, медианой и модой.

Слово "среднее" мы обычно понимаем как синоним "среднего арифметического". Среднее - ценный статистический показатель. Но если имеются большие выбросы, например суммы, еженедельно получаемые мистером Гисмо и его братом, то "средний" заработок может давать ложное представление об истинном положении дел.

Нетрудно привести и другие примеры того, как утверждения о "средних" способны вводить в заблуждение. Так, в заметке репортера одной из газет сообщалось о человеке, утонувшем в реке, глубина которой "в среднем" едва достигает полуметра. Создается впечатление, будто человек утонул на мелководье. Печальное происшествие утрачивает всю загадочность после того, как вы узнаете, что человек утонул в одном из мест, где глубина превышает 3 м.

Некая корпорация сообщает, будто ее деятельность демократично контролируется общим собранием держателей акций, так как на 50 держателей приходится 600 голосов, что составляет в среднем по 12 голосов на 1 держателя акций. Но если каждый из 45 держателей акций имеет лишь по 4 голоса, а 5 избранных имеют по 84 голоса, то среднее число голосов на одного держателя акций по-прежнему составляет 12 голосов, хотя пятерка избранных полностью заправляет всей деятельностью корпорации.

Еще один пример. Желая привлечь в город фирмы, занимающиеся розничной продажей товаров, торговая палата выступает в печати с заявлением о необычайно высоком среднем уровне доходов на душу населения, Большинство людей, прочитав в газете это заявление, делают вывод, что жители города извлекают из своего рода деятельности большие доходы. Но если среди жителей города окажется лишь один миллиардер, то даже если все остальное население будет получать малые доходы, средний доход на душу населения по-прежнему останется высоким.

Иногда под "средним" понимают не среднее арифметическое, а медиану или моду, что приводит к еще большим недоразумениям. Если значения расположить в порядке возрастания или убывания, то медиана - это значение, стоящее в середине. Если число значений нечетно, то медиана - это значение, равноудаленное от концов такого упорядоченного списка. Если число значений четно, то за медиану обычно принимают среднее арифметическое двух значений, стоящих в середине.

Для Сэма медиана была бы полезнее, чем среднее арифметическое, но даже медиана дает искаженную картину истинного распределения доходов среди служащих фирмы. В действительности Сэму необходимо знать моду - значение, наиболее часто встречающееся в списке данных. На фабрике мистера Гисмо мода - это зарплата, выплачиваемая большему числу сотрудников, чем любая другая зарплата. Иногда моду называют "типичным случаем", так как она встречается чаще других. В нашем последнем примере "типичная" семья в городе (та, чьи доходы служат модой) может быть очень бедной, хотя средний доход горожан очень велик из-за небольшого числа весьма состоятельных жителей.

"Мать года"

щелкните, и изображение увеличится

В конце года жена Сэма получила особый приз от мэра города и почетный титул "матери года".

щелкните, и изображение увеличится

Местная газета поместила фотографию Сэма, его жены и 13 их детей.

щелкните, и изображение увеличится
Редактору очень понравился снимок. Он вызвал к себе фотографа.

Редактор. Отличная работа, Баском! Мне пришла в голову новая идея. Снимите-ка мне теперь семью, где бы число детей было средним по нашему городу.

щелкните, и изображение увеличится

Новое задание редактора оказалось невыполнимым. Почему? Да потому, что ни в одной семье число детей не совпадало со средним! Среднее число детей было равно 2 1/2.

Еще одно широко распространенное заблуждение, связанное со "средним", - убеждение, будто среднее непременно должно существовать. После того как из нашего рассказа в картинках вы узнали о том, что среднее число детей, приходящихся на одну семью, может быть равным 2 1/2, вам не составит труда привести другие примеры, в которых средняя величина не реализуется в действительности. Кто сумеет бросить игральную кость так, чтобы на ней выпало среднее число очков за длинную серию бросаний?

А вот еще несколько вопросов, которые помогут вам глубже понять различие между средним арифметическим, медианой и модой.

1. Предположим, что редактору пришло в голову поместить фотографию семьи, "типичной" в смысле моды. Всегда ли фотограф сумеет найти такую семью? (Да, типичная семья в смысле моды существует.)

2. Могут ли существовать сразу несколько мод? Например, могут ли быть одновременно образчиками моды семьи с двумя и с тремя детьми? (Да, если в городе проживает 1476 семей с двумя детьми, 1476 семей с тремя детьми, а число семей с одним ребенком или с четырьмя и более детьми меньше 1476, то в городе наиболее распространены семьи двух первых типов. Каждая из семей с двумя и с тремя детьми с полным основанием может быть названа модой.)

3. Удастся ли фоторепортеру выполнить задание, если редактору понадобится снимок семьи-медианы? (В большинстве случаев удастся, но не всегда. Как мы уже упоминали, даже если в городе проживает четное число семей, но в двух средних семьях (в списке семей, расположенных в порядке возрастания или убывания числа детей) число детей будет различным; медиана не обязательно должна быть целым числом.)

Поспешные выводы

щелкните, и изображение увеличится
Как показывает статистика, преобладающее большинство дорожно-транспортных происшествий приходится на долю машин, едущих с умеренной скоростью, и лишь незначительное число - на долю машин, мчащихся со скоростью свыше 150 км/ч. Означает ли это, что водить машину на больших скоростях безопаснее?

щелкните, и изображение увеличится
Нет, не означает. Статистические соотношения часто не имеют ничего общего с причинно-следственными связями. Большинство людей водят машины с умеренной скоростью, поэтому и большинство происшествий приходится на их долю.

щелкните, и изображение увеличится

Как показывает статистика, смертность от туберкулеза в штате Аризона выше, чем в других штатах. Означает ли это, что климат Аризоны благоприятствует развитию туберкулезной палочки?

щелкните, и изображение увеличится

Наоборот, климат Аризоны необычайно полезен для больных туберкулезом, и они тысячами стекаются в Аризону. Это, естественно, приводит к повышению здесь смертности от туберкулеза.

щелкните, и изображение увеличится
Как показало статистическое исследование, дети, носящие обувь больших размеров, более сильны в правописании, чем дети, носящие обувь малых размеров. Означает ли это, что размер обуви может служить показателем грамотности?

щелкните, и изображение увеличится

Нет, не означает. Исследование проводилось на группе детей, которые продолжают расти. Чем старше ребенок, тем больше у него размер обуви и тем грамотнее он пишет.

Три эпизода, рассказанные нами в "картинках", показывают, как важно не делать поспешных выводов о причине и следствии, когда речь идет о статистической закономерности. Вот еще несколько примеров.

1. Нередко приходится слышать, будто большинство дорожно-транспортных происшествий приходится на начальный отрезок пути, едва автомобилист успевает отъехать от дома. Означает ли это, что езда по скоростному шоссе за много километров от дома безопаснее, чем езда по родному городу? Разумеется, не означает. Статистика просто отражает тот факт, что близкие поездки автомобилисту приходится совершать чаще, чем дальние.

2. Как показали исследования, в некоторых штатах наблюдается высокий процент людей, пьющих молоко, и высокий уровень смертности от рака. Означает ли это, что молоко вызывает рак? Нет. В этих штатах высок процент людей пожилого возраста, а поскольку раковые заболевания обычно удел престарелых людей, более высокий уровень смертности от рака связан с тем, что старшая возрастная группа составляет значительную долю населения.

3. Как показали исследования, в некотором городе отмечено резкое увеличение количества смертей от сердечной недостаточности и потребления пива. Может ли потребление пива увеличивать вероятность сердечного приступа? Нет, увеличение обоих показателей вызвано быстрым ростом численности населения этого города. Причиной повышения вероятности можно считать возросшее потребление кофе, жевательной резинки, увеличение доли населения, играющего в бридж, смотрящего многочасовые телепередачи и т.п.

4. Как показали исследования, в одном европейском городе отмечено резкое увеличение численности населения и аистов, гнездящихся в черте города. Можно ли считать это подтверждением распространенного поверья, будто аисты приносят младенцев? Нет, нельзя. Отмеченный параллелизм в росте численности населения и аистов обусловлен тем, что с увеличением числа зданий в городе появляется больше мест, пригодных для гнездовий аиста.

5. Как показало недавно проведенное исследование, большинство математиков были старшими сыновьями. Означает ли это, что существует большая вероятность обнаружить математические способности у старшего сына, чем у кого-нибудь из младших? Нет, статистика просто отражает тот удивительный факт, что большинство сыновей старшие.

В связи с последним примером вы можете провести несколько интересных опытов. Вспомните знакомых мужского пола. Проверьте, будет ли больше половины из них старшими сыновьями. Повторите тот же эксперимент со знакомыми женского пола. Какая доля из них будет старшими дочерьми?

Проведем мысленный эксперимент. Рассмотрим 100 двухдетных семей. Какая доля мальчиков (девочек) будет старшими сыновьями (дочерями)? (Ответ: 3/4.) Вычислите долю старших сыновей (дочерей) в 100 трехдетных семьях. (Ответ: 7/12.) Вряд ли нужно говорить о том, что в однодетных семьях единственный ребенок всегда старший.

Точная доля старших сыновей или дочерей изменяется в зависимости от числа детей в семьях, но всегда больше 1/2 и в большинстве случаев значительно больше 1/2.

Приведенных примеров достаточно, чтобы побудить вас к самостоятельному поиску других примеров статистических утверждений, которым неправильно приписывается несуществующая причинно-следственная связь. Богатым источником такого рода утверждений служит коммерческая реклама, в особенности передаваемая по телевидению.

Мир тесен

щелкните, и изображение увеличится

Многие склонны думать, что всякого рода совпадения вызваны действием звезд и другими таинственными силами.

щелкните, и изображение увеличится
Предположим, например, что в салоне самолета разговорились два незнакомых прежде пассажира.

Джим. Так вы из Бостона! Моя добрая знакомая Люси Джонс работает в Бостоне адвокатом.

Том. Подумать только, как тесен мир! Люси лучшая подруга моей жены!

Есть ли основания считать подобные совпадения маловероятными? Статистики доказали, что таких оснований нет.

Многие очень удивляются, когда при встрече с незнакомым человеком (в особенности вдали от дома) обнаруживают, что у них есть общий знакомый. Группа социологов из Массачусетского технологического института под руководством Итиль де Сола Пул исследовала этот парадокс, который условно можно было бы назвать "Мир тесен". Они обнаружили, что если выбрать наугад двух жителей США, то каждый из них знает в среднем около 1000 людей. Это означает, что они знают друг друга с вероятностью около 1/100000. Вероятность того, что у них есть общий знакомый, значительно больше и составляет примерно 1/100. Вероятность того, что они связаны между собой (как в диалоге, приведенном в подписи к нижнему рисунку) через цепочку из двух посредников, больше, чем 99/100! Иначе говоря, если Браун и Смит - два выбранных наугад жителя США, то с вероятностью, почти равной единице, можно утверждать, что Браун знает кого-то, кто знает Смита.

Психолог Стенли Милгрэм подошел к решению парадокса "Мир тесен" с другой стороны: он отобрал наугад группу "отправителей". Каждому: из отправителей Милгрэм вручил некий документ с просьбой передать его незнакомому "получателю", живущему в отдаленном штате. Получив документ, отправитель пересылал его по почте тому из своих близких знакомых, кто, по его мнению, с наибольщей вероятностью мог знать получателя. Знакомый в свою очередь пересылал документ своему знакомому и т. д., пока наконец документ не доходил до получателя. Милгрэм обнаружил, что число посредников между отправителем и получателем колебалось от 2 до 10 с медианой, равной 5. (На вопрос о том, сколько посредников понадобится для пересылки документа, люди обычно отвечали, что около 100.)

Исследование Милгрэма показало, сколь тесно связаны между собой люди сетью общих знакомых. Поэтому нет ничего удивительного в том, что двое людей, впервые видящих друг друга, встретившись далеко от дома, обнаружили общего знакомого. Сеть общих знакомых позволяет объяснить и другие странные на первый взгляд статистические явления, например необычайную скорость, с которой распространяются слухи, сенсационные новости, конфиденциальная информация и анекдоты.

Под каким знаком зодиака вы родились?

щелкните, и изображение увеличится

Эти четверо людей встретились впервые. Разве не удивительно, что по крайней мере двое из них родились под одним знаком зодиака?

Возможно, совпадение покажется вам удивительным, но в действительности оно случается в 4 случаях из 10. Предположим, что каждый из четырех людей мог с равной вероятностью родиться под любым из 12 знаков зодиака. Какова вероятность -того, что по крайней мере двое из четырех родились под одним знаком зодиака?

Рассмотрим задачу на модели - специально подготовленной колоде карт. Извлечем из колоды и отложим в сторону четырех королей. В колоде останется по 12 карт каждой из четырех мастей. Каждая масть соответствует одному из четырех людей, каждое значение карты - одному из знаков зодиака. Извлечем наугад по одной карте каждой масти. Какова вероятность, что значения по крайней мере двух карт будут совпадать? Найти эту вероятность означает найти вероятность того, что по крайней мере два из четырех незнакомых между собой людей родились под одним знаком зодиака.

Эту задачу проще всего решить, вычислив вероятность того, что значения любых двух карт не совпадают. Если вычисленную вероятность вычесть из единицы, то получится вероятность того, что значения по крайней мере двух карт совпадают, которую и требуется найти.

Если мы возьмем карты двух мастей, например червовой и пиковой, то вероятность того, что значения любых двух карт не совпадают, равна 11/12, так как существует лишь 1 шанс против 12, что какая-то карта червовой масти совпадает по значению с картой пиковой масти. Вероятность того, что трефовая карта отличается по значению от червовой и пиковой, равна 10/12, а вероятность того, что бубновая карта отличается по значению от червовой, пиковой и трефовой, равна 9/12. Произведение этих трех дробей дает нам вероятность того, что никакие две из четырех карт не совпадают. Она равна 55/96. Вычитая ее из единицы, получаем 41/96. Следовательно, вероятность того, что по крайней мере двое из четырех незнакомых между собой людей родились под одним знаком зодиака, составляет около 4/10, то есть почти 1/2, поэтому совпадение знаков вряд ли можно считать столь удивительным.

Парадокс со знаками зодиака - вариант хорошо известного парадокса с днями рождения. Выберем наугад 23 человека. С вероятностью чуть больше 1/2 по крайней мере двое из них родились в один и тот же день одного и того же месяца. Вычисления аналогичны проделанным выше, только умножать на этот раз приходится 22 дроби:

364/365 * 363/365 * 362/365 * … * 343/365.

Вероятность того, что по крайней мере 2 из 23 людей родились в один и тот же день одного и того же месяца, равна разности 1 минус произведение 22 дробей, или 0,5073…, то есть чуть больше 1/2. В правильности этого утверждения нетрудно убедится с помощью микрокалькулятора. Если число выбранных наугад людей больше 23, то вероятность совпадения дней рождения по крайней мере у двоих из них быстро возрастает. Так, если наугад выбрано 30 человек, то эта вероятность равна 7/10. Если же выбрано 100 человек, то шансы на совпадение повышаются примерно до 3000000 против 1.

Предлагаем вам несколько вопросов для размышления.

1. Выбрано наугад n человек. Начиная с какого n вероятность того, что по крайней мере двое из них родились в одном месяце, больше 1/2? (Ответ: начиная с n = 5, когда вероятность совпадения месяца равна 89/144 ~ 0,62.)

2. Выбрано наугад n человек. Начиная с какого n вероятность того, что по крайней мере двое из них родились в один день недели, больше 1/2? (Ответ: начиная с 4, когда вероятность совпадения дня недели равна 223/343 ~ 0,65.)

3. Выбрано наугад n человек. Начиная с какого n вероятность того, что по крайней мере у одного из них день рождения совпадает с вашим? (Ответ: начиная с n = 253, а не с n = 183, как было бы в том случае, если бы у всех выбранных наугад людей дни рождения не совпадали.)



Страница сформирована за 0.85 сек
SQL запросов: 195