logo Статистика ложь, да в ней намек

Существуют три вида лжи: ложь, наглая ложь и статистика

Как ‎специалист‏ ‎по ‎статистике ‎я ‎регулярно ‎слышу‏ ‎фразу ‎из‏ ‎заголовка.‏ ‎Есть ‎две ‎ситуации,‏ ‎когда ‎лично‏ ‎мне ‎адресуют ‎данную ‎фразу.‏ ‎Первая‏ ‎ситуация, ‎так‏ ‎меня ‎приветствуют‏ ‎люди, ‎которых ‎я ‎собираюсь ‎учить‏ ‎статистике.‏ ‎Почему-то ‎это‏ ‎считается ‎остроумным‏ ‎- ‎попробовать ‎на ‎зуб ‎преподавателя‏ ‎именно‏ ‎этой‏ ‎фразой. ‎Вторая‏ ‎ситуация, ‎мне‏ ‎удалось ‎из‏ ‎обработки‏ ‎статистических ‎данных‏ ‎вытащить ‎неочевидные ‎взаимосвязи ‎в ‎производственном‏ ‎процессе ‎и‏ ‎технологический‏ ‎персонал ‎излагает ‎свой‏ ‎скепсис ‎этой‏ ‎фразой. ‎


Регулярно, ‎когда ‎я‏ ‎слышу‏ ‎эту ‎фразу‏ ‎во ‎мне‏ ‎закипает ‎гнев. ‎Так ‎как, ‎произнося‏ ‎эту‏ ‎фразу, ‎люди‏ ‎заранее ‎отсекают‏ ‎от ‎себя ‎очень ‎важный ‎пласт‏ ‎знаний‏ ‎на‏ ‎основании ‎шутки.‏ ‎Но, ‎успокаивает‏ ‎меня ‎то,‏ ‎что‏ ‎статистику ‎часто,‏ ‎даже ‎слишком ‎часто ‎используют ‎не‏ ‎для ‎поиска‏ ‎истины,‏ ‎а ‎для ‎того,‏ ‎чтобы ‎манипулировать‏ ‎другими. ‎Вспоминаются, ‎например, ‎истории‏ ‎про‏ ‎гауссиану или ‎Алена‏ ‎Попова.


Молотком ‎можно‏ ‎построить ‎дом, ‎а ‎можно ‎убивать‏ ‎людей.‏ ‎Статистика ‎инструмент,‏ ‎и ‎врет‏ ‎не ‎она, ‎а ‎человек ‎который‏ ‎держит‏ ‎в‏ ‎руках ‎этот‏ ‎инструмент. ‎Можно‏ ‎выделить ‎несколько‏ ‎видов‏ ‎лжи ‎с‏ ‎помощью ‎статистики. ‎При ‎этом, ‎важно‏ ‎сказать, ‎что‏ ‎такие‏ ‎же ‎приемы ‎использует‏ ‎не ‎только‏ ‎манипулятор, ‎но ‎и ‎нормальный‏ ‎аналитик.‏ ‎Предлагаю ‎рассмотреть‏ ‎этот ‎важный‏ ‎момент ‎на ‎примерах. ‎


Тенденциозный ‎подбор‏ ‎данных.‏ ‎Манипулятор ‎формирует‏ ‎базу ‎данных‏ ‎таким ‎образом, ‎чтобы ‎на ‎выходе‏ ‎анализа‏ ‎получить‏ ‎нужный ‎результат.‏ ‎При ‎этом‏ ‎аналитик ‎так‏ ‎же‏ ‎занимается ‎предобработкой‏ ‎базы ‎данных ‎- ‎удаляет ‎выбросы‏ ‎и ‎аномалии,‏ ‎заполняет‏ ‎пропуски ‎в ‎данных,‏ ‎удаляет ‎часть‏ ‎неважных ‎для ‎анализа ‎данных.‏ ‎Важные‏ ‎различия ‎в‏ ‎этом ‎вопросе‏ ‎между ‎аналитиком ‎и ‎манипулятором ‎-‏ ‎манипулятор‏ ‎не ‎сообщает‏ ‎конечному ‎пользователю,‏ ‎что ‎он ‎сделал ‎с ‎базой‏ ‎данных,‏ ‎а‏ ‎статистик ‎подробно‏ ‎оговаривает, ‎что‏ ‎он ‎сделал‏ ‎с‏ ‎данными, ‎почему‏ ‎он ‎это ‎сделал ‎и ‎как‏ ‎это ‎может‏ ‎повлиять‏ ‎на ‎конечный ‎результат.‏ ‎


Применение ‎редких‏ ‎методов ‎анализа. ‎Инструментарий ‎статистика‏ ‎богат‏ ‎на ‎методы‏ ‎обработки ‎данных.‏ ‎Манипулятор ‎может ‎перебрать ‎несколько ‎методов‏ ‎и‏ ‎одним ‎из‏ ‎редких ‎тестов‏ ‎получить ‎нужный ‎ему ‎результат. ‎При‏ ‎этом‏ ‎аналитик‏ ‎так ‎же‏ ‎перебирает ‎множество‏ ‎статистических ‎тестов‏ ‎и‏ ‎чем ‎больше‏ ‎инструментов ‎использует ‎статистик, ‎тем ‎достовернее‏ ‎результат. ‎Важная‏ ‎разница‏ ‎состоит ‎в ‎том,‏ ‎что ‎манипулятор‏ ‎ищет ‎тот ‎единственный ‎тест‏ ‎который‏ ‎даст ‎нужный‏ ‎ему ‎результат,‏ ‎а ‎аналитик ‎ищет ‎совпадающие ‎результаты‏ ‎-‏ ‎это ‎позволяет‏ ‎посмотреть ‎на‏ ‎одну ‎и ‎ту ‎же ‎задачу‏ ‎с‏ ‎разных‏ ‎сторон ‎и‏ ‎подтвердить ‎правильность‏ ‎решения ‎несколькими‏ ‎способами.‏ ‎


Варьирование ‎шкал‏ ‎на ‎графиках. Манипулятор ‎может ‎подобрать ‎такой‏ ‎масштаб ‎на‏ ‎графике,‏ ‎чтобы ‎подсветить ‎нужный‏ ‎результат. ‎Аналитик‏ ‎сделает ‎то ‎же ‎самое,‏ ‎но‏ ‎приведет ‎два‏ ‎графика ‎-‏ ‎полный ‎и ‎детальный. ‎


Выбор ‎специфической‏ ‎метрики. Один‏ ‎и ‎тот‏ ‎же ‎показатель‏ ‎может ‎быть ‎представлен ‎по ‎разному.‏ ‎Например,‏ ‎задача‏ ‎увеличения ‎объемов‏ ‎производства. ‎Нашей‏ ‎метрикой ‎может‏ ‎быть‏ ‎производительность, ‎скорость,‏ ‎простои ‎плановые ‎и ‎аварийные, ‎межоперационная‏ ‎пауза ‎и‏ ‎т.д.‏ ‎и ‎т.п. ‎Часто‏ ‎бывает, ‎что‏ ‎метрики ‎изменяются ‎разнонаправленно. ‎Поэтому,‏ ‎манипулятор‏ ‎практически ‎всегда‏ ‎может ‎подобрать‏ ‎метрики ‎так, ‎чтобы ‎показать ‎заранее‏ ‎заданный‏ ‎результат. ‎Статистик‏ ‎будет ‎показывать‏ ‎процесс ‎в ‎целом ‎- ‎по‏ ‎заранее‏ ‎оговоренным‏ ‎с ‎клиентом‏ ‎метрикам. ‎


Терминологическая‏ ‎атака. Статистика ‎богата‏ ‎на‏ ‎специфические ‎термины.‏ ‎Манипулятор ‎будет ‎ими ‎сыпать ‎как‏ ‎из ‎рога‏ ‎изобилия.‏ ‎Аналитик ‎сделает ‎все,‏ ‎чтобы ‎их‏ ‎убрать. ‎Если ‎уж ‎придется‏ ‎применить‏ ‎специфический ‎термин,‏ ‎он ‎подробно‏ ‎опишет, ‎что ‎это ‎значит. ‎Вообще,‏ ‎хороший‏ ‎статистик ‎тратит‏ ‎много ‎времени‏ ‎на ‎то, ‎чтобы ‎быть ‎понятым.‏ ‎Специфические‏ ‎термины‏ ‎нужны ‎не‏ ‎для ‎того,‏ ‎чтобы ‎по-умничать,‏ ‎а‏ ‎для ‎того,‏ ‎чтобы ‎кратко ‎выразить ‎мысль. ‎Другой‏ ‎специалист ‎её‏ ‎всегда‏ ‎поймет. ‎Но ‎дело‏ ‎в ‎том,‏ ‎что ‎аналитики ‎"пошли ‎в‏ ‎народ"‏ ‎и ‎одна‏ ‎фраза ‎сказанная‏ ‎на ‎статистическом ‎языке, ‎требует ‎страницы‏ ‎текста‏ ‎для ‎непогруженных‏ ‎в ‎тему‏ ‎специалистов.


Самоманипулирование. Статистик ‎может ‎увлечься ‎анализом ‎(да,‏ ‎после‏ ‎того‏ ‎как ‎человек‏ ‎прошагает ‎первые‏ ‎этапы ‎развития‏ ‎как‏ ‎аналитик, ‎это‏ ‎занятие ‎становится ‎веселым) ‎и ‎ему‏ ‎процесс ‎становится‏ ‎важнее‏ ‎результата. ‎Творить ‎в‏ ‎этом ‎состоянии‏ ‎круто, ‎здорово ‎и ‎весело.‏ ‎Но‏ ‎это ‎опасное‏ ‎для ‎аналитика‏ ‎состояние. ‎Во-первых, ‎статистик ‎подключает ‎эмоции.‏ ‎А‏ ‎во-вторых, ‎где‏ ‎эмоции, ‎там‏ ‎и ‎желание ‎понравиться. ‎И ‎аналитик‏ ‎может‏ ‎начать‏ ‎подгонять ‎результаты‏ ‎под ‎мнения‏ ‎тех, ‎кому‏ ‎он‏ ‎хочет ‎понравиться.‏ ‎Тут ‎специалист ‎превращается ‎в ‎манипулятора‏ ‎и ‎сам‏ ‎этого‏ ‎не ‎замечает. ‎Решается‏ ‎этот ‎вопрос‏ ‎апелляцией ‎к ‎цели ‎-‏ ‎задача‏ ‎аналитика ‎решить‏ ‎проблему, ‎а‏ ‎не ‎нравиться ‎другим.


Ситуация ‎с ‎манипулированием‏ ‎отягощается‏ ‎тем, ‎что‏ ‎для ‎применения‏ ‎статистики ‎нужны ‎специфические ‎компетенции, ‎которых,‏ ‎как‏ ‎правило,‏ ‎у ‎клиентов‏ ‎нет. ‎Поэтому‏ ‎в ‎отношениях‏ ‎аналитик-клиент‏ ‎огромную ‎роль‏ ‎играет ‎доверие ‎и ‎авторитет. ‎Аналитик‏ ‎должен ‎серьезно‏ ‎заботится‏ ‎о ‎своем ‎авторитете‏ ‎- ‎не‏ ‎допускать ‎манипулирования ‎клиентом. ‎


А‏ ‎как‏ ‎же ‎в‏ ‎итоге ‎вскрывается‏ ‎манипуляция? ‎А ‎все ‎просто ‎-‏ ‎"практика‏ ‎критерий ‎истины"‏ ‎(с). ‎Особенность‏ ‎статистики ‎состоит ‎в ‎том, ‎что‏ ‎всегда‏ ‎возникает‏ ‎обратная ‎связь‏ ‎с ‎процессом,‏ ‎который ‎наработал‏ ‎эту‏ ‎самую ‎статистику.‏ ‎Поэтому, ‎все ‎рекомендации ‎могут ‎(и‏ ‎должны!) ‎быть‏ ‎проверены‏ ‎в ‎рамках ‎эксперимента.‏ ‎Да, ‎эксперимент‏ ‎может ‎быть ‎дорогой ‎и‏ ‎долгий.‏ ‎Но ‎именно‏ ‎в ‎рамках‏ ‎эксперимента ‎проявляется ‎качество ‎проведенного ‎анализа‏ ‎и‏ ‎снижается ‎риск‏ ‎неверного ‎решения.


Манипуляция‏ ‎всегда ‎направлена ‎на ‎принятие ‎ангажированного‏ ‎решения.‏ ‎Это‏ ‎не ‎значит,‏ ‎что ‎решение‏ ‎ложное, ‎это‏ ‎значит,‏ ‎что ‎оно‏ ‎получено ‎не ‎на ‎основании ‎изучения‏ ‎процесса, ‎анализа‏ ‎статистики‏ ‎и ‎экспертизы, ‎а‏ ‎на ‎основе‏ ‎чьего-то ‎желания ‎повлиять ‎на‏ ‎конечное‏ ‎решение. ‎Поэтому,‏ ‎в ‎подавляющем‏ ‎большинстве ‎случаев ‎манипуляций ‎эксперимент ‎будет‏ ‎провален.‏ ‎Но ‎это‏ ‎не ‎значит,‏ ‎что ‎каждый ‎проваленный ‎эксперимент ‎результат‏ ‎манипуляции.‏ ‎Недостижение‏ ‎цели ‎в‏ ‎рамках ‎эксперимента‏ ‎конечно ‎плохо,‏ ‎но‏ ‎полномасштабное ‎внедрение‏ ‎могло ‎обернуться ‎вообще ‎катастрофой ‎для‏ ‎клиента. ‎Неудачный‏ ‎эксперимент‏ ‎не ‎бесполезен, ‎он‏ ‎показывает ‎в‏ ‎каком ‎направлении ‎не ‎надо‏ ‎идти.‏ ‎К ‎слову,‏ ‎эксперимент, ‎его‏ ‎планирование, ‎проведение ‎и ‎анализ ‎тоже‏ ‎является‏ ‎частью ‎инструментария‏ ‎статистика, ‎который‏ ‎мы ‎тоже ‎будем ‎рассматривать.


Манипулятор ‎и‏ ‎аналитик‏ ‎это‏ ‎как ‎черное‏ ‎и ‎белое,‏ ‎инь ‎и‏ ‎ян‏ ‎- ‎связанные,‏ ‎но ‎отрицающие ‎друг ‎друга ‎явления.‏ ‎Аналитик ‎формирует‏ ‎авторитет‏ ‎на ‎котором ‎паразитирует‏ ‎манипулятор. ‎При‏ ‎этом ‎манипулятор ‎создает ‎шлейф‏ ‎разочарований‏ ‎и ‎аналитику‏ ‎приходиться ‎начинать‏ ‎работу ‎в ‎новом ‎месте ‎с‏ ‎отрицательных‏ ‎стартовых ‎позиций.‏ ‎Поэтому, ‎в‏ ‎рамках ‎обучения ‎мы ‎будем ‎разбирать‏ ‎не‏ ‎только‏ ‎как ‎делать‏ ‎анализ ‎правильно,‏ ‎но ‎и‏ ‎детально‏ ‎погружаться ‎в‏ ‎способы ‎манипуляции. ‎Врага ‎надо ‎знать‏ ‎в ‎лицо!‏ ‎

Предыдущий Следующий
Все посты проекта
3 комментария

Комментарий удален. Восстановить?
10
avatar
Уровень внутри проекта
10
Уровень на sponsr.ru
31
Роман Рознатовский 3 года назад
Очень интересно. И весьма полезная информация.
Комментарий удален. Восстановить?
0
avatar
Уровень внутри проекта
0
Уровень на sponsr.ru
0
Дмитрий Февралев 3 года назад
Описанные приемы манипулирования также широко применяются и в науке. Широко известный мем "британские ученые" пошел именно из-за их очень вольной трактовки своих полученных результатов, приводящих, порой, к абсурдным выводам. Например самая широко используемая манипуляция, это когда пытаются установить причинно-следственную связь не между, собственно, причиной и следствием, а между двумя следствиями, получая порой совершенно бредовые результаты. В качестве шутливой иллюстрации этого приема можно привести такой пример: по статистике замечено что чем больше пожарных расчетов участвовало в тушении пожара, тем больше материальный урон от него. Таким образом делается вывод о необходимости уменьшения пожарных расчетов на пожаре для уменьшения ущерба от него. Кто не понял: количество пожарных расчетов и ущерб от пожара - это следствия категории пожара, а не друг друга.
Комментарий удален. Восстановить?
A
avatar
Уровень внутри проекта
A
Уровень на sponsr.ru
36
Иван 3 года назад
Да, есть такое. Причем можно сказать, что есть два варианта перепутать причину и следствие. Осознанный и не осознанный.

Подарить подписку

Будет создан код, который позволит адресату получить бесплатный для него доступ на определённый уровень подписки.

Оплата за этого пользователя будет списываться с вашей карты вплоть до отмены подписки. Код может быть показан на экране или отправлен по почте вместе с инструкцией.

Будет создан код, который позволит адресату получить сумму на баланс.

Разово будет списана указанная сумма и зачислена на баланс пользователя, воспользовавшегося данным промокодом.

Добавить карту
0/2048