Центр и разброс
Две статистики
Что вообще такое статистика? Сам термин искусственного происхождения. Введён в оборот Ахенваллем Готфридом, который заменил название курса, который он преподавал в университете с "Государствоведение" на "Статистика". И тут логичен вопрос, а какая связь между вроде бы математической дисциплиной и государственными делами? А ответ очень прост. Письменность, государство и статистика возникают одновеременно. Первые записи человечества по сути храмовые долговые расписки. Процитирую:
В крупных храмовых хозяйствах было много жрецов, которые специально занимались измерением земельных участков, организовывали прокладку каналов, вели счет собственному урожаю. Именно храм управлял жизнью соседних городов и деревень, собирал с населения подати, раздавал еду в голодные годы. Хозяйственная деятельность храмовой общины обусловила необходимость ведения учета. Самые ранние записи принадлежат храмовым чиновникам. Они должны были считать, сколько зерна, масла, мяса произведено в хозяйстве, сколько выдано работникам на пропитание, сколько осталось в распоряжении храма. Кроме того, чиновники вели учет сделок на продажу земли и прав собственности на имущество.
Как там было у В.И. Ленина в работе "Как организовать соревнование":
Учет и контроль за количеством труда и за распределением продуктов — в этом суть социалистического преобразования.
Формирование статистики и есть учет и контроль. Поэтому, статистика есть основа для понимания процессов идущих в государстве, в крупных человеческих коллективах, на производстве, да везде! Ахенвалль, выводя статистику из государствоведения с одной стороны закладывал основы для отстранённого научного анализа численных данных и развития статистического инструментария. А с другой стороны выбивал смысловую часть из статистики, отдаляя от специалистов понимание зачем вообще нужна статистика.
Те кто говорят, что статистика это раздел математики не правы. Государственные чиновники реализуя колоссальную потребность в учете и контроле создают статистику, а уже потом, философы анализируя эту практику создают математику. Так, что правильнее говорить, что математика раздел статистики. ?
Давайте внимательнее посмотрим на приведенную выше Ленинскую философскую формулу. С одной стороны учет и контроль, а с другой стороны преобразование. Отсюда становится понятно почему статистика делится на описательную статистику (учет и контроль) и статистику выводов (преобразование). Начнем с описательной статистики.
В этом месте обычно начинается красочный рассказ о терминах на примере зайчиков, котиков или рыбок для наглядности. Иногда с рисунками. Тут тема не нова и есть много хороших и наглядных книг. Есть даже манга. В общем, человеческий ум в стремлении подать материал о базовых статистиках максимально доходчиво проделал огромную работу. В общем не будем повторяться. Поэтому, основные термины рассмотрим исторически.
Представьте, Вы царь древнего Вавилона. И ваша задача - сформировать бюджет. И с этой целью Вы организуете первую в истории систему налогообложения. И какие вопросы Вам нужно для этого ответить?
Вопросы по налоговой базе:
- сколько человек живет в моем царстве?
- как население распределено по территории?
- какая производительность труда у моих поданных по различным отраслям?
- как производительность труда распределена по регионам?
Вопросы налоговой нагрузки:
- сколько собирать налогов с населения, чтобы оно не умирало с голоду?
- как распределить нагрузку по отраслям и регионам?
- в какой форме взымать налоги?
- как собирать налоги с торговцев, чтобы они не проезжали мимо моего царства?
Вопросы собираемости налогов:
- собираются ли налоги в полном объеме?
- сколько из собранных налогов доезжает до моей казны?
Прониклись масштабом задачи? Именно ввиду масштаба задачи Вы предпринимаете невиданное ранее действо - перепись всего населения царства. На языке статистики все население это генеральная совокупность. Обладая царской властью Вы можете работать с генеральными совокупностями т.е. изучая все население в целом. При этом это чудовищно дорого и очень долго! Но у Вас есть умные подданные. К Вам приходит жрец и предлагает - давайте делать перепись не каждые пять лет, а раз в пятьдесят лет, но ежегодно делать выборочные переписи т.е. оценивать все население (генеральную совокупность) по выборке. При правильной организации выборок мы практически не теряем в точности, но при этом экономим много ресурсов.
Но генеральная совокупность и выборка это не одно число, а набор чисел. В государственном масштабе это очень очень много чисел. Поэтому, много цифр заменяются на интегральные характеристики: центр (среднее, медиана, мода) и разброс (среднеквадратическое отклонение, межквартильный размах). Есть и другие интегральные характеристики, про них детально в инструментальной части. Интегральные характеристики позволяют смотреть на выборку в целом, что открывает широкий простор для анализа. Это в том числе и анализ динамики изменения выборок во времени.
И вот Вам приносят итоги переписи. Вы их просматриваете и видите, что в провинции А живет в два раза больше людей, чем в провинции Б. Но налогов с этих провинций приходит одинаково. Почему так? В провинции А вороватые чиновники? Там был неурожай? Провинция А пограничная и там больше ресурсов тратится на оборону? Или еще что? И в зависимости от того, какой ответ верен, Ваши действия будут разные. А в поиске правильного ответа помогает статистика выводов. Статистика выводов это разнообразные инструменты анализа гипотез, математического моделирования, планирования и анализа экспериментов.
На этой статье заканчиваем вводную философскую часть и переходим к инструментальной части.
Сложная простота
Цифра для человека, а не человек для цифры
Зачем нужна методология и философия?
Отчеты, проекты, продукты... а где результаты?
Существуют три вида лжи: ложь, наглая ложь и статистика
Как специалист по статистике я регулярно слышу фразу из заголовка. Есть две ситуации, когда лично мне адресуют данную фразу. Первая ситуация, так меня приветствуют люди, которых я собираюсь учить статистике. Почему-то это считается остроумным - попробовать на зуб преподавателя именно этой фразой. Вторая ситуация, мне удалось из обработки статистических данных вытащить неочевидные взаимосвязи в производственном процессе и технологический персонал излагает свой скепсис этой фразой.
Регулярно, когда я слышу эту фразу во мне закипает гнев. Так как, произнося эту фразу, люди заранее отсекают от себя очень важный пласт знаний на основании шутки. Но, успокаивает меня то, что статистику часто, даже слишком часто используют не для поиска истины, а для того, чтобы манипулировать другими. Вспоминаются, например, истории про гауссиану или Алена Попова.
Молотком можно построить дом, а можно убивать людей. Статистика инструмент, и врет не она, а человек который держит в руках этот инструмент. Можно выделить несколько видов лжи с помощью статистики. При этом, важно сказать, что такие же приемы использует не только манипулятор, но и нормальный аналитик. Предлагаю рассмотреть этот важный момент на примерах.
Тенденциозный подбор данных. Манипулятор формирует базу данных таким образом, чтобы на выходе анализа получить нужный результат. При этом аналитик так же занимается предобработкой базы данных - удаляет выбросы и аномалии, заполняет пропуски в данных, удаляет часть неважных для анализа данных. Важные различия в этом вопросе между аналитиком и манипулятором - манипулятор не сообщает конечному пользователю, что он сделал с базой данных, а статистик подробно оговаривает, что он сделал с данными, почему он это сделал и как это может повлиять на конечный результат.
Применение редких методов анализа. Инструментарий статистика богат на методы обработки данных. Манипулятор может перебрать несколько методов и одним из редких тестов получить нужный ему результат. При этом аналитик так же перебирает множество статистических тестов и чем больше инструментов использует статистик, тем достовернее результат. Важная разница состоит в том, что манипулятор ищет тот единственный тест который даст нужный ему результат, а аналитик ищет совпадающие результаты - это позволяет посмотреть на одну и ту же задачу с разных сторон и подтвердить правильность решения несколькими способами.
Варьирование шкал на графиках. Манипулятор может подобрать такой масштаб на графике, чтобы подсветить нужный результат. Аналитик сделает то же самое, но приведет два графика - полный и детальный.
Выбор специфической метрики. Один и тот же показатель может быть представлен по разному. Например, задача увеличения объемов производства. Нашей метрикой может быть производительность, скорость, простои плановые и аварийные, межоперационная пауза и т.д. и т.п. Часто бывает, что метрики изменяются разнонаправленно. Поэтому, манипулятор практически всегда может подобрать метрики так, чтобы показать заранее заданный результат. Статистик будет показывать процесс в целом - по заранее оговоренным с клиентом метрикам.
Терминологическая атака. Статистика богата на специфические термины. Манипулятор будет ими сыпать как из рога изобилия. Аналитик сделает все, чтобы их убрать. Если уж придется применить специфический термин, он подробно опишет, что это значит. Вообще, хороший статистик тратит много времени на то, чтобы быть понятым. Специфические термины нужны не для того, чтобы по-умничать, а для того, чтобы кратко выразить мысль. Другой специалист её всегда поймет. Но дело в том, что аналитики "пошли в народ" и одна фраза сказанная на статистическом языке, требует страницы текста для непогруженных в тему специалистов.
Самоманипулирование. Статистик может увлечься анализом (да, после того как человек прошагает первые этапы развития как аналитик, это занятие становится веселым) и ему процесс становится важнее результата. Творить в этом состоянии круто, здорово и весело. Но это опасное для аналитика состояние. Во-первых, статистик подключает эмоции. А во-вторых, где эмоции, там и желание понравиться. И аналитик может начать подгонять результаты под мнения тех, кому он хочет понравиться. Тут специалист превращается в манипулятора и сам этого не замечает. Решается этот вопрос апелляцией к цели - задача аналитика решить проблему, а не нравиться другим.
Ситуация с манипулированием отягощается тем, что для применения статистики нужны специфические компетенции, которых, как правило, у клиентов нет. Поэтому в отношениях аналитик-клиент огромную роль играет доверие и авторитет. Аналитик должен серьезно заботится о своем авторитете - не допускать манипулирования клиентом.
А как же в итоге вскрывается манипуляция? А все просто - "практика критерий истины" (с). Особенность статистики состоит в том, что всегда возникает обратная связь с процессом, который наработал эту самую статистику. Поэтому, все рекомендации могут (и должны!) быть проверены в рамках эксперимента. Да, эксперимент может быть дорогой и долгий. Но именно в рамках эксперимента проявляется качество проведенного анализа и снижается риск неверного решения.
Манипуляция всегда направлена на принятие ангажированного решения. Это не значит, что решение ложное, это значит, что оно получено не на основании изучения процесса, анализа статистики и экспертизы, а на основе чьего-то желания повлиять на конечное решение. Поэтому, в подавляющем большинстве случаев манипуляций эксперимент будет провален. Но это не значит, что каждый проваленный эксперимент результат манипуляции. Недостижение цели в рамках эксперимента конечно плохо, но полномасштабное внедрение могло обернуться вообще катастрофой для клиента. Неудачный эксперимент не бесполезен, он показывает в каком направлении не надо идти. К слову, эксперимент, его планирование, проведение и анализ тоже является частью инструментария статистика, который мы тоже будем рассматривать.
Манипулятор и аналитик это как черное и белое, инь и ян - связанные, но отрицающие друг друга явления. Аналитик формирует авторитет на котором паразитирует манипулятор. При этом манипулятор создает шлейф разочарований и аналитику приходиться начинать работу в новом месте с отрицательных стартовых позиций. Поэтому, в рамках обучения мы будем разбирать не только как делать анализ правильно, но и детально погружаться в способы манипуляции. Врага надо знать в лицо!