You are viewing [info]dmitrykogan's journal

Дмитрий Коган
Волшебная сила науки 
7th-Dec-2011 02:51 pm
Олимп, вершина
Выполнил статистическую коррекцию результатов выборов, отчасти устраняющую фальсификации жуликов и воров в пользу своей партии. Таблица в целом по стране:



Как видно из таблицы, едросы приписали себе около 16 процентных пунктов. Скромно так.

Основы методики хорошо изложены в http://esquire.ru/elections, более основательно у уважаемого [info]podmoskovnik. Разместил также в профильном сообществе: http://ru-politics.livejournal.com/41224698.html


Для лучшего понимания - это график числа проголосовавших избирателей в зависимости от явки:



Синяя линия показывает число избирателей, проголосовавших за любую другую партию, кроме ЕР. Это колоколообразное распределение, типичное для статистического процесса, зависящего от большого числа факторов. Красная линия показывает избирателей ЕР, не подчиняющихся законам статистики (только вождям). Она имеет длинный и толстый хвост в области больших явок. Именно там и находится основное количество приписок. Чтобы отсечь их, нужно привести форму распределения ЕР к согласию с математической логикой и здравым смыслом. Результат виден на графике.



Совсем другое дело. Огромные явки пропали, вернее, превратились в маленькие. Зеленая линия показывает избирателей, тупо приписанных себе ПЖиВ. Любопытно, что наибольшее число приписок наблюдается в области небольших явок - привет сторонникам бойкота выборов.

Теперь результаты по регионам, упорядоченные по убыванию доли фальсификаций в общем числе избирателей. Комментарии, по-моему, излишни.



Конечно, эта очистка носит приблизительный характер и выявляет не все виды фальсификаций - в основном вбросы и приписки. Статистическая погрешность оценки небольшая, порядка 2-3%, но правильнее рассматривать ее как верхнюю оценку результатов ЕР. Поскольку учет других видов фальсификации - например, кражи голосов - сделает результат ЕР еще меньше. Кроме того, есть регионы, в которых избирательные участки без подтасовок практически отсутствуют, и в них оценка ЕР также сильно завышена.

В заключение любопытная таблица значимых корреляций между фальсификациями и другими факторами:



Факторы с положительными коэффициентами корреляции способствуют фальсификациям, и здесь лидируют переносные ящики и открепительные удостоверения. Но все же эти корреляции относительно небольшие, что означает, что большая часть фальсификаций происходит с помощью вбросов и прямых приписок, возможно, на вышестоящих уровнях.

Интересно, что недействительные бллетени также способствуют фальсификациям - привет сторонникам порчи бюллетеней.

P.S. Техническое замечание - коррекция выполнена отдельно для каждого региона, чтобы учесть естественные электоральные предпочтения.

P.P.S. Срочно в номер - благодаря уважаемому [info]zofik обнаружил досадную ошибку в расчетах для 20 регионов. Результат ЕР после коррекции увеличился на полтора процента. Результаты по некоторым регионам, включая Ставрополь, существенно изменились. Поэтому обе таблицы пересчитал и заменил. С графиками и корреляциями возиться не стал - они в целом остались такими же. Приношу всем читателям свои извинения.

P.P.P.S. Пересчитал по окончательным данным ЦИК. Картина практически та же.

Таким образом, массовая фальсификация выборов в пользу ЕР - это факт, доказанный математически.
Comments 
7th-Dec-2011 12:44 pm (UTC)
Вот тут корреляция адская должна быть: http://pravovoy-dozor.livejournal.com/32881.html
7th-Dec-2011 01:13 pm (UTC)
Наверняка, жаль в этих данных нет номеров УИК
7th-Dec-2011 01:27 pm (UTC)
Браво, Дмитрий!

7th-Dec-2011 01:34 pm (UTC)
Yes!
7th-Dec-2011 03:06 pm (UTC)
Круто! Вижу знакомые до боли таблички. :)
7th-Dec-2011 05:08 pm (UTC)
это только часть цифр пор фальсификациям, боюсь, что те кто анализировал, на самом деле "смягчал" удар лжи. Например, по Москве, там, где удавалось бдить - ни где не превысило 20%. Добавьте отсутствие графы "против всех".
7th-Dec-2011 05:22 pm (UTC)
Я сам и анализировал и ничего не смягчал - выполнил корректный анализ имеющихся данных. Но я и написал, что это нижняя оценка фальсификаций, в реальности они больше, поскольку некоторые виды анализ не учитывает.
7th-Dec-2011 08:25 pm (UTC)
А у меня к тебе вопрос как раз как к математику. Есть какой-нибудь корректный метод для подсчета количества людей в толпе? Порой об одном и том же митинге читаешь - "пришли 500 человек" и "пришли 5000 человек", а где истинное число?
8th-Dec-2011 07:10 am (UTC)
Считается, что точнее всех оценивает полиция (если им начальство не спустило нужную цифру). Они выбирают квадрат 10*10 м, считают там людей и пересчитывают на общую площадь. Но в этот раз полиции верить не приходится.
7th-Dec-2011 09:06 pm (UTC)
Ой, смотри, какая красота: http://fotki.yandex.ru/users/bounine/view/482915/?page=12
8th-Dec-2011 07:11 am (UTC)
Да, это в Ростове было. Они побили рекорд Воронежа - там было 130
8th-Dec-2011 10:22 am (UTC)
Я бы исключил из статистического анализа кавказские национальные республики (и некоторые другие) вплоть до Башкирии включительно.
Потому что, на примере Чечни, ее результаты могут оказаться совершенно достоверными:
1) в территорию были огромные финансовые вливания, республика практически отстроена заново, новые дома, новые дороги - какие при это могут быть претензии к действующей власти?
2) в этих республиках традиционно сильны патерналистические настроения, приводящие к поддержке действующего власти и строя.
3) в республиках сильны родовые традиции, при которых весь род (село, община, аул, ущелье и проч.) поступает так, как решили старейшины.
8th-Dec-2011 12:09 pm (UTC)
Для каждого региона оценка строилась отдельно как раз для того, чтобы учесть региональные отличия. Обратите внимание на таблицу по регионам - в Чечне и Ингушетии методика диагностирует большой процент фальсификаций, но результат ЕР все равно остается высоким. А в Дагестане и Башкирии не так - после очистки доля ЕР сильно падает. Но конечно, оценка достаточно грубая, но заниженная - на самом деле фальсификаций больше.
8th-Dec-2011 09:45 pm (UTC)
Очень похоже на истину! Была в Питере наблюдателем на участке - явка едва 50% была. Официально - 55% по городу. Точно завысили немного + вбросы и карусель + переписывание протоколов - вот и получили у ЕР почти 37%. На нашем участке у ЕР было 26% - полагаю, это честная цифра по городу +/- 2 процента, в зависимости от района.
9th-Dec-2011 08:26 am (UTC)
Рад слышать о такой близости наших оценок
8th-Dec-2011 11:04 pm (UTC) - Вопрос по рассчетам
На каком основании вы ожидаете получить колокол нормального распределения на такой большой и расслоенной территории? Это статистически некорректно. Нужно разбивать территорию страны на области информационной связанности с похожим стилем жизни и полит активностью, хотябы на областные центры, хотя и это не всегда корректно, для Москвы, например, в которой есть заметное расслоение по уровню жизни на две большие части- рабочий класс и элита, так называемая.
После разбития на подобные области и можно проводить ваш анализ, он будет ближе к истине. Например в чечне не будет получаться 94% фальсификаций (это сильно дотационный регион, в котором высок уровень лояльности к партии, благодаря которой чечня строится и уровень жизни там постоянно растет, там не могло быть 94% фальсификаций), как и в других регионах с бОльшей поддержкой Ер чем в Москве.
9th-Dec-2011 08:34 am (UTC) - Re: Вопрос по рассчетам
Я и не закладывался на нормальность - это только асимптотика, следующая из закона больших чисел. Я опирался на естественное условие - распределение голосов по партиям не должно сильно зависить от явки. А коррекция проводилась отдельно по каждому из регионов, приведенных в таблице, как Вы и предлагаете. По поводу Чечни я уже отвечал выше на замечание willyst - даже очистка от огромного числа фальсификаций оставляет ЕР большой процент, смотрите таблицу.
9th-Dec-2011 05:23 am (UTC)
"большая часть фальсификаций происходит с помощью вбросов и прямых приписок" -

Открепительные удостоверения могут быть объединены со вбросом , если верить роликам, то одно открепительное может "вбросить" до 70 голосов. На руках осталось что-то около 500 000 открепительных. Если половина из них участвовала в каруселях, то вбросы могут достигать десятка и более миллионов голосов.
9th-Dec-2011 08:27 am (UTC)
Да, многократное использование открепительных - это тот же вброс
9th-Dec-2011 04:17 pm (UTC)
Распределение не обязано быть нормальным.
Автор просто показывает на графике известный факт - на Кавказе и нескольких других регионах высокая явка и большой процент за ЕР.
Можно толковать это по разному (и об этом много пишут), но математика тут не причём. Это - развод малограмотных лохов.
9th-Dec-2011 04:18 pm (UTC)
по логике автора вообще любые корреляции -нарушают закон больших чисел :)
10th-Dec-2011 12:35 pm (UTC) - tnx
Большое спасибо вам Дмитрий, за проделанную работу.
Буду ссылаться на ваш материал.
10th-Dec-2011 03:13 pm (UTC) - Re: tnx
Конечно, буду только рад
11th-Dec-2011 10:33 pm (UTC)
Вы знаете, я сейчас тоже посчитал коррекцию по методу Подмосковника для всей России в целом, и для каждого региона по отдельности, причем по отдельности для города и деревни (только я объединил весь Кавказ в один метарегион, для надежности). Если считать по России, у ЕР получается 34%, если по регионам -- то 32%. Замечательно сходится с Вашим результатом, но, честно говоря, я всё равно не доверяю этой оценке. Моя оценка, вычисленная слегка другим методом, -- 37%, и это мне кажется более разумным числом. Но в чем может быть проблема с вашим методом, я не знаю.

Вот, посмотрите: http://kobak.livejournal.com/101512.html, последний апдейт.
12th-Dec-2011 07:39 am (UTC)
Отличная у Вас работа. А проблемы с методами не у нас, а у Чурова. Мы же не регрессию строим для фильтрации шума - мы устраняем гиганские систематические искажения, что уж тут блох ловить. Если бы выборы бвли свободными с открытыми дискуссиями и разоблачениями, ЕР заняла бы вообще последнее место.
15th-Dec-2011 02:11 pm (UTC)
Интересно, не могли бы кто-нибудь из математиков написать научную статью на тему фальсификаций выборов 2011 года? очень бы пригодилась бы для википедии.
15th-Dec-2011 02:47 pm (UTC)
Статьи хорошо пишет podmodkovnik, например http://www.gazeta.ru/science/2011/12/10_a_3922390.shtml
15th-Dec-2011 02:28 pm (UTC)
Слишком сильно зарезал. Судя по восходящей ветке, % за ЕР все-таки чуть повыше. Но 13-15% они вбросили - это факт. И это еще не считая административного давления на избирателей, которое статистическими методами так просто не выявишь.

Еще - есть не только вброс, но и воровство голосов - оно тоже дает, вероятно, около 5%.
15th-Dec-2011 02:48 pm (UTC)
Конечно, оценка довольно грубая. Но нижняя, так что реальные фальссификации еще больше
15th-Dec-2011 03:07 pm (UTC)
Предполагается, что фальсификация связана только с "мертвыми душами", которые не голосовали и бюллетени вбросили за них.
В реале, как следует из блогов наблюдателей, фальсификация связана и с простой заменой бюллетеней проголосовавших "не за ту партию" избирателей, и с "каруселью". Т.е. приведенные цифры можно считать нижней границей ИЖ.
15th-Dec-2011 05:11 pm (UTC)
Конечно, нижней - там едросы чего только не вытворяли. Но карусели сюда входят, по крайней мере, частично - они отражаются на явке
15th-Dec-2011 03:18 pm (UTC)
Спасибо
15th-Dec-2011 05:15 pm (UTC)
Что-то же надо делать, по крайней мере, что умеешь
15th-Dec-2011 05:21 pm (UTC)
Мне кажется, вы несколько переусложнили задачу.

Если вас интересует только оценка на сколько обманули, так почему бы не выкинуть все участки, которые сильно вылезают за средне-квадратичное отклонение от среднего, считая их "ошибкой" измерения. По-моему (не гарантирую поскольку сам теоретик), так делают в экспериментальной физике с данными измерений.

И второе. Раз у вас есть данные ЦИКа, так сосчитайте Pearson correlation coefficients для явки и голосов. Многие привели уже scattering diagrams. Это, конечно, наглядно, но корреляторы дадут числа, а не просто как там наклон провести.

Причем можно и на всех УИКак, и только на тех что сильно не вылезают из std.

И наконец, можно посмотреть какое распределение лучше всего фитит данные ЦИКа - общие, по регионам, и по партиям
15th-Dec-2011 07:05 pm (UTC)
Скорее упростил. Выкидывать целые участки по уровню значимости здесь не очень правильно - кроме фальсификаций, там есть реальные избиратели, и незачем их терять. Мы ведь здесь не шум фильтруем, а пытаемся отделить реальные результаты голосования, описываемые в терминах теории вероятности, от детерминированных систематических искажений разного характера. Поэтому стандартные статистические подходы здесь не особенно эффективны. Лишних гипотез также стоит избегать по возможности. Поэтому прагматичный подход Шпилькина мне показался разумным - выделить участки с небольшими искажениями, оценить по ним реальные распределения, распространить их на искаженную часть выборки, а лишнюю часть отнести к фальсификациям. Разумеется, для каждого региона отдельно.

Посмотреть разные варианты сегментации - хорошая идея. Этими вещами плотно занимается группа, собравшаяся вокруг podmoskovnik. Сейчас они там исследуют эффект КОИБ: http://podmoskovnik.livejournal.com/134962.html
15th-Dec-2011 10:14 pm (UTC)
История и математика - учителя жизни!

Спасибо за доброкачественную работу! Это очень важно ради здравого смысла.
15th-Dec-2011 10:34 pm (UTC)
Все, конечно, очень красиво и для впечатлительного человека весьма солидно. Не ясны только два вопроса - почему такая толпа математиков и статистико колдует над избиркомовскими цифрами и выводит данные об ОГРОМНЫХ фальсификациях, всесто того, чтобы такую базу собирать и, наконец-то предъявить заждавшемуся народу.
Пока никаких "тысяч" подтверждений о фальсификациях нет. Есть несколько десятков роликов и сотен фото, которые еще надо разбирать. Участков, напомню, более 90 000.

С Болотной тоже самое - есть отличные панорамные фото - берем ПК, увеличиваем, разбиваем на квадраты и считаем. Правда и тут близко к заявленным многим десяткам тысяч не получится.

Может скоро и выборы не надо устраивать - сядет несколько статистиков и все нам посчитают заранее, по какой-нить западной методе, работающей "везде, где есть чистые и честные выборы?"
16th-Dec-2011 07:32 am (UTC)
Статистика не может заменить выборы - ведь она не может получить результаты из воздуха, но зато может оценить точность и надежность результатов выборов.

В науке нет "западных" и "восточных" метод, она едина.

Считать по квадратам на Болотной - это онанизм, даже не сочувствую.

Насчет суда - хороший вопрос. Дело в том, что статистические результаты - оценочные, их в суде не примут. А реальные нарушения - многие тысячи - в суде не принимают по другой причине - их контролирует партия жуликов и воров.
16th-Dec-2011 12:00 am (UTC)
Здравствуйте уважаемый!
Вы сказали "а", но ведь надо говорить и "б". Надо со всеми Вашими данными обращаться в суд. И в качестве ответчика привлекать ЦИК. Как он мог утвердить такие результаты. Ведь 90% не может быть никогда. Я буду готовить иск, но в математике я слабоват. Вы не поможете в случае чего обосновать математически такой иск?
16th-Dec-2011 07:38 am (UTC)
Со статистикой в суд не пойдешь. Это результаты расчетные, оценочные, суд их не примет. Или наймет других экспертов и они представят противоположные оценки. Но за свои слова я отвечаю и, если потребуется, свои расчеты могу подтвердить в суде в качестве эксперта. Но в данном случае суд - пустая затея.
16th-Dec-2011 03:41 am (UTC) - а что понимается под коррекцией?
Уважаемый Дмитрий,

1)как вы получили зеленую линию на первом графике "ЕР после коррекции"?
2)Я так понял что "явку после коррекции" вы получили вычитая из явки разницу между синим и зеленым графиком, которую назвали фальсификация, это так?

очень буду благодарен за объяснение
16th-Dec-2011 07:45 am (UTC) - Re: а что понимается под коррекцией?
Методика довольно простая. В каждом регионе (почти) есть какое-то количество участков с нормальной явкой (до 50%), на которых соотношение голосов всех раптий примерно постоянно и не зависит от явки. По этим участкам я нахожу соотношение между голосами за ЕР и всеми остальными. Далее рассчитываю оценку для ЕР (зеленую) путем простого умножения кривой для всех остальных (синей) на полученный коэффициент. Вычитанием из выборочной (красной) кривой для ЕР, как Вы верно заметили, получаю фальсификацию.
16th-Dec-2011 07:57 pm (UTC)
Чушь полнейшая! Масштаб жульничества не связан напрямую с голосами за ПЖиВ.
В СПб голосов мало, но жульничества - не 6,3%, а все 63. Напротив, в Чечне реально голосовали как им сказал Кадыров (явку наверняка преувеличили, но не расклад голосов).
16th-Dec-2011 09:26 pm (UTC)
Смотри, тебя цитируют: http://kalgad.livejournal.com/729178.html
Это главред нашей городской газеты.
17th-Dec-2011 08:51 am (UTC)
Да, это очень приятно, но и ответственно. Сейчас этим занимаются многие математики, дают свои оценки по стране (довольно близкие), но насколько я знаю, никто не опубликовал оценки для регионов - там проще ошибиться. А в данном случае меня прославил Илларионов - он из моей таблицы взял число фальсификаций по регионам и представил их графически как индекс жульничества. От него все и разошлось.
28th-Dec-2011 11:46 am (UTC) - Спасибо за работу
Замечательно, что грамотные люди занялись всерьез оценить факт фальсификаций - были-не были, и его масштаб, если был.
С математикой можно спорить только на языке математики. Вывод: да были фальсификации и масштаб их таков для грамотной части сограждан становится практически доказан.

В качестве критики. Было бы полезно привлечение иных математических методов. К примеру, модель голосования на монте-карловской основе. Промоделировать как и за счет чего гауссовское распределение фальсификациями деформируется в наблюдаемые по результатам выборов.
28th-Dec-2011 01:40 pm (UTC) - Re: Спасибо за работу
Да, тема довольно обширная, есть где развернуться. Но сейчас это уже не так актуально - кто хотел, нас услышал, а остальным что монте-карло что Гаусс.
Page 1 of 2
<<[1] [2] >>
This page was loaded May 17th 2012, 6:34 pm GMT.