?

Log in

No account? Create an account
Ответ "коту Шредингера"
default
alien_muzzy
Пишу в ответ на пост http://romanik.livejournal.com/767678.html

В посте поставлены правильные вопросы, и представлены отличного качества данные, но анализ и результаты, в том виде, в каком они представлены, ничего не доказывают, как абсолютно справедливо отмечено в комментариях (http://romanik.livejournal.com/767678.html?thread=3447230#t3447230 и вся ветка).

Ниже мой вариант анализа и попытка ответить на вопрос - означают ли полученные по данным наблюдателей (СМС-ЦИК) Собянинские 49.51%, что должен быть второй тур?

Для тех, кто не любит уравнения и графики, кратко результаты: второго тура нет, мухлеж на участках без наблюдателей был, но его эффект добавил Собянину примерно 0.5%. Разрыв между данными СМС-ЦИК и ЦИК выше, т.к. в выборку СМС-ЦИК «хипстерские» районы, где процент Собянина ниже, попали с гораздо более высоким весом.

  • В среднем, на участках без наблюдателей Собянин получил на 4.1% больше, чем с наблюдателями.

  • Однако есть «проблема плохой выборки»: наблюдатели значительно лучше покрыли центральные районы, где результат Собянина ниже. Эта проблема объясняет 2.8% из 4.1%.

  • Оставшиеся 1.34±0.54% - это и есть размер мухлежа на ненаблюдаемых участках. Но так как ненаблюдаемые участки покрывают только 40% проголосовавших, то итоговый эффект на результат Собянина был не более 0.75%. Таким образом, Собянин набрал 50.6-51.0%, и второго тура нет

  • На «спец-УИКах» мухлевали не сильнее: даже там, где были наблюдатели, в среднем отдали за Собянина на 12.8%±1.2% больше голосов. Однако, т.к. там сосредоточено только 1.2% проголосовавших, это дало Собянину не более 0.17% голосов, так что и этот эффект не был решающим.

Теперь, собственно расчеты. Исходные данные все отсюда http://romanik.livejournal.com/767678.html, так что за деталями и терминологией туда.

Для начала посмотрим на эти данные. Для каждого района Москвы я посчитал, сколько процентов участков было покрыто наблюдателями, разбил эти районы на 10 групп (0-10%, 10-20% и т.д.) и для каждой посчитал процент Собянина – отдельно на УИКах с наблюдателями и без.  Результаты – на графиках ниже. Эти три графика говорят нам три вещи:

  • Участки не были покрыты равномерно. Чем выше процент Собянина (даже если смотреть только на участки с наблюдением), тем меньше наблюдателей уехало в район.

  • Во всех районах есть систематическое, но небольшое превышение рез-та Собянина на участках без наблюдателей

  • Эффект спец-УИКов мал, и там не мухлевали с подсчетами сильнее, чем в других УИКах


% за Собянина в районах с разным покрытием наблюдателей, на участках с наблюдателями и без


Для чистоты эксперимента - регрессия ниже показывает, что неравномерность покрытия значима статистически – достаточно добавить покрытие данного района наблюдателями как независимую переменную (данные в разрезе УИКов, объясняемая переменная – результат Собянина на УИКе).

Модель 1

В принципе, уже отсюда понятен истинный порядок мухлежа – 1.27% (к-т при is_sms – dummy-переменной для участков с наблюдателями). Мне, правда, нравится больше другая модель (та же объясняемая переменная, в состав регрессии добавил dummy соответствующие каждой из групп покрытия: например sms60 – это dummy для районов с покрытием в диапазоне 60-70%)

Модель 2

О чем нам говорит эта таблица?

  1. На спец-УИКах (больницы и т.п.) в средним голосовали за Собянина на 11.6-14% больше. Однако т.к. там всего 1.2% проголосовавших, общий эффект не более 0.17%

  2. Те, кто утверждает, что есть проблема выборки, правы. Наблюдатели действительно покрыли лучше те районы, где Собянин наименее популярен, и эти районы вошли с бОльшим весом в данные СМС-ЦИК

  3. Полностью этот фактор не объясняет различие между результатами на участках с наблюдателями и без. Мухлеж таки был

  4. Размер мухлежа на 95% уровне значимости не превышает 1.9% в плюс Собянину на участках без наблюдения. На спец-УИКах уровень мухлежа статистически не отличается

  5. Зная все это, можно оценить истинный результат Собянина

    1. Самый простой способ – взять в каждом районе результаты Собянина по данным наблюдателей (СМС-ЦИК) и взвесить их с учетом общего количества проголосовавших в районе (на всех УИКах). Этот расчет дает 50.86%, т.е. на 0.51% меньше.

    2. Другой способ - посчитать общий эффект для результата Собянина из модели выше. С учетом того, что УИКам без наблюдателей соответствует 40% голосов, общий эффект 1.9%*0.4 = 0.76%, и результат Собянина не меньше 50.61% (и не больше 51.05%)



Разумеется, это все касается только того, как считали. За кадром остается админресурс, присутствие соцработников при голосовании на дому, голосование в больницах по указке главврача и т.д. Но мне кажется, именно это объясняет, почему Навальный не выбрал агрессивную стратегию с протестными акциями – уверен, в штабе сделали похожие расчеты. И это правильное решение – доказать существенность искажений не удастся.

Надеюсь, кому-то было интересно. Что непонятно – спрашивайте, объясню, с удовольсвием подискутирую

UPD: По просьбе oude_rus включил в анализ еще и признак есть/нет КОИБ:
Graph2
Явной зависимости не прослеживается. Это скорее говорит в пользу того, что полученное выше отклонение для участков без наблюдателей - это не результат систематических фальсификаций, а, например, того, что наблюдатели, расстроенные результатом, не отправляли СМС. Иначе картинка была бы другой: в каждой группе первые три столбика были бы примерно на одном уровне, а столбик "Nothing" был выше.