sadovnik: (Default)
[personal profile] sadovnik
Андрей Бабицкий написал хороший романтический текст про ученых социологов из ВЦИОМа. Поскольку допущение о добропорядочности вциомщиков вызвало жаркую дискуссию, а также потому что я был отчасти источником данных и, т.е. несу за них ответственность, позволю себе изложить свою и более детальную (и многословную) версию.

Мой первый завлаб, Борис Евгеньевич Карулин, мне, молодому, говорил, когда я приходил к нему хвастаться каким-нибудь результатом: «Андрюша, обнаружил закономерность – прекращай исследование». Я так и не следую этому совету по повышению эффективности, поэтому никак не могу прекратить, от чего страдает продуктивность.

В общем, к выборам 2011 года, когда начались первые разговоры о грядущем крахе Едра, я построил простую регрессию (закономерность типа ХУ). Она описывала зависимость между результатом ОПРОСА ВЦИОМ и РЕЗУЛЬТАТОМ ГОЛОСОВАНИЯ для каждой партии и/или кандидата на последующих выборах по данным ЦИК. Думаю, что тем же очевидным путем идет и сам ВЦИОМ, накапливая данные в ряду выборных кампаний. Почему ВЦИОМ? Потому что «на глаз» они хорошо предсказывали, и я подозревал, что неспроста: знают результат.

Тут важно не путать результат ОПРОСА с ПРОГНОЗОМ (многие путают) – это не одно и то же (как мы увидим). Т.е. 50% по опросу совсем не значит 50% по результату. Если есть большое расхождение - это странно (например, у Gallup расхождения небольшие, см. внизу), но лишь на поверхностный взгляд: у нас есть свои причины.

Возможное, даже большое расхождение никак не влияет на ТОЧНОСТЬ прогноза. Представьте, что в 100 случаях опрос давал кандидату около 40-50%, а результат составлял в тех же 100 случаях около 50-60%. Расхождение большое, но вероятность того, что в 101-м случае при исходных 50% будет около 60%, близка к единице. Дважды, в 2011 и 2012 гг, я не ошибался в своих прогнозах на результат выборов, что, конечно, далеко недостаточно, чтобы валидировать прогностическую модель, которую я пользовал, но все же радовало.

Fig-1

Вот моя картинка на момент до нынешних выборов мэра, и она же - мой инструмент.

  • Данные по опросам и выборам с 1996 г по 2012 (1993 г я выкинул, там много «выбросов» в данных, которые снижают точность прогноза, т.е. силу связи между опросом и результатом).

  • Включены все партии и кандидаты, набиравшие значимые цифры (т.е., скажем Брынцалов на выборах президента в 1996 г, и партия «Кедр» на выборах в Думу 1995 г не включены).

  • Некоторые партии и кандидатов пришлось объединять в категории. В частности, к «Едру» отнесены суммарно Единство и Отечество-вся Россия, а также путин и медведев. «Демократы» - это сборная солянка и то, что в нашем перевернутом мире называют (все реже, слава б.) «правыми»: СПС, ДемВыбор, Правое Дело, Ельцин, Хакамада и т.д.).

  • Опросы взяты за месяц до выборов, на момент регистрации партий и кандидатов – к сожалению, более близкие к дате выборов опросы дают меньшую выборку: ВЦИОМ не всегда их проводил и не всегда в одно время.

  • Цветом говна выделены результаты Едра, цветом почти ночного неба в пустыне в пострежимное время – «Демократы»

  • Пунктир обозначает ожидаемое точное соответствие опроса результату (угол 45 градусов)


На что обращаем внимание:

  1. Точность прогноза велика. Именно об этом говорит значение R2=0.95. Грубо говоря, точность прогноза 95% (не надо придираться).

  2. Линия прогноза постепенно удаляется от угла=45 градусам (т.е. линии, когда опрос – не прогноз! - точно соответствует результату; см. врезку с даннымм Gallup с 1968 гг внизу). Об отклонении, которое видно на глаз, говорит коэффициент=1.1. при Х в уравнении, выделенный курсивом. Иначе: каждые 10% процентов при опросе дают лишний пункт при результате. При 50% на опросе результат будет около 55%.

  3. Интерсепт (значение уравнения при Х равном нулю) небольшой (2% - выделен подчеркиванием в уравнении): его можно рассматривать как показатель доли «молчунов» - при опросе ничего не говорят и не участвуют, а потом приходят и голосуют.

  4. Кружочки соответствующих цветов – чисто для любопытных: результаты Ельцина («Демократы») и Лебедя (будущее «Едро) на выборах 1996 г.

  5. Звездочки соответствующих цветов: это результаты Пса и Навального на нынешних выборах. Красные линии, ведущие к ним – отклонения от прогноза или, соответственно, неожиданно потерянные и приобретенные проценты.


Вот так я и проиграл на этот раз. По модели выходило (если подставить в уравнение результаты опроса за месяц, (соответственно, 53 и 9%) 60-62% у Пса и 12-14% у Навального (если варьировать немного выборки, например, брать только президентские или думские). С поправкой на Москву (есть такая тема и картинка – Москва не Россия, см. внизу - а модель сделана по России), соответственно, 55% и 17%. А если жухальски брать самые последние опросы (51 и 14%) с поправкой на Москву, то ваще 54 и 30! Но я честно не брал))

К чему я это? К Б.Е.Карулину, первому начальнику. Модель ВЦИОМ (и соответственно, моя) строится на историческом ряде данных и не учитывает фактор нового времени – контроль. Так что надо будет строить новую модель, но для этого надо набрать достаточный ряд данных, где новый фактор будет задействован. Надо постараться. И еще: старая модель ВЦИОМ будет отлично работать и дальше для России, если новый фактор - контроль за подсчетом голосов - будет действовать локально.

Теперь интересные частности

Fig-2
Вот картинка по той же выборке (1996-2012, все партии, все кандидаты), разделенной по партиям. Нужны комментарии? Едро и ЛДПР перебирают по 2.0 и 1.7 пункта на каждые 10% по сравнению с опросом, т.е получают на выборах по 12 и 11.7% при 10% при опросе. Результат ЛДПР относительно плохо предсказуем, и у них есть «Молчуны (2.5%). «Молчуны» есть и у Яблока (2%), но больше всего у КПРФ. У Едра и «Демократов» «молчунов» одинаково мало (причины, наверное, разные). Похоже на правду? И наконец, очевидное: «Демократы», как и Яблоко, сильно недобирают по результатам выборов по сравнению с опросом: на 2.7 и аж на 3.8!! пункта на каждые 10%.
Горизонтальные линии показывают, сколько бы набрала каждая партия на выборах при 50% на опросе.

Справочно: Москва - не Россия

Fig-3
Здесь, конечно, регресии менее надежны – выборки меньше. Но картинка не противоречит ощущениям. Обратите внимание на хорошее соответствие между результатами по всей выборке в среднем (черная линия проходит близко и параллельно пунктиру).

Россия - не США

Fig-4

  • «Нулевая» прибавка к результату по сравнению с опросом и точное соответствие ожидаемому

  • Точный прогноз (не хуже, чем ВЦИОМ, но и не лучше)

  • 3.4% «молчунов»

From:
Anonymous( )Anonymous This account has disabled anonymous posting.
OpenID( )OpenID You can comment on this post while signed in with an account from many other sites, once you have confirmed your email address. Sign in using OpenID.
User
Account name:
Password:
If you don't have an account you can create one now.
Subject:
HTML doesn't work in the subject.

Message:

 
Notice: This account is set to log the IP addresses of everyone who comments.
Links will be displayed as unclickable URLs to help prevent spam.

July 2014

S M T W T F S
  12345
6789101112
13141516171819
2021 2223242526
2728293031  

Most Popular Tags

Style Credit

Expand Cut Tags

No cut tags
Page generated Sep. 24th, 2017 01:28 am
Powered by Dreamwidth Studios