Opora

У цій статті ми розглянемо досить простий, але при цьому дуже інформативний метод дослідження загальної структури багатовимірних даних, пошуку аномальних значень та окреслення загальних трендів. Це метод діаграм розсіювання (кореляційних діаграм). Значна наочність цього методу обумовлена відображенням у двовимірному просторі кожної точки досліджуваної вибірки. При такому підході дуже легко візуально виділити окремі скупчення точок (хмари, кластери), які характеризуються схожими параметрами. Ми застосуємо цей метод для дослідження результатів голосування на позачергових виборах Президента України.
Для аналізу та побудови графічних додатків нами використано можливості програмного середовища R. Дані, як і для попередніх досліджень, отримано з сайту Центральної виборчої комісії України. До первинної вибірки узято лише дільниці, що знаходяться в Україні. Дільниці закордонного виборчого округу погано вписуються в структуру даних при відображенні, оскільки значно перевищують "українські" дільниці за кількістю виборців.

При візуалізації діаграм розсіювання нами використане не відображення окремих точок на площині, а відображення щільності точок. Такий підхід обумовлений значною кількістю даних, які при класичному підході будуть перекривати один одного і зливатися в єдине поле. Для відображення щільності від меншої до більшої нами використано палітру таких кольорів: темно зелений, зелений, синій, пурпурний, червоний, жовтий. Також на діаграмах відображено 500 перших точок, які знаходяться у зоні з мінімальною щільністю.

Перше, що ми візуалізували - це співвідношення між кількістю виборців, зареєстрованих на виборчих дільницях, та кількістю голосів, відданих за Петра Порошенка:

4dnipro

 

На діаграмі чітко фіксуються лінії скупчення точок, які вказують на два окремі тренди в голосуванні. Перше, що припадає на думку - це поділ на східну та західну Україну. Але показово те, що обидва тренди вказують на чітку підтримку Петра Порошенка виборцями - зі зростанням розмірів виборчих дільниць зростає і кількість голосів за цього кандидата. Дві чітко простежувані хмари, розташовані в зоні "великих" виборчих дільниць - характеризують великі міста східної та центрально-західної України. Тут ми також спостерігаємо зростаючу підтримку і на сході і, особливо, на заході.

Наступний графік візуалізує взаємозалежність між активністю виборців (графа таблиць "взяли участь") та кількістю голосів за Петра Порошенка:

3dnipro

На цьому графіку також спостерігається чітка підтримка виборцями. Щоправда, для певної частини дільниць спостерігається "затухання" явки виборців, але все-одно спостерігається висока підтримка.

Для Юлії Тимошенко все виглядає зовсім інакше:

2dnipro

Можна прослідити лише дуже слабку тенденцію до зростання кількості голосів відповідно до розміру виборчої дільниці. Окремі викиди, які вказують на "збільшення на один голос при збільшенні розміру на одного виборця" (точки, які розташовані на лінії під кутом 45 градусів) - характеризують виборчі дільниці із аномально високою підтримкою Ю. Тимошенко. Про ці дільниці ми писали у попередніх статтях.

Результати голосування для Юлії Тимошенко виглядають таким чином:

1dnipro

 

Для порівняння із попередніми кандидатами ми також побудували діаграми розсіювання за результатами голосування за Олега Ляшка:

6dnipro

5dnipro

Як видно з графіків, електоральна підтримка Олега Ляшка не така чітко виражена і не така потужна, як у Петра Порошенка. Але при цьому діаграма розсіювання "голоси-участь виборців" більш "аморфна" ніж у Юлії Тимошенко: на ній не спостерігається викидів, відокремлених скупчень із аномальними значеннями та інших артефактів.

Матеріал підготовлено:
Василенко Євген - керівник аналітичного відділу ОПОРИ у Дніпропетровській області
+38 096 920 48 20 (контактний телефон ОПОРИ у Дніпропетровській області)
facebook logos PNG19750 greytwitter PNG29 grey2instagram greyyoutube PNG19 greyOPORA Githubtelegram PNG34 greyAndroid grey

© Громадянська мережа ОПОРА 2006-2018