Forenzika izbora u realnom vremenu: Brza detekcija anomalija korišćenjem levak grafikona

Reading Time: 3 minutes

Grafički prikaz sumnjivih opservacija kroz varijaciju i veličinu uzorka

Uvod

U analizi podataka, posebno u medicini i evaluaciji performansi institucija (npr. bolnica), grafikon u vidu levka se koristi za detekciju entiteta čiji su rezultati statistički neobični s obzirom na veličinu uzorka. Ovaj metod se sada koristi i u forenzici izbora, posebno zato što omogućava da se vrlo brzo, vizuelno i efikasno identifikuju anomalije, bilo u podršci za kandidate, izlaznosti, broju nevažećih listića ili drugim agregatnim merama.

Snaga grafikona u vidu levka je u tome što kombinuje:

  • meru centralne tendencije (npr. prosečna podrška),
  • sa varijabilnošću u zavisnosti od veličine uzorka (broj birača po mestu),
  • i omogućava statističku klasifikaciju po pouzdanim granicama.

Intuitivno objašnjenje

Zamislite da imate podatke za sva biračka mesta:

  • broj birača po mestu,
  • procenat glasova za određenog kandidata.

Logično je da manja mesta (npr. 50 birača) imaju veću varijaciju, ponekad 100% za jednog kandidata, ponekad 0%. Ali u velikim mestima (npr. 2.000 birača) očekujemo da se procenti stabilizuju oko proseka.

Grafikon u vidu levka prikazuje ove podatke tako što:

  • Na x-osi ima veličinu uzorka (npr. broj birača),
  • Na y-osi ima procenat podrške,
  • Oko srednje linije (npr. 52%) dodaju se „levkaste“ zone pouzdanosti (95% i 99%).

Tačke koje se nalaze van ovih granica (gore ili dole) su statistički sumnjive, ne zato što su velike ili male, već zato što su previše ekstremne za svoju veličinu.

Teorijska osnova

Grafikon u vidu levka se zasniva na binomnom rasporedu i centralnoj graničnoj teoremi:

\(SE = \sqrt{ \frac{p(1-p)}{n} }​​\)

gde je:

  • \(p\) – očekivani udeo glasova za kandidata,
  • \(n\) – broj birača ili važećih glasova na mestu,
  • \(SE\) – standardna greška.

Za svako \(n\), izračunavaju se gornje i donje granice pouzdanosti (95% i 99%):

\(CI_{95\%} = p \pm 1.96 \cdot SE \\ CI_{99\%} = p \pm 2.576 \cdot SE\)

U grafik se uključuju:

  • centralna linija (npr. prosečna podrška),
  • levkaste granice,
  • tačke (mesta) koje odstupaju.

Tipovi manipulacija koje detektuje

Grafik u vidu levka je naročito efikasan za:

  • Identifikaciju biračkih mesta sa nenormalno visokom podrškom (npr. 100% za jednog kandidata),
  • Biračka mesta gde je izlaznost ekstremno visoka i istovremeno homogen rezultat,
  • Vizuelnu detekciju „sumnjivih grupa/klastera“ u velikim biračkim mestima,
  • Uočavanje sistematskih odstupanja u određenim regionima (uz prostornu analizu).

Ovo je brza, opisna metoda i ne zahteva nikakav model ili prethodnu kalibraciju, zbog čega je pogodna za primenu u realnom vremenu.

Primena u Excel-u i R-u

📊 U Excel-u:

  1. Prikupite broj birača po mestu i procenat glasova za kandidata.
  2. Izračunajte prosečan udeo (\(p\)).
  3. Izračunajte granice pouzdanosti za svaki nnn (95% i 99%).
  4. Pomoću XY scatter grafika nacrtajte podatke i levkaste granice.

📈 U R-u:

Koriste se ggplot2 i dplyr paketi.

Primer:

set.seed(606)
if (!requireNamespace("ggplot2", quietly = TRUE)) install.packages("ggplot2")
if (!requireNamespace("dplyr", quietly = TRUE)) install.packages("dplyr")
library(ggplot2); library(dplyr)

## Simulacija: veličine mesta, istinita podrška p_true = 0.60

n <- 150
biraci <- runif(n, 100, 5000)
p_true <- 0.60

## Generiši posmatrane procente (u %), sa par namernih outliera

glasova <- rbinom(n, size = round(biraci), prob = p_true)
p_obs_pct <- 100 * glasova / round(biraci)
p_obs_pct[1:3] <- p_obs_pct[1:3] + 15 # visoko
p_obs_pct[4:6] <- p_obs_pct[4:6] - 15 # nisko
p_obs_pct <- pmin(pmax(p_obs_pct, 0), 100)

## Standardna greška u % i funnel granice u %

se_pct <- 100 * sqrt(p_true * (1 - p_true) / biraci)
df <- data.frame(
biraci = biraci,
procenat = p_obs_pct,
se_pct = se_pct
) %>% mutate(
centar95 = 100 * p_true,
lcl95 = pmax(0, 100 * p_true - 1.96 * se_pct),
ucl95 = pmin(100, 100 * p_true + 1.96 * se_pct),
lcl99 = pmax(0, 100 * p_true - 2.576 * se_pct),
ucl99 = pmin(100, 100 * p_true + 2.576 * se_pct)
)

## Kreiraj dataframe sa poređanim n za glatke levkaste linije

df_lines <- df[order(df$biraci), c("biraci","lcl95","ucl95","lcl99","ucl99")]
p_line <- 100 * p_true

p <- ggplot(df, aes(x = biraci, y = procenat)) +
geom_point(alpha = 0.7, color = "black") +
geom_line(data = df_lines, aes(y = ucl95), color = "red", linetype = "dashed") +
geom_line(data = df_lines, aes(y = lcl95), color = "red", linetype = "dashed") +
geom_line(data = df_lines, aes(y = ucl99), color = "red", linetype = "dotdash") +
geom_line(data = df_lines, aes(y = lcl99), color = "red", linetype = "dotdash") +
geom_hline(yintercept = p_line, color = "darkgreen") +
labs(
title = "levak/Funnel plot: procenat glasova prema veličini uzorka",
subtitle = "Zelena = prosečna podrška; crvene linije = 95% (isprekidano) i 99% (tačkasto) granice",
x = "Broj birača na biračkom mestu",
y = "Udeo glasova za listu A (%)"
) +
theme_minimal()

print(p)

Vizualizacija na Slici 1 pokazuje koja mesta „iskaču“ van predviđenih granica.

Slika 1. Grafički prikaz u formi levka

Realna primena i referenca

🟥 SAD (2001):

U analizi rezultata američkih predsedničkih izbora 2001. godine u okruzima Floride, analitičari su primenili grafikon u vidu levka kako bi pokazali da rezultat u okrugu Palm Beach odstupa od očekivanog rezultata.

Slika 2. Grafikon u vidu levka na američkim predsedničkim izborima 2001. godine (Izvor: Wand i sar., 2001)

Ovde je interesantno ispričati ukratko zašto se javio ovakav rezultat glasanja. Leptir listić (eng. Butterfly Ballot) korišćen u Palm Beach okrugu, Florida na predsedničkim izborima 2000. godine bio je neobičan i zbunjujući listić za glasanje (Slika 3). Kandidati su bili poređani na obe strane papira, sa rupama za probijanje u sredini, ali raspored kandidata nije pratio logiku rupa, na primer, George W. Bush i Al Gore su bili prvi kandidati sa leve strane, a rupe su bile poređane tako da je druga rupa bila za Pat Buchanana, kandidata Reform partije. Zbog toga su mnogi glasači koji su hteli da glasaju za Al Gore greškom označili rupu za Buchanan ili su pokvarili svoj listić.

Slika 3. Butterfly ballot (Izvor: Wand i sar., 2001)

Ova konfuzija dovela je do oko 2.000 glasova u Palm Beach okrugu koje su greškom dali Pat Buchananu, što je bilo više od zvanične razlike pobede George W. Busha u celoj državi. Posledice su bile ključne za ishod izbora. Listić je dizajnirala Theresa LePore sa ciljem da omogući starijim glasačima lakše čitanje imena kandidata, ali je raspored izazvao mnoge greške. Zbog ovih problema, butterfly ballot se više nije koristio, a slučaj je postao poznat primer kako izborni dizajn može uticati na rezultate.

Referenca:

Wand, J. N., Shotts, K. W., Sekhon, J. S., Mebane, W. R., Herron, M. C., & Brady, H. E. (2001). The butterfly did it: The Aberrant vote for Buchanan in Palm Beach county, Florida. American Political Science Review, 95(4), 793–810. DOI: https://doi.org/10.1017/S000305540040002X

Zaključak

Grafikon u vidu levka je brz, moćan i vizuelno jasan alat koji omogućava analitičarima da gotovo trenutno identifikuju sumnjiva biračka mesta, nezavisno od njihovog broja glasača. Njegova prednost je što omogućava kontekstualnu evaluaciju: da li je rezultat izuzetan zato što je stvarno neobičan, ili zato što je uzorak mali.

U kombinaciji sa prostornom analizom, ovaj grafikon može biti centralni alat za određivanje gdje i zašto usmeriti pažnju tokom izbornog dana.

Komentariši

Vaša email adresa neće biti objavljivana. Neophodna polja su označena sa *