Forenzika izbora u realnom vremenu: Benfordov zakon i testovi vodećih cifara

Reading Time: 3 minutes

Detekcija fabrikovanih izbornih podataka i numeričkih anomalija u rezultatima

Uvod

Jedan od najkontroverznijih, ali i najpopularnijih alata forenzike izbora jeste Benfordov zakon, metoda koja se zasniva na proučavanju rasporeda vodećih cifara u numeričkim nizovima. Iako prvobitno razvijen u kontekstu inženjeringa i ekonomije, Benfordov zakon je uspešno primenjen i na izborne podatke, posebno kada se želi proveriti da li su brojevi rezultata „prirodni“ ili su možda veštački konstruisani.

Osnovna ideja je da određeni brojevi, posebno prva cifra u nizu, treba da se pojavljuju sa određenom frekvencijom ako je skup podataka generisan prirodnim, ne-manipulisanim procesom. Ako se taj obrazac ne poštuje, a ne postoje legitimni razlozi (npr. administrativni pragovi, agregacije), to može biti signal da su brojevi „namešteni“.

Intuitivno objašnjenje

Zamislite da analizirate broj glasova za određenu partiju po biračkim mestima. Kada izvučete prvu cifru svakog rezultata (npr. iz 348 → 3, iz 1023 → 1), očekivali biste da se sve cifre (od 1 do 9) pojavljuju otprilike jednako često, zar ne? Međutim, Benfordov zakon kaže suprotno: u većini prirodnih skupova brojeva, cifra 1 se pojavljuje kao vodeća oko 30% vremena, dok je, recimo, cifra 9 vodeća u manje od 5% slučajeva.

U manipulisanim podacima, ljudska intuicija često vodi do „uravnoteženih“, pa čak i previše uniformnih raspodela, što stvara odstupanja od Benfordovog zakona. Ako se ti obrasci pojave u brojevima glasova, sumnja na fabrikovanje rezultata postaje osnovana.

Teorijska osnova

Benfordov zakon definiše verovatnoću da se cifra \(d\) (od 1 do 9) javi kao prva cifra u prirodno nastalom numeričkom skupu: \(P(d) = \log_{10}(1 + \frac{1}{d})\)

Očekivane frekvencije prve cifre prema Benfordovom zakonu su:

1 → 30.1%
2 → 17.6%
3 → 12.5%
…
9 → 4.6%

Analiza može uključiti i:

2BL (test druge cifre): raspored druge cifre
MAD (eng. Mean Absolute Deviation): prosek odstupanja od očekivanih frekvencija
χ² test: statistička značajnost razlika

Kritične vrednosti:

Za MAD veće od 0.015 → moguće manipulacije
Za χ² test, p-vrednost < 0.05 → značajna razlika

Bitno je napomenuti da Benfordov zakon nije primenjiv na sve skupove podataka. Potrebno je da brojevi:

imaju širok raspon brojeva od jednocifrenih do višecifrenih (npr. 1, 14, 398, 6382, 37699, 1468900, itd.),
nisu ograničeni administrativnim pragovima,
nisu sabirani/zaokruživani u velikim agregatima.

Na Slici 1. data je ilustracija na osnovu simuliranih podataka analize prve cifre zasnovane na Benfordovom zakonu.

Stubićima je predstavljem empirijski raspored prve cifre, dok su očekivane frekvencije prema Benfordovom zakonu date crvenom linijom. Kako je p-vrednost Hi-kvadrat testa, 0,386 veća od 0,10 to se ne može odbaciti hipoteza da empirijski raspored prve cifre naših podataka je saglasan sa teorijskim rasporedom prema Benfordovom zakonu.

Tipovi manipulacije koje otkriva

Benfordov zakon je naročito efikasan u detekciji:

Fabrikovanih rezultata: kada brojevi glasova ne proizilaze iz realnog procesa glasanja, već su „upisani odokativno“.
Rukom kreiranih obrazaca: gde ljudski operateri pokušavaju da „balansiraju“ cifre, ali nesvesno remete prirodan raspored.
Serijskog kopiranja rezultata sa modifikacijama

Benfordova analiza nije dovoljno jaka da ukaže na konkretno biračko mesto, ali jeste makro alat za detekciju sistematske anomalije u celom skupu podataka.

Primena u Excel-u i R-u

U Excel-u (ograničeno):

Izdvojite prvu cifru: pomoću formula kao što je
=LEFT(A2,1)
Napravite frekvencijsku tabelu za cifre 1–9.
Uporedite sa očekivanim procentima po Benfordovom zakonu.
Ručno izračunajte MAD ili koristite χ² test.

U R-u (preporučeno):

library(benford.analysis)

# Pretpostavimo vektor sa brojem glasova po mestu
rezultati <- df$glasovi
bf <- benford(rezultati)

# Pregled statistike
summary(bf)

# Vizualizacija
plot(bf)

Ukoliko želite dublju analizu (druga cifra, MAD), R paket benford.analysis omogućava sve te opcije.

Realni primeri i reference

Jedna od najcitiranijih primena Benfordovog zakona u izbornom kontekstu je analiza iranskih predsedničkih izbora 2009. Mebane (2010) primenio je više testova cifara na zvanične rezultate i pronašao odstupanja od očekivanih raspodela, naročito u glasovima za Mahmuda Ahmadinedžada. Iako nije sam po sebi dokaz prevare, rezultat je ukazivao na visoku verovatnoću fabrikovanja podataka.

Referenca:

Mebane, W. R. (2010). Fraud in the 2009 Presidential election in Iran? Chance, 23(1), 6–15.
https://doi.org/10.1007/s00144-010-0003-4

Takođe, Benfordov zakon je korišćen u analizi rezultata izbora u SAD, Portoriku i Venecueli, ali uz mešovite rezultate. Ključno je znati kada je zakon primenjiv, kako se ne bi donosili pogrešni zaključci.

Teorijska validacija:

Pericchi, L. R., & Torres, D. (2011). Quick anomaly detection by the Newcomb–Benford Law, with applications to electoral processes data from the USA, Puerto Rico and Venezuela. Statistical Science, 26(4), 502–516. DOI: https://doi.org/10.1214/09-STS296

Zaključak

Benfordov zakon je koristan kao signalni indikator, naročito u situacijama gde postoji sumnja da su rezultati „uneti“, a ne dobijeni. Iako sam po sebi nije dovoljan kao dokaz izborne krađe, on predstavlja važan prvi korak ka identifikaciji anomalija. U realnom vremenu, moguće je koristiti ovu metodu čim se objave parcijalni rezultati, posebno ako se podaci objavljuju po biračkom mestu.