Detekcija fabrikovanih izbornih podataka i numeričkih anomalija u rezultatima
Uvod
Jedan od najkontroverznijih, ali i najpopularnijih alata forenzike izbora jeste Benfordov zakon, metoda koja se zasniva na proučavanju rasporeda vodećih cifara u numeričkim nizovima. Iako prvobitno razvijen u kontekstu inženjeringa i ekonomije, Benfordov zakon je uspešno primenjen i na izborne podatke, posebno kada se želi proveriti da li su brojevi rezultata „prirodni“ ili su možda veštački konstruisani.
Osnovna ideja je da određeni brojevi, posebno prva cifra u nizu, treba da se pojavljuju sa određenom frekvencijom ako je skup podataka generisan prirodnim, ne-manipulisanim procesom. Ako se taj obrazac ne poštuje, a ne postoje legitimni razlozi (npr. administrativni pragovi, agregacije), to može biti signal da su brojevi „namešteni“.
Intuitivno objašnjenje
Zamislite da analizirate broj glasova za određenu partiju po biračkim mestima. Kada izvučete prvu cifru svakog rezultata (npr. iz 348 → 3, iz 1023 → 1), očekivali biste da se sve cifre (od 1 do 9) pojavljuju otprilike jednako često, zar ne? Međutim, Benfordov zakon kaže suprotno: u većini prirodnih skupova brojeva, cifra 1 se pojavljuje kao vodeća oko 30% vremena, dok je, recimo, cifra 9 vodeća u manje od 5% slučajeva.
U manipulisanim podacima, ljudska intuicija često vodi do „uravnoteženih“, pa čak i previše uniformnih raspodela, što stvara odstupanja od Benfordovog zakona. Ako se ti obrasci pojave u brojevima glasova, sumnja na fabrikovanje rezultata postaje osnovana.
Teorijska osnova
Benfordov zakon definiše verovatnoću da se cifra \(d\) (od 1 do 9) javi kao prva cifra u prirodno nastalom numeričkom skupu: \(P(d) = \log_{10}(1 + \frac{1}{d})\)
Očekivane frekvencije prve cifre prema Benfordovom zakonu su:
- 1 → 30.1%
- 2 → 17.6%
- 3 → 12.5%
- …
- 9 → 4.6%
Analiza može uključiti i:
- 2BL (test druge cifre): raspored druge cifre
- MAD (eng. Mean Absolute Deviation): prosek odstupanja od očekivanih frekvencija
- χ² test: statistička značajnost razlika
Kritične vrednosti:
- Za MAD veće od 0.015 → moguće manipulacije
- Za χ² test, p-vrednost < 0.05 → značajna razlika
Bitno je napomenuti da Benfordov zakon nije primenjiv na sve skupove podataka. Potrebno je da brojevi:
- imaju širok raspon brojeva od jednocifrenih do višecifrenih (npr. 1, 14, 398, 6382, 37699, 1468900, itd.),
- nisu ograničeni administrativnim pragovima,
- nisu sabirani/zaokruživani u velikim agregatima.
Na Slici 1. data je ilustracija na osnovu simuliranih podataka analize prve cifre zasnovane na Benfordovom zakonu.

Stubićima je predstavljem empirijski raspored prve cifre, dok su očekivane frekvencije prema Benfordovom zakonu date crvenom linijom. Kako je p-vrednost Hi-kvadrat testa, 0,386 veća od 0,10 to se ne može odbaciti hipoteza da empirijski raspored prve cifre naših podataka je saglasan sa teorijskim rasporedom prema Benfordovom zakonu.
Tipovi manipulacije koje otkriva
Benfordov zakon je naročito efikasan u detekciji:
- Fabrikovanih rezultata: kada brojevi glasova ne proizilaze iz realnog procesa glasanja, već su „upisani odokativno“.
- Rukom kreiranih obrazaca: gde ljudski operateri pokušavaju da „balansiraju“ cifre, ali nesvesno remete prirodan raspored.
- Serijskog kopiranja rezultata sa modifikacijama
Benfordova analiza nije dovoljno jaka da ukaže na konkretno biračko mesto, ali jeste makro alat za detekciju sistematske anomalije u celom skupu podataka.
Primena u Excel-u i R-u
U Excel-u (ograničeno):
- Izdvojite prvu cifru: pomoću formula kao što je
=LEFT(A2,1) - Napravite frekvencijsku tabelu za cifre 1–9.
- Uporedite sa očekivanim procentima po Benfordovom zakonu.
- Ručno izračunajte MAD ili koristite χ² test.
U R-u (preporučeno):
library(benford.analysis)
# Pretpostavimo vektor sa brojem glasova po mestu
rezultati <- df$glasovi
bf <- benford(rezultati)
# Pregled statistike
summary(bf)
# Vizualizacija
plot(bf)
Ukoliko želite dublju analizu (druga cifra, MAD), R paket benford.analysis omogućava sve te opcije.
Realni primeri i reference
Jedna od najcitiranijih primena Benfordovog zakona u izbornom kontekstu je analiza iranskih predsedničkih izbora 2009. Mebane (2010) primenio je više testova cifara na zvanične rezultate i pronašao odstupanja od očekivanih raspodela, naročito u glasovima za Mahmuda Ahmadinedžada. Iako nije sam po sebi dokaz prevare, rezultat je ukazivao na visoku verovatnoću fabrikovanja podataka.
Referenca:
Mebane, W. R. (2010). Fraud in the 2009 Presidential election in Iran? Chance, 23(1), 6–15.
https://doi.org/10.1007/s00144-010-0003-4
Takođe, Benfordov zakon je korišćen u analizi rezultata izbora u SAD, Portoriku i Venecueli, ali uz mešovite rezultate. Ključno je znati kada je zakon primenjiv, kako se ne bi donosili pogrešni zaključci.
Teorijska validacija:
Pericchi, L. R., & Torres, D. (2011). Quick anomaly detection by the Newcomb–Benford Law, with applications to electoral processes data from the USA, Puerto Rico and Venezuela. Statistical Science, 26(4), 502–516. DOI: https://doi.org/10.1214/09-STS296
Zaključak
Benfordov zakon je koristan kao signalni indikator, naročito u situacijama gde postoji sumnja da su rezultati „uneti“, a ne dobijeni. Iako sam po sebi nije dovoljan kao dokaz izborne krađe, on predstavlja važan prvi korak ka identifikaciji anomalija. U realnom vremenu, moguće je koristiti ovu metodu čim se objave parcijalni rezultati, posebno ako se podaci objavljuju po biračkom mestu.