2. Model konačne mešavine – Teorijska osnova MKM pristupa

Reading Time: 4 minutes

2.1 Intuitivna motivacija: Latentne klase u izbornim podacima

Polazna ideja modela konačne mešavine (MKM) (eng. finite mixture model – FMM) jeste da posmatrani parovi podataka po biračkom mestu, izlaznost \(t_i \in [0,1]\) i udeo glasova za pobednika \(v_i \in [0,1]\), ne potiču iz jednog homogenog procesa, već iz kombinacije više latentnih procesa (klasa). U „normalnim“ uslovima, većina mesta reflektuje regularno političko ponašanje uz uobičajenu heterogenost. Kada postoje manipulacije, javlja se dodatna komponenta (ili više njih) čije karakteristike (npr. visoka izlaznost zajedno sa nesrazmerno visokim udelom glasova za pobednika) odstupaju od regularnog obrasca. Upravo takav konceptualni okvir sa latentnim klasama temelj je Mebaneovog pristupa, ali i opšte teorije modela konačnih mešavina u statistici (McLachlan & Peel, 2000).

U MKM-u svako biračko mesto ima verovatnoće pripadnosti različitim klasama, od kojih se neke tumače kao regularne, a druge kao „sumnjive“, što omogućava meko (probabilističko) umesto binarnog etiketiranja. Ovakvo „mešovito“ gledanje posebno je korisno u izbornoj forenzici, jer realna manipulacija retko kada pogađa sva mesta jednako ili ostavlja savršeno oštre granice između „normalnog“ i „neregularnog“ (Klimek, Yegorov, Hanel, & Thurner, 2012).

2.2 Formalna specifikacija: Zakon verovatnoće mešavine i funkcija verodostojnosti

Neka su \( \{(t_i,v_i)\}^n_{i=1}\) observacije na nivou \(n\) biračkih mesta. Pretpostavimo postojanje \(K\) latentnih klasa sa ponderima \(\pi_1, …, \pi_K, \quad \pi_k \ge 0, \quad \sum_k \pi_k = 1\). Zakon verovatnoće mešavine je

\(f(t_i, v_i | \Theta) = \sum_{k=1}^K \pi_k f_k(t_i, v_i | \theta_k)\),

gde \(\theta_k\) parametrišu klasu \(k\) (npr. sredine i kovarijanse ako se radi o transformisanim normalnim komponentama). Funkcija verodostojnosti uzorka je

\(L(\Theta) = \prod_{i=1}^n \sum_{k=1}^K \pi_k f_k(t_i, v_i | \theta_k)\).

U praksi je korisno raditi sa log-verodostojnošću \(\ell(\Theta) = \sum_i \log [\sum_k \pi_k f_k(\cdot)]\). Za modeliranje \((t, v)\) parova česte su dve strategije: (i) modeliranje u originalnoj skali putem dvodimenzionalnih beta rasporeda ili kopula-konstrukcija; (ii) logit transformacije \(x=\text{logit}(t), \quad y=\text{logit}(v)\) i Gausove komponente u \((x,y)\)-prostoru radi jednostavnije parametarske specifikacije (McLachlan & Peel, 2000; Fraley & Raftery, 2002).

2.3 Ocena parametara: OM algoritam i svojstva

Maksimizacija \(\ell(\Theta)\) otežana je sumom unutar logaritma. Standardno rešenje je OM (Očekivanje-Maksimizacija) (eng. EM – Expectations-Maximisation) algoritam (Dempster, Laird & Rubin, 1977). U O-koraku izračunavaju se odgovornosti (posteriorne verovatnoće pripadnosti) \(\gamma_{ik}\):

\(\gamma_{ik} = \frac{\pi_k f_k(t_i, v_i | \theta_k)}{\sum_{j=1}^K \pi_j f_j(t_i, v_i | \theta_j)}\)

U M-koraku se dobijene \(\gamma_{ik}\) koriste kao ponderi za ažuriranje \(\pi_k\) i \(\theta_k\) maksimizacijom očekivanog kompletnog log-likelihuda. OM konvergira monotono ka stacionarnoj tački, ali ne nužno i ka globalnom maksimumu, pa je inicijalizacija (npr. više nasumičnih startova, k-means, hijerarhijsko grupisanje) i dijagnostika konvergencije od presudnog značaja (Redner & Walker, 1984; McLachlan & Peel, 2000).

2.4 Posteriorne verovatnoće i meko dodeljivanje

Vektor \((\gamma_{i1}, …, \gamma_{iK})\) omogućava:

Meko grupisanje mesta (npr. „67% biračkih mesta pokazuju obrazac inflacije izlaznosti, odn. punjenja glasačke kutije“),
izračunavanje očekivanih agregata po klasama (npr. očekivan broj glasova u „sumnjivim“ klasama),
kartografske i druge vizuelizacije rizika (npr. toplotne mape ex ante sumnjivih područja).
Za operativne izvode često se koristi MAP dodela \(k^i=\text{arg⁡max}_k \gamma_{ik}\), ali je u forenzičkom kontekstu poželjno zadržati pune \(\gamma\)-vrednosti radi izražavanja nesigurnosti i izbegavanja lažne preciznosti (Fraley & Raftery, 2002).

2.5 Izbor broja komponenti i princip jednostavnosti modela

Odabir \(K\) i strukture kovarijanse komponenti balansira prikladnost i princip jednostavnosti modela (eng. parsimonious model). “Parsimoniozni” model je jednostavan, efikasan model koji objašnjava podatke koristeći što je moguće manje parametara ili promenljivih, uravnotežujući objašnjavajuću moć sa jednostavnošću, slično kao što Okamova britva sugeriše izbor najjednostavnijeg objašnjenja. Klasični kriterijumi su AIC/BIC, a u analizama grupisanja zasnovanim na mešavinama često se koristi ICL princip (eng. Integrated Completed Likelihood), koji uvodi penalizaciju i za neodlučnost klasifikacije, te preferira „čistije“ razdvojene klase (Biernacki, Celeux, & Govaert, 2000). “Parsimonijske” hijerarhije Gaussovih kovarijansi (ograničenja na zapreminu/oblik/orijentaciju) pomažu stabilnost ocene i interpretabilnost kada su podaci ograničeni (Fraley & Raftery, 2002).

2.6 Od zakona verovatnoće do forenzike: Kvantifikacija „sumnjivog“ doprinosa

Nakon ocene \(\gamma_{ik}\) bilo koji agregat može se raščlaniti po klasama. Za izborne podatke posebno je važna kvantifikacija doprinosa sumnjivih klasa u glasovima pobednika. Ako je \(w_i\) broj glasova pobednika na mestu \(i\) i \(S \subset {1, …, K}\) skup klasa koje se tumače kao neregularne, dobijamo

\(\text{Udeo sumnjivih glasova} = \frac{\sum_{i=1}^n w_i \sum_{k \in S} \gamma_{ik}}{\sum_{i=1}^n w_i}\).

Ovaj izraz je opšti i ne zavisi od konkretne parametrizacije \(f_k(\cdot)\). U Mebaneovom pristupu dalje se operacionalizuje kroz specifične klase povezane sa obrascima priraštaja prevare (eng. incremental fraud ili ballot stuffing) i ekstremne prevare (eng. extreme fraud) (videti naredno poglavlje), ali je ključna poenta da MKM prirodno pruža mehanizam pondera za merenje obima anormalnog procesa.

2.7 Veza sa izbornim modelima i drugim indikatorima

Parametarski modeli izborne neregularnosti motivišu funkcionalne oblike komponenti u Mebaneovoj specifikaciji; MKM ih povezuje u jedinstven okvir koji simultano razdvaja regularne i različite tipove neregularnih mehanizama. Istovremeno, u literaturi postoji široka rasprava o dijagnostičkim testovima zasnovanim na ciframa (npr. Benfordovi testovi): konsenzus je da takvi testovi mogu služiti kao „crvene zastavice“, ali ne i kao direktan dokaz prevare bez kontekstualizacije i dodatnog modeliranja (Deckert, Myagkov, & Ordeshook, 2011). Noviji radovi naglašavaju kombinovanje više metoda i validaciju na nezavisnim izvorima/izborima (Agyemang, Nortey, Minkah, & Asah-Asante, 2023).

2.8 Napomene za primenu ovih modela

U praksi se MKM za \((t,v)\) može primeniti u R-u (npr. preko mclust paketa ili sopstvene OM rutine na logit-transformisanim podacima). Preporuke su da uradi:

standardizacija/transformacije pre procene radi stabilnosti numeričkih rezultata;
višestruki startovi OM-a i poređenje modela preko BIC/ICL kriterijuma;
izveštavanje kako mekih \(\gamma_{ik}\) tako i MAP dodela;
analize osetljivosti: promena \(K\), parametarske forme komponenti, robustnost na isključivanje nestandardni mesta;
eksplicitno odvajanje ocene (statistika) i interpretacije (forenzika+konkretni kontekst i nezavisni dokazi).

Ovaj teorijski okvir čini bazu za Mebaneovu operacionalizaciju u narednom poglavlju, gde će latentne komponente dobiti specifična forenzička tumačenja (bez prevare, priraštaj prevare, ekstremna prevara) i gde će udeo sumnjivih glasova biti direktno povezan sa ishodom izbora.

Forenzika izbora