miercuri, 28 mai 2014

Exit Poll-urile: Între Ficţiune şi Realitate



În acest material analizez exit poll-urile de la alegerile pentru Parlamentul European, exit poll-uri care au stîrnit din nou controverse. Voi arăta că: 1) exit poll-urile care au avut cele mai mari erori de estimare au fost exit poll-uri fictive; 2) abaterile de estimare ale exit poll-urilor reale au fost mult mai mici şi mai puţin numeroase decît au lăsat-o să se înţeleagă diverse voci (interesate sau nu) din media. La final, schiţez o serie de explicaţii posibile pentru abaterile de estimare.

1. Exit poll-urile din 25 mai 2014: Care exit poll-uri?!
Încep cu o scurtă definiţie a exit poll-ului: sondajele la urne reprezintă un tip special de sondaj de opinie pe teme politice electorale care se realizează faţă-în-faţă în ziua alegerilor în rîndul votanţilor, la ieşirea din secţiile de votare. Cuvintele cheie sunt: sondaj care se realizează faţă-în-faţă la ieşirea din secţiile de votare. Potrivit legilor în vigoare, pentru a realiza exit poll-uri, institutele şi firmele de sondare au obligaţia de a obţine acreditări de la Biroul Electoral Central (BEC). Acreditarea este necesară pentru a putea avea operatori prezenţi chiar la ieşirea de la secţiile de votare (de exemplu, la ieşirea dintr-o sală de clasă a unei şcoli – sală de clasă care serveşte drept sediu al unei secţii de votare). Ca să înţelegem ce înseamnă un exit poll menţionez că în realizarea sa sunt implicaţi peste 300 de operatori de interviu în teren, pe toată durata votului, circa 50-60 de operatori de la call center-ul unde se centralizează datele din teritoriu. Acestora li se adaugă coordonatorii cercetării şi experţii care analizează datele. În schimb, pentru realizarea unui sondaj telefonic sunt necesari circa 40 de operatori de call center şi cîţiva experţi.



Numele tuturor institutelor acreditate pentru realizarea de exit poll-uri pentru alegeri sunt publicate pe site-ul instituţiei. Pentru alegerile din 25 mai 2014, conform datelor BEC, au avut acreditare la nivel NATIONAL doar următoarele firme/entitati:
1) CURS şi Avangarde, care au realizat exit poll pentru TVR;
2) Operations Research, care a realizat exit poll pentru Antena 3;
3) Asociaţia populară “Wilfried Martens,” care nu ştiu dacă şi pentru cine a realizat exit poll.

În ziua alegerilor, au fost însă 4 (patru) televiziuni care au prezentat rezultatele unor exit poll-uri: TVR (CURS & Avangarde), Antena 3 (Operations Research), Realitatea TV (cu firma Geopol) şi Romania TV (cu entitatea CSCI, condusă de un consilier al lui Victor Ponta). Comparînd cele de mai sus cu acreditările BEC rezultă că două exit poll-uri au fost fictive. Dintre acestea, unul dintre ele, CSCI a estimat pentru alianţa PSD-UNPR-PC un scor de 43% iar pentru Mircea Diaconu un scor de 4%. Eroarea de estimare în primul caz a fost de +5,4% iar în cazul lui MD de -2,92%.

Problema e că CSCI nu a avut totuşi acreditare BEC; ceea ce a fost prezentat drept exit poll nu a fost un exit poll. Se pare că CSCI a realizat un sondaj telefonic (CATI [Computer Assisted Telephone Interviewing], în limbaj de specialitate) în ziua votului. Şi Vasile Dancu cu IRES au realizat un sondaj telefonic în ziua votului pentru postul DIGI TV dar – absolut corect şi onest din punct de vedere profesional – Vasile Dancu a precizat faptul că nu este vorba de un exit poll ci de un sondaj CATI/telefonic.


Eroarea de estimare a asa-zisului exit poll CSCI  a fost şi cea mai mare. Mass media a preluat rapid cifra de 6% (5,4% de fapt) şi analiştii politici din studiourile unor televiziuni au atribuit această eroare chiar şi acelor institute care au făcut, într-adevăr, sondaje la urne. Ironia e că, pe parcursul zilei de 25 mai, cei mai acerbi critici ai exit poll-urilor au înroşit telefoanele institutelor care făceau exit poll-uri reale încercînd să afle “cum stă treaba.” Nu este exclus ca furia acestor critici să se datoreze şi faptului că partidele pe care le susţineau (nedeclarat) au obţinut performanţe sub aşteptări.

2. Abaterile de estimare în exit poll-urile REALE
Prezint în Tabelul 1 o analiza comparată a estimărilor exit poll-urilor realizate de CURS-Avangarde pentru TVR, Operations Research pentru Antena 3 şi datele de la BEC după centralizarea a 99.99% din secţiile de vot. (BEC-ul mai are de numărat voturile de la o singură secţie de votare şi face acest lucru de peste 20 de ore.) Am exclus din analiză exit poll-urile fictive şi sondajele telefonice din ziua votului.

Precizări importante: estimările din tabel sunt cele finale. În ziua alegerilor, exit poll-urile furnizează două estimări: la ora 21:00 sunt prezentate estimările parţiale. Ele corespund situaţiei din teren de la ora 19:00 – 19:30, cu două ore sau cu o oră jumătate înainte de închiderea urnelor. Estimările finale sunt prezentate în jurul orelor 22:30 şi ele corespund situaţiei din teren înregistrată la finalul votului (ora 21:00). În intervenţia mea de la TVR din ziua alegerilor, am precizat că estimările CURS-Avangarde de la ora 21:00 sunt cele parţiale şi că vom reveni cu estimările finale. Acestea din urmă au fost prezentate la TVR în jurul orei 22:30 (vezi aici, sub imagine, update-ul de la ora 22:30).  În treacăt, publicul larg dar şi aşa-zişii analişti tv ignoră distincţia dintre estimări parţiale şi finale. Măcar analiştii tv şi politicienii ar trebui aştepte estimările finale înainte de a începe să se pronunţe cu privire la rezultate.







Ce observăm din Tabelul 1? În ansamblu, performanţele CURS-Avangarde au fost mai bune decît cele obţinute de Operations Research. Cea mai mare abatere în cazul CURS-Avangarde a fost în cazul alianţei PSD-UNPR-PC şi a fost de +2,9%, în vreme ce la Operations Research abaterea a fost de 3,80%. Marja de eroare a exit poll-ului CURS-Avangarde a fost de +/-2,5% la un nivel de încredere de 95%.[i] Altfel spus, CURS-Avangarde au depăşit marja de eroare calculată cu…0,4%. În cazul lui Mircea Diaconu, noi (CURS-Avangarde) l-am sub-estimat cu 1,56% dar în marja de eroare! În rest, pentru toate celelalte partide şi candidaţi independenţi – luaţi individual – diferenţele de estimare s-au situat sub 1%. Priviţi cu atenţie Tabelul 1 şi judecaţi singuri acurateţea estimarilor, cu două zecimale.

Aşadar, aşa-zisele colosale erori ale exit poll-urilor de la alegerile europarlamentare din 2014 nu sunt nicidecum colosale şi – din punctul de vedere al teoriei statistice – sunt nesurprinzătoare. Mai exact, potrivit teoriei eşantionării, expresia “o marjă de eroare de +/- 2,5% la un nivel de încredere de 95%” înseamnă următorul lucru: dintre toate eşantioanele posibile care ar putea fi selectate, se admite faptul că în 5% dintre ele (i.e., 100%-95%), valoarea aproximată printr-o cercetare selectivă (i.e., pe un eşantion) poate să depăşească marja de eroare de +/-2,5%.

3. Posibile explicaţii pentru abaterile de estimare
Evident, ne-am fi dorit ca şi estmările scorului pentru PSD-UNPR-PC să se fi situat în marja de eroare. O să realizez o analiză pe secţii de votare de îndată ce BEC-ul şi/sau INS-ul vor face publice datele pe fiecare secţie de votare. O astfel de analiză presupune comparaţii între rezultatele oficiale obţinute în secţiile de votare din eşantionul nostru cu datele pe care le-am primit noi de la operatorii din teren în cursul zilei alegerilor europarlamentare. Pînă atunci, cu titlu provizoriu, semnalez următoarele surse majore de distorsiune:

1) Ponderea de circa 20% a refuzurilor de a răspunde operatorilor din teren. După referendumul privind demiterea lui Traian Băsescu din funcţia de Preşedinte al Romaniei din 2012, în exit poll-uri, atît noi cît şi alte institute ne-am confruntat cu o creştere importantă a refuzurilor de a răspunde la întrebările operatorilor de interviu.  Spre exemplu, la exit poll-ul realizat cu ocazia alegerilor generale din 2012 pentru B1TV, institutul TNS-CSOP a raportat de asemenea o pondere mare de refuzuri fapt ce a generat probabil o sub-estimare a scorului USL cu 4,85% în medie (vezi aici). Ponderea acestor refuzuri era în trecut de maxim 5%.  Aşa cum am mai spus cu alte ocazii, cred că această creştere se datorează mediatizării intense a unor presupuse abuzuri comise de procurorii care au investigat acuzaţiile de fraudă de la referendumul din 2012. Mediatizarea intensă a provocat teamă în rîndul unor cetăţeni iar acest lucru s-a tradus prin refuzul de a răspunde cum au votat, atunci cînd sunt întrebaţi de operatorii de interviu. Deşi centralizăm numărul de refuzuri, în afară de sex şi vîrsta aproximativă a celor care refuză să răspundă la exit poll, nu avem alte informaţii (nivel de şcolaritate, ocupaţie etc.) care ne-ar putea permite să modelăm statistic opţiunile de vot probabile ale acestor oameni.

2) Ponderea voturilor nule: la aceste alegeri, voturile nule au fost de 5,83%, semnificativ mai numeroase decît la alegerile europarlamentare din 2009. Există, fără îndoială, două tipuri de voturi nule: voturile nule in sensul de anulate intenţionat ori deliberat de către cetăţeni şi cele anulate “neintenţionat.” Cele nule ori anulate neintenţionat corespund situaţiilor în care din greşeală, confuzie, neînţelegere sau neştiinţă, unii votanţi pun ştampila greşit (în afara chenarului), votează mai mult de un partid/candidat etc. Oamenii aceştia cred sincer că au votat corect şi răspund operatorilor de interviu cu cine au votat. Votul lor însă va fi declarat nul din motive tehnice dar ei, votanţii, nu ştiu acest lucru atunci cînd răspund chestionarelor noastre. Evident, operatorii de interviu nu au de unde să ştie dacă cineva a votat corect sau nu.

Aştept însă datele oficiale de la BEC şi INS pentru a verifica distribuţia pe medii rezidenţiale a voturilor nule. În trecut, majoritatea voturilor nule proveneau din mediul rural unde este posibil ca să avem de-a face cu anulări ca urmare a unor greşeli neintenţionate comise de persoane vîrstnice sau cu nivele de şcolaritate redusă sau, din neatenţie etc. Dacă şi în acest an lucrurile vor sta la fel, este posibil ca o parte a distorsiunilor de estimare din dreptul alianţei PSD-UNPR-PC să se datoreze acestor voturi nule din zonele rurale cu primari PSD. Rămîne de văzut. (UPDATE: Autoritatile au dat publicitatii distributia voturilor nule pe medii rezidentiale. Circa 63% dintre voturile nule provin din mediul rural -- un fapt ce pare a confirma ipoteza avanasata mai sus.)

Aceştia sunt principalii doi factori care ar putea explica distorsiunea de estimare în cazul PSD-UNPR-PC. Acestor factori li se mai adaugă şi alţii cum ar fi dificultăţile administrative întîlnite în teren. În ciuda faptului că avem acreditare BEC, după mai bine de 10 ani de cînd se realizează exit poll-uri încă ne mai confruntăm cu dificultăţi în a intra în sediile secţiilor de votare datorită unor şefi de secţii de votare care, trezindu-se brusc şi temporar într-o poziţie de autoritate, fac pe importanţii şi refuză accesul operatorilor nostri. Astfel de situaţii sunt pînă la urmă rezolvate cu ajutorul BEJ-urilor sau prin apelul la organizaţii non-guvernamentale care monitorizează alegerile (de ex., Asociaţia Pro-Democraţia, care ne-a ajutat în rezolvarea unor astfel de probleme). În unele cazuri, se pierde însă timp cu rezolvarea situaţiilor problematice iar acest lucru afectează selecţia votanţilor şi numărul de interviuri realizate în unele secţii de votare.

Nu doresc să speculez cu privire la aşa-zisul rol al maşinăriei PSD-UNPR-PC în susţinerea lui Mircea Diaconu şi posibilele efecte asupra estimărilor din exit poll. Am informaţii anecdotice din teren de la operatori dar – fiind vorba de episoade punctuale ori etnografice – nu pot generaliza. Neavînd acces la voturile anulate, nu pot nici să mă pronunţ cu privire la ipoteza lansată de unii observatori ai vieţii politice potrivit cărora un număr semnificativ de oameni au pus ştampila atît pe alianţa PSD-UNPR-PC cît şi pe Mircea Diaconu.

4. În loc de concluzii
Aşadar, colosalele erori ale exit poll-urilor invocate de “analiştii” cu o prezenţă ubicuuă pe micile ecrane nu au fost nici pe departe colosale. Mai mult, cea mai mare eroare a fost comisă de un exit poll fictiv, după cum am arătat anterior. Institutele care au realizat exit poll-uri reale (CURS şi Avangarde pentru TVR şi Operations Research pentru Antena 3) au avut abateri de estimare însă amploarea lor este mai redusă. CURS-Avangarde au depăşit cu 0,4% marja de eroare de +/-2,5% într-un singur caz (din 23 de partide si candidati). Estimarea finală CURS-Avangarde situa alianţa PSD-PUNR-PC la 40,5% (versus 37,6%). În rest, toate estimările s-au situat în marja de eroare şi în cele mai multe cazuri abaterile au fost de sub 1%.

Mai mult, depăşirea marjei de eroare este un fenomen nesurprinzător în teoria eşantionării. Sondajele de opinie şi cele la ieşire de la urne operează în termeni de probabilităţi, cu intervale de încredere, marjă de eroare etc. Numai proştii operează cu certitudini şi îşi închipuie că estimarea rezultatelor prin exit poll-uri este echivalentul măsurării cu şublerul. Nu insist aici dar există numeroase exemple de abateri de estimare mai mari în exit poll-uri din ţări precum SUA, Franţa, Italia, care au o experienţă mult mai îndelungată în acest domeniu. E drept, acolo analiştii politici sunt mai profesionişti decît la noi şi nu sar să linşeze mediatic institutele de sondare.

Abaterile de estimare dau dureri de cap şi frustrări în primul rînd celor care sunt implicaţi în mod onest în realizarea de exit poll-uri. Normal că mi-aş fi dorit să nu existe nici o depăşire, fie ea şi cu doar 0,4%, a marjei de eroare dar s-a întîmplat şi am încercat să (imi) explic cum. Am invocat doi factori care, în opinia mea, au generat distorsiuni majore: refuzurile numeroase de a răspunde la întrebările operatorilor de la exit poll şi voturile nule. Fără îndoială, sunt şi alţi factori obiectivi (de ex., operatori în teren, probleme de selecţie etc.) care au generat distorsiuni şi sper să îi identific de îndată ce voi avea datele oficiale pe fiecare secţie de votare de la BEC sau INS.

Ce e, totuşi, de făcut? Întrevăd cel puţin trei soluţii: 1) să facă exit poll-uri analiştii tv şi să ne spună ei cum au votat oamenii; 2) să încercăm să corectăm eventualele erori tehnice în realizarea exit poll-urilor; 3) să se realizeze un exit poll “oficial,” pe un eşantion de secţii de votare, exit poll coordonat de INS şi BEC. Prima soluţie nu e fezabilă deşi m-aş distra copios urmărindu-i pe “experţii” televiziunilor ghicind rezultatele alegerilor. A doua soluţie ar viza în primul rînd diminuarea ratei de refuzuri de a răspunde; nu este uşor de făcut şi probabil ar necesita o campanie masivă de informare a cetăţenilor. A treia soluţie, practicată şi în alte ţări, implică următoarele lucruri: selectarea unui eşantion de circa 900 - 1.000 de secţii de votare de către BEC şi INS, la nivel naţional. În secţiile cuprinse în acest eşantion, se vor număra pe parcursul zilei voturile obţinute de candidaţi şi partide; rezultatele culese pînă la ora 20:00 vor fi apoi anunţate public de BEC la închiderea urnelor, ora 21:00. Şi aceste rezultate vor fi tot nişte estimări dar ele nu vor mai fi distorsionate de fenomene precum refuzul de a răspunde sau voturi anulate. Institutele de sondare vor continua să realizeze exit poll-uri dar nu pentru a estima voturile ori clasamentul alegerilor ci pentru a prezenta profilele socio-demografice ale alegătorilor – un lucru care nu poate fi evidenţiat decît prin intervievarea votanţilor. Pentru implementarea celei de a treia soluţii este însă nevoie de voinţă politică şi mai ales de încredere. Mi-e teamă însă că atît voinţa politică cît şi încrederea necesare unei astfel de întreprinderi lipsesc cu desăvîrşire. Mai mult, cred că politicienii nostri s-ar lupta crîncen pentru a obţine controlul asupra instituţiilor însărcinate cu realizarea unui exit poll “oficial.”

Vom rămîne deocamdată tot la exit poll-urile clasice. Dincolo de eforturile de perfecţionare depuse de institute oneste, este însă necesară şi curăţarea spaţiului public de impostura falselor exit poll-uri. Aici ar trebui să se pronunţe în primul rînd organizaţiile profesionale de profil ale sociologilor şi sper că astfel de poziţii nu vor întîrzia să apară.


[i] Calculul marjei de eroare de mai sus ia în considerare factori care ţin de design-ul eşantionului, ponderea  refuzurilor etc. Ea este mai mare decît marja teoretică de eroare calculată pentru un eşantion simplu aleator de un anumit volum şi presupunind dispersie maximă. În opinia unor statisticieni şi pollsters americani, marja de eroare a unui exit poll poate fi mai mare chiar decît a unor sondaje clasice datorită tipului de eşantion (cluster) şi a problemelor practice de selecţie şi intervievare a votanţilor. Pentru o sinteză, recomand celor interesaţi articolul lui Nate Silver, pe care mi l-a semnalat prietenul Dan Costinescu: http://fivethirtyeight.com/features/ten-reasons-why-you-should-ignore-exit/

Cei care vor să aprofundeze chestiunea vor găsi în articolul respectiv numeroase trimiteri la alte surse utile (vezi http://www.pollster.com/faq/faq_questions_about_exit_polls_1.php).


5 comentarii:

  1. Alin Teodorescu28 mai 2014, 02:26

    Exceptional, Cataline ! Si felicitari pentru munca depusa. Cine stie ce inseamna un EP stie ce rezultate bune ati obtinut.

    RăspundețiȘtergere
    Răspunsuri
    1. @Alin Teodorescu: Multumesc mult! A propos de exit poll-uri, iata situatia din Italia de duminica, 25 mai 2014:
      PD: Exit polls: 29.5% si 32.5% -> REZULTAT real: cca. 40%
      Beppe Grillo M5S: Exit polls: 25%-28% -> REZULTAT real 21%
      Forza Italia: Exit Polls: 18%-20% -> REZULTAT real: 16.8%

      Ștergere
  2. eroarea a parut mare pentru ca au fost afisate procentele de la ora 18:00. mai bine asteptau inca 3 ore sa vina si cele de la 21:00.

    RăspundețiȘtergere
  3. @Anonim: din pacate, asta e practica in toate tarile. Televizunile anunta primele estimari (alea bazate pe situatia de la 19:00) chiar la inchiderea urnelor. Asa cum spuneam, macar analistii si politicienii ar trebui sa se manfeste mai reticient si sa astepte estimarile finale.

    RăspundețiȘtergere
    Răspunsuri
    1. Trebuie gasita o solutie de breasla - cumva, astfel incat in astfel de momente cheie ale masurarii (prin interesul media s al populatiei fata de sondaje) sa fie cat mai mult sociologi pe televiziuni; si nu orice fel de sociologi, ci dintre cei care stiu ce e cu astfel de cercetari. Adica, la fiecare sobor de 4 comentatori sa fie un sociolog care stie tehnicăraie din asta de masurare cantitativa.

      Ștergere