Rafal Kulik Rafal Kulik
1983
BLOG

Zanim krzykniesz sfałszowali, cz. I

Rafal Kulik Rafal Kulik Nauka Obserwuj temat Obserwuj notkę 45

Na Salonie i w mediach pojawiają się różnego rodzaju analizy ekspertów i “ekspertów” dotyczące sondaży wyborczych. Bazując na sondażach i końcowych wynikach poprzednich wyborów, wielu komentatorów konkluduje: “Firmy sondażowe fałszują”.

Na przykład, kilka dni temu ekspert Krajewski pyta na niezalezna.pl:

Dlaczego raz PiS ma 42, a raz 34 procent poparcia? Czy to oszustwo?

Po czym zaczyna: “To raczej manipulacja niż oszustwo.(…)”

Ja rozumiem, że dla czytelników owego medium musi coś być o manipulacjach i oszustwach, ale 3 paragrafy wyżej ekspert Krajewski pisze o błędzie 4%, tak więc fluktuacja plus/minus 4% jest jak nakbardziej wytłumaczalna statystycznie.

 

W tej i następnej notce postaram się przystępnie wytłumaczyć, skąd biorą się błędy w sondażach. Oczywiście, każda firma może manipulować, ale  aby to udowodnić trzeba by mieć wgląd w ich metodologię.

Do dzieła. Każde szacowanie obarczone jest błędem. Zazwyczaj jest to błąd średniokwadratowy, który składa się z dwóch części: wariancji (nazwijmy to umownie “błędem wynikającym z losowości”) i obciążenia. Dla sondaży konstrukcja estymatora gwarantuje brak obciążenia, tak więc w przypadku reprezentatywności próbki jedyne co nam pozostaje to martwienie się o wariancję. O tym w tej notce, druga notka będzie o skali błędów wynikających z niereprezentatywności.

Skąd się bierze te magiczne 3%? Jeżeli mamy prosty eksperyment, gdzie badany ma dwie odpowiedzi do wyboru (PO/PiS), to przy losowaniu 1000 osób, liczba która odpowiedziała « PiS » podlega rozkładowi dwumianowemu, dla którego odchylenie standardowe wynosi (po przeskalowaniu do proporcji) sqrt(p*(1-p)/n), gdzie p jest prawdziwym procentem głosujących na PiS. Tej wartości nie znamy, jednak maksymalna wartość odchylenia standardowego jest osiągana dla p=1/2. Następnie stosujemy aproksymację normalną i dostajemy « błąd losowości« 

sqrt(1/(4n))*1.96

gdzie 1.96 jest kwantylem rozkładu normalnego dla 95% przedziału ufności. Biorąc n=1000 dostajemy około 3 procent.

Zobaczmy te 3% w akcji. Losuję 1000 osób z populacji, gdzie 70% chce głosować na PiS. Powtarzam to 10000 razy. Za każdym razem estymuję p. Końcowe wyniki przedstawiam w postaci histogramu (link ponizej, zanim naucze sie wstawiac pliki graficzne na Salon).

http://c81i.imgup.net/wybory36f2.jpeg

 

Co widzimy : histogram jest scentrowany w okolicach 0.7 (tak jak powinno być), 95% przedział ufności dla metody Monte Carlo wynosi (0.672,0.728) czyli nawet trochę mniej niż magiczne 3%.

No dobrze, ale przecież nie wszyscy odpowiedzą, bo się boją/wahają/cokolwiek.

Następny eksperyment. Próbka 1100 osób, 1000 odpowiada PiS/PO, 100 nie odpowiada. Jak rozdysponować te 100 głosów?

  • proporcjonalnie, tzn., jeżeli w mojej próbce 700 z 1000 mówi « PiS«, to 60 ze 100 także przypisuję PiSowi. To nie wpłynie na szacowanie.
  • « Fifty-fifty« - 50 osób ze 100 na PiS, 50 na PO.

Efekty tej ostatniej metody na rysunku po prawej. Co widzimy? Wykres przesuwa się w lewo, czyli niedoszacowuje PiS. 95% przedział ufności wychodzi (0.656,0.707), czyli prawdziwe 0.7 jest prawie na granicy. Przez złe rozdysponowanie głosów nie doszacowaliśmy PiSu na 2%.

W następnym odcinku o błędach, które trudniej kontrolować, czyli obciążenie wynikające z niereprezentatywności.

 

Ten wpis zakończę krótkim komentarzem na temat GfK. Firma ta podaje błędy w granicach 4-5%. Bierze się to stąd, że stosują oni metodę stratified sampling, a “błąd losowości” nie liczą ze wzoru na « 3%«, a raczej estymują metodą bootstrap

 

 

 

 

 

 

 

 

  

Rafal Kulik
O mnie Rafal Kulik

Nowości od blogera

Komentarze

Inne tematy w dziale Technologie