Wizualizacja danych
- Wykład 3

Czym zajmuje się wizualizacja danych?

Test racjonalnego myślenia

  • Jeśli 5 maszyn w ciągu 5 minut produkuje 5 urządzeń, ile czasu zajmie 100 maszynom zrobienie 100 urządzeń?
  • Na stawie rozrasta się kępa lilii wodnych. Codziennie kępa staje się dwukrotnie większa. Jeśli zarośnięcie całego stawu zajmie liliom 48 dni, to ile dni potrzeba, żeby zarosły połowę stawu?
  • Kij bejsbolowy i piłka kosztują razem 1 dolar i 10 centów. Kij kosztuje o dolara więcej niż piłka. Ile kosztuje piłka?

Wizualizacja – ogólna nazwa graficznych metod tworzenia, analizy i przekazywania informacji. Za pomocą środków wizualnych ludzie wymieniają się zarówno ideami abstrakcyjnymi, jak i komunikatami mającymi bezpośrednie oparcie w rzeczywistości. W dzisiejszych czasach wizualizacja wpływa na sposób prowadzenia badań naukowych, jest rutynowo wykorzystywana w dyscyplinach technicznych i medycynie, służy celom dydaktycznym, a także bywa pojmowana jako środek wyrazu artystycznego.

Wizualizacja danych to zagadnienie ich obrazowego przedstawienia. Dane są rozumiane jako „informacje, które zostały zestawione w pewnej schematycznej formie, np. zmiennych lub współrzędnych”. Według Friedmana jej głównym celem jest skuteczny i zrozumiały przekaz zawartych w nich treści. Jednym z najczęściej popełnianych błędów bywa przykładanie zbytniej uwagi do formy komunikatu, który przestaje spełniać swoje zasadnicze zadanie. Odmienny pogląd na sens tej dziedziny wyrażają Fernanda Viegas i Martin M. Wattenberg, akcentując rolę pozyskania uwagi potencjalnego odbiorcy. Odpowiedni sposób przedstawienia danych pozwala na poprawne i szybkie zrozumienie zależności opisanych przez dane. Nieodpowiedni sposób prezentacji prowadzi do powstawania celowych lub przypadkowych zniekształceń w postrzeganiu zależności obecnych w danych.

Analiza danych - podstawowe pojęcia

Analiza danych - podstawowe pojęcia

Współczesne znaczenia słowa “statystyka”:

  • zbiór danych liczbowych pokazujący kształtowanie procesów i zjawisk np. statystyka ludności.
  • wszelkie czynności związane z gromadzeniem i opracowywaniem danych liczbowych np. statystyka pewnego problemu dokonywana przez GUS.
  • charakterystyki liczbowe np. statystyki próby np. średnia arytmetyczna, odchylenie standardowe itp.
  • dyscyplina naukowa - nauka o metodach badania zjawisk masowych.

Zjawisko/procesy masowe - badaniu podlega duża liczba jednostek. Dzielą się na:

  • gospodarcze (np. produkcja, konsumpcja, usługi reklama),
  • społeczne (np. wypadki drogowe, poglądy polityczne),
  • demograficzne (np. urodzenia, starzenie, migracje).

Statystyka - dyscyplina naukowa - podział:

  • statystyka opisowa - zajmuje się sprawami związanymi z gromadzeniem, prezentacją, analizą i interpretacją danych liczbowych. Obserwacja obejmuje całą badaną zbiorowość.
  • statystyka matematyczna - uogólnienie wyników badania części zbiorowości (próby) na całą zbiorowość.

Zbiorowość statystyczna, populacja statystyczna: zbiór obiektów podlegających badaniu statystycznemu. Tworzą je jednostki podobne do siebie, logicznie powiązane, lecz nie identyczne. Mają pewne cechy wspólne oraz pewne właściwości pozwalające je różnicować.

  • przykłady:
    • badanie wzrostu Polaków - mieszkańcy Polski
    • poziom nauczania w szkołach woj. warmińsko-mazurskiego - szkoły woj. warmińsko-mazurskiego.
  • podział:
    • zbiorowość/populacja generalna - obejmuje całość,
    • zbiorowość/populacja próbna (próba) - obejmuje część populacji.

Jednostka statystyczna: każdy z elementów zbiorowości statystycznej.

  • przykłady:
    • studenci UWM - student UWM
    • mieszkańcy Polski - każda osoba mieszkająca w Polsce
    • maszyny produkowane w fabryce - każda maszyna

Cechy statystyczne

  • właściwości charakteryzujące jednostki statystyczne w danej zbiorowości statystycznej.
  • dzielimy je na stałe i zmienne.

Cechy stałe

  • takie właściwości, które są wspólne wszystkim jednostkom danej zbiorowości statystycznej.
  • podział:
    • rzeczowe - kto lub co jest przedmiotem badania statystycznego,
    • czasowe - kiedy zostało przeprowadzone badanie lub jakiego okresu czasu dotyczy badanie,
    • przestrzenne - jakiego terytorium (miejsce lub obszar) dotyczy badanie.
  • przykład: studenci WMiI UWM w Olsztynie w roku akad. 2017/2018:
    • cecha rzeczowa: posiadanie legitymacji studenckiej,
    • cecha czasowa - studenci studiujący w roku akad. 2017/2018
    • cecha przestrzenna - miejsce: WMiI UWM w Olsztynie.

Cechy zmienne

  • właściwości różnicujące jednostki statystyczne w danej zbiorowości.
  • przykład: studenci UWM - cechy zmienne: wiek, płeć, rodzaj ukończonej szkoły średniej, kolor oczu, wzrost.

Ważne:

  • obserwacji podlegają tylko cechy zmienne,
  • cecha stała w jednej zbiorowości może być cechą zmienną w innej zbiorowości.

Przykład: studenci UWM mają legitymację wydaną przez UWM. Studenci wszystkich uczelni w Polsce mają legitymacje wydane przez różne szkoły.

Podział cech zmiennych:

  • cechy mierzalne (ilościowe) - można je wyrazić liczbą wraz z określoną jednostką miary.
  • cechy niemierzalne (jakościowe) - określane słownie, reprezentują pewne kategorie.

Przykład: zbiorowość studentów. Cechy mierzalne: wiek, waga, wzrost, liczba nieobecności. Cechy niemierzalne: płeć, kolor oczu, kierunek studiów.

Często ze względów praktycznych cechom niemierzalnym przypisywane są kody liczbowe. Nie należy ich jednak mylić z cechami mierzalnymi. Np. 1 - wykształcenie podstawowe, 2 - wykształcenie zasadnicze, itd…

Podział cech mierzalnych:

  • ciągłe - mogące przybrać każdą wartość z określonego przedziału, np. wzrost, wiek, powierzchnia mieszkania.
  • skokowe - mogące przyjmować konkretne (dyskretne) wartości liczbowe bez wartości pośrednich np. liczba osób w gospodarstwie domowych, liczba osób zatrudnionych w danej firmie.

Cechy skokowe zazwyczaj mają wartości całkowite choć nie zawsze jest to wymagane np. liczba etatów w firmie (z uwzględnieniem części etatów).

Rodzaje badań statystycznych

  • badanie pełne - obejmują wszystkie jednostki zbiorowości statystycznej.
    • spis statystyczny,
    • rejestracja bieżąca,
    • sprawozdawczość statystyczna.
  • badania częściowe - obserwowana jest część populacji. Przeprowadza się wtedy gdy badanie pełne jest niecelowe lub niemożliwe.
    • metoda monograficzna,
    • metoda reprezentacyjna.

Etapy badania statystycznego

  • projektowanie i organizacja badania: ustalenie celu, podmiotu, przedmiotu, zakresu, źródła i czasu trwania badania;
  • obserwacja statystyczna;
  • opracowanie materiału statystycznego: kontrola materiału statystycznego, grupowanie uzyskanych danych, prezentacja wyników danych;
  • analiza statystyczna.

Analiza danych zastanych

Analiza danych zastanych – proces przetwarzania danych w celu uzyskania na ich podstawie użytecznych informacji i wniosków. W zależności od rodzaju danych i stawianych problemów, może to oznaczać użycie metod statystycznych, eksploracyjnych i innych.

Korzystanie z danych zastanych jest przykładem badań niereaktywnych - metod badań zachowań społecznych, które nie wpływają na te zachowania. Dane takie to: dokumenty, archiwa, sprawozdania, kroniki, spisy ludności, księgi parafialne, dzienniki, pamiętniki, blogi internetowe, audio-pamiętniki, archiwa historii mówionej i inne. (Wikipedia)

Dane zastane możemy podzielić ze względu na (Makowska red. 2013):

  • Charakter: Ilościowe, Jakościowe
  • Formę: Dane opracowane, Dane surowe
  • Sposób powstania: Pierwotne, Wtórne
  • Dynamikę: Ciągła rejestracja zdarzeń, Rejestracja w interwałach czasowych, Rejestracja jednorazowa
  • Poziom obiektywizmu: Obiektywne, Subiektywne
  • Źródła pochodzenia: Dane publiczne, Dane prywatne

Skąd brać dane?

Darmowa repozytoria danych:

  • Bank danych lokalnych GUS - link
  • Otwarte dane - link
  • Bank Światowy - link

Przydatne strony:

“Tidy data”

Koncepcja

Koncepcja czyszczenia danych (ang. tidy data):

  • WICKHAM, Hadley . Tidy Data. Journal of Statistical Software, [S.l.], v. 59, Issue 10, p. 1 - 23, sep. 2014. ISSN 1548-7660. Available at: https://www.jstatsoft.org/v059/i10. Date accessed: 25 oct. 2018. doi:http://dx.doi.org/10.18637/jss.v059.i10.

Zasady “czystych danych”

Idealne dane są zaprezentowane w tabeli:

Imię Wiek Wzrost Kolor oczu
Adam 26 167 Brązowe
Sylwia 34 164 Piwne
Tomasz 42 183 Niebieskie

Na co powinniśmy zwrócić uwagę?

  • jedna obserwacja (jednostka statystyczna) = jeden wiersz w tabeli/macierzy/ramce danych
  • wartości danej cechy znajdują się w kolumnach
  • jeden typ/rodzaj obserwacji w jednej tabeli/macierzy/ramce danych

Przykłady nieuporządkowanych danych

Imię Wiek Wzrost Brązowe Niebieskie Piwne
Adam 26 167 1 0 0
Sylwia 34 164 0 0 1
Tomasz 42 183 0 1 0

Nagłowki kolumn muszą odpowiadać cechom, a nie wartościom zmiennych.

Jak tworzyć wykresy?

http://smarterpoland.pl/

Czy jest wzór
na “kłamstwo”?

Parę rad

Edward Tufte, prof z Yale, https://www.edwardtufte.com/

  1. Prezentuj dane “na bogato”.

  2. Nie ukrywaj danych, pokazuj prawdę.

  3. Nie używaj wykresów śmieciowych.

  4. Pokazuj zmienność danych, a nie projektuj jej.

  5. Wykres ma posiadać jak najmniejszy współczynnik kłamstwa (lie-factor).

  6. Powerpoint to zło!

Współczynnik kłamstwa

https://www.facebook.com/janinadaily/photos/a.1524649467770881/2836063543296127/?paipv=0&eav=AfbVIDx5un8ZOklKI9c-B1jP4nOoNa2QMmJmjoA-291JNNgM1L_NmoCGMS_mJOy4xjo&_rdr

  • stosunek efektu widocznego na wykresie do efektu wykazywanego przez dane, na podstawie których ten wykres narysowaliśmy.

https://infovis-wiki.net/wiki/Lie_Factor

Współczynnik kłamstwa

[Tufte, 1991] Edward Tufte, The Visual Display of Quantitative Information, Second Edition, Graphics Press, USA, 1991, p. 57 – 69.

Dokładny wzór na współczynnik kłamstwa

\[\operatorname{LieFactor} = \frac{\text{rozmiar efektu widocznego na wykresie}}{\text{rozmiar efektu wynikającego z danych}}\]

\[\text{rozmiar efektu} = \frac{|\text{druga wartość}-\text{pierwsza wartość}|}{\text{pierwsza wartość}}\]

Współczynnik kłamstwa

\[\operatorname{LieFactor} = \frac{\frac{5.3-0.6}{0.6}}{\frac{27.5-18}{18}} \approx 14.8\]

Jak tworzyć?

Bibliografia