Wizualizacja – ogólna nazwa graficznych metod tworzenia, analizy i przekazywania informacji. Za pomocą środków wizualnych ludzie wymieniają się zarówno ideami abstrakcyjnymi, jak i komunikatami mającymi bezpośrednie oparcie w rzeczywistości. W dzisiejszych czasach wizualizacja wpływa na sposób prowadzenia badań naukowych, jest rutynowo wykorzystywana w dyscyplinach technicznych i medycynie, służy celom dydaktycznym, a także bywa pojmowana jako środek wyrazu artystycznego.
Wizualizacja danych to zagadnienie ich obrazowego przedstawienia. Dane są rozumiane jako „informacje, które zostały zestawione w pewnej schematycznej formie, np. zmiennych lub współrzędnych”. Według Friedmana jej głównym celem jest skuteczny i zrozumiały przekaz zawartych w nich treści. Jednym z najczęściej popełnianych błędów bywa przykładanie zbytniej uwagi do formy komunikatu, który przestaje spełniać swoje zasadnicze zadanie. Odmienny pogląd na sens tej dziedziny wyrażają Fernanda Viegas i Martin M. Wattenberg, akcentując rolę pozyskania uwagi potencjalnego odbiorcy. Odpowiedni sposób przedstawienia danych pozwala na poprawne i szybkie zrozumienie zależności opisanych przez dane. Nieodpowiedni sposób prezentacji prowadzi do powstawania celowych lub przypadkowych zniekształceń w postrzeganiu zależności obecnych w danych.
Współczesne znaczenia słowa “statystyka”:
Zjawisko/procesy masowe - badaniu podlega duża liczba jednostek. Dzielą się na:
Statystyka - dyscyplina naukowa - podział:
Zbiorowość statystyczna, populacja statystyczna: zbiór obiektów podlegających badaniu statystycznemu. Tworzą je jednostki podobne do siebie, logicznie powiązane, lecz nie identyczne. Mają pewne cechy wspólne oraz pewne właściwości pozwalające je różnicować.
Jednostka statystyczna: każdy z elementów zbiorowości statystycznej.
Cechy statystyczne
Cechy stałe
Cechy zmienne
Ważne:
Przykład: studenci UWM mają legitymację wydaną przez UWM. Studenci wszystkich uczelni w Polsce mają legitymacje wydane przez różne szkoły.
Podział cech zmiennych:
Przykład: zbiorowość studentów. Cechy mierzalne: wiek, waga, wzrost, liczba nieobecności. Cechy niemierzalne: płeć, kolor oczu, kierunek studiów.
Często ze względów praktycznych cechom niemierzalnym przypisywane są kody liczbowe. Nie należy ich jednak mylić z cechami mierzalnymi. Np. 1 - wykształcenie podstawowe, 2 - wykształcenie zasadnicze, itd…
Podział cech mierzalnych:
Cechy skokowe zazwyczaj mają wartości całkowite choć nie zawsze jest to wymagane np. liczba etatów w firmie (z uwzględnieniem części etatów).
Rodzaje badań statystycznych
Analiza danych zastanych – proces przetwarzania danych w celu uzyskania na ich podstawie użytecznych informacji i wniosków. W zależności od rodzaju danych i stawianych problemów, może to oznaczać użycie metod statystycznych, eksploracyjnych i innych.
Korzystanie z danych zastanych jest przykładem badań niereaktywnych - metod badań zachowań społecznych, które nie wpływają na te zachowania. Dane takie to: dokumenty, archiwa, sprawozdania, kroniki, spisy ludności, księgi parafialne, dzienniki, pamiętniki, blogi internetowe, audio-pamiętniki, archiwa historii mówionej i inne. (Wikipedia)
Dane zastane możemy podzielić ze względu na (Makowska red. 2013):
Darmowa repozytoria danych:
Przydatne strony:
Koncepcja czyszczenia danych (ang. tidy data):
Idealne dane są zaprezentowane w tabeli:
Imię | Wiek | Wzrost | Kolor oczu |
---|---|---|---|
Adam | 26 | 167 | Brązowe |
Sylwia | 34 | 164 | Piwne |
Tomasz | 42 | 183 | Niebieskie |
Na co powinniśmy zwrócić uwagę?
Imię | Wiek | Wzrost | Brązowe | Niebieskie | Piwne |
---|---|---|---|---|---|
Adam | 26 | 167 | 1 | 0 | 0 |
Sylwia | 34 | 164 | 0 | 0 | 1 |
Tomasz | 42 | 183 | 0 | 1 | 0 |
Nagłowki kolumn muszą odpowiadać cechom, a nie wartościom zmiennych.
Edward Tufte, prof z Yale, https://www.edwardtufte.com/
Prezentuj dane “na bogato”.
Nie ukrywaj danych, pokazuj prawdę.
Nie używaj wykresów śmieciowych.
Pokazuj zmienność danych, a nie projektuj jej.
Wykres ma posiadać jak najmniejszy współczynnik kłamstwa (lie-factor).
Powerpoint to zło!
[Tufte, 1991] Edward Tufte, The Visual Display of Quantitative Information, Second Edition, Graphics Press, USA, 1991, p. 57 – 69.
\[\operatorname{LieFactor} = \frac{\text{rozmiar efektu widocznego na wykresie}}{\text{rozmiar efektu wynikającego z danych}}\]
\[\text{rozmiar efektu} = \frac{|\text{druga wartość}-\text{pierwsza wartość}|}{\text{pierwsza wartość}}\]
\[\operatorname{LieFactor} = \frac{\frac{5.3-0.6}{0.6}}{\frac{27.5-18}{18}} \approx 14.8\]