45  Procesy w analizie danych

45.1 Wprowadzenie

Analiza danych to złożony proces, który wymaga systematycznego podejścia do przekształcania surowych danych w użyteczną wiedzę. W celu standaryzacji i usprawnienia tego procesu, specjaliści opracowali kilka metodologii, które służą jako mapy drogowe dla projektów analitycznych. Każda z tych metodologii ma swoje unikalne cechy, ale wszystkie dzielą wspólny cel: zapewnienie strukturalnego podejścia do odkrywania wzorców i generowania wartościowych wniosków z danych.

45.2 Proces KDD (Knowledge Discovery from Data)

Knowledge Discovery from Data to jedna z pierwszych formalnych metodologii analizy danych, która została opracowana w latach 90. XX wieku. KDD koncentruje się na całościowym procesie odkrywania wiedzy, traktując data mining jako jeden z etapów w szerszym kontekście.

45.2.1 Etapy procesu KDD

Proces KDD składa się z pięciu głównych etapów, które tworzą logiczną sekwencję działań prowadzących od surowych danych do użytecznej wiedzy:

  • Selekcja danych: określenie celu analizy i identyfikacja odpowiednich źródeł danych. Na tym etapie podejmujemy decyzje o tym, które dane są istotne dla naszego problemu badawczego i jakie ograniczenia mogą wpłynąć na analizę.

  • Preprocessing: wstępne przetwarzanie danych obejmujące czyszczenie, usuwanie duplikatów, radzenie sobie z brakującymi wartościami oraz przekształcanie danych do formatu odpowiedniego dla dalszej analizy. Ten etap często zajmuje najwięcej czasu w całym procesie.

  • Transformacja danych: przeprowadzanie bardziej zaawansowanych przekształceń, takich jak normalizacja, standaryzacja, agregacja czy tworzenie nowych zmiennych. Celem jest przygotowanie danych w formie optymalnej dla algorytmów data mining.

  • Data mining: stosowanie algorytmów uczenia maszynowego lub statystycznych metod analizy w celu odkrycia wzorców, reguł lub modeli w danych. To tutaj następuje właściwe “wydobycie” informacji z danych.

  • Interpretacja i ewaluacja: ocena jakości odkrytych wzorców, sprawdzenie ich przydatności biznesowej i prezentacja wyników w zrozumiałej formie dla użytkowników końcowych.

45.3 Proces SEMMA

SEMMA to metodologia opracowana przez firmę SAS, której nazwa stanowi akronim angielskich słów: Sample, Explore, Modify, Model, Assess. Proces ten został zaprojektowany z myślą o praktycznych zastosowaniach biznesowych i charakteryzuje się dużą elastycznością.

45.3.1 Etapy procesu SEMMA

Proces SEMMA składa się z pięciu głównych faz, które mogą być realizowane w sposób iteracyjny, co oznacza, że możemy wracać do wcześniejszych etapów w miarę zdobywania nowych informacji:

  • Sample (Próbkowanie): wybór reprezentatywnego podzbioru danych do analizy. Kluczowe jest zapewnienie, że próbka będzie wystarczająco duża i reprezentatywna, aby wyniki analizy były wiarygodne i możliwe do uogólnienia.

  • Explore (Eksploracja): eksploracyjna analiza danych, gdzie badamy strukturę danych, identyfikujemy wzorce, anomalie i zależności między zmiennymi. Używamy technik wizualizacji i statystyk opisowych, aby lepiej zrozumieć nasze dane.

  • Modify (Modyfikacja): modyfikacja i przygotowanie danych do modelowania. Tworzymy nowe zmienne, przekształcamy istniejące i wybieramy najważniejsze cechy dla naszego modelu. Ten etap często wymaga iteracyjnego podejścia.

  • Model (Modelowanie): budowanie modeli predykcyjnych lub opisowych. Testujemy różne algorytmy i techniki, aby znaleźć najlepsze rozwiązanie dla naszego problemu. Często budujemy kilka modeli i porównujemy ich wydajność.

  • Assess (Ocena): ocena i walidacja modeli. Sprawdzamy ich dokładność, niezawodność i przydatność biznesową. Używamy różnych metryk i technik walidacji, aby upewnić się, że model będzie działał dobrze na nowych danych.

45.4 Proces CRISP-DM

Cross-Industry Standard Process for Data Mining to najbardziej popularna i szeroko stosowana metodologia analizy danych. Została opracowana przez konsorcjum firm i instytutów badawczych jako standard branżowy, niezależny od konkretnych narzędzi czy technologii.

45.4.1 Etapy procesu CRISP-DM

CRISP-DM składa się z sześciu głównych faz, które tworzą cykl życia projektu analizy danych. Proces ten jest iteracyjny i elastyczny, co oznacza, że możemy wracać do wcześniejszych faz w miarę potrzeb:

  • Business Understanding: koncentracja na zrozumieniu celów biznesowych i wymagań projektu. Definiujemy problem biznesowy, który chcemy rozwiązać, oraz określamy kryteria sukcesu. Ta faza jest fundamentalna dla całego projektu, ponieważ ustala kierunek dalszych działań.

  • Data Understanding: zbieranie i wstępna eksploracja danych. Identyfikujemy dostępne źródła danych, oceniamy ich jakość i kompletność oraz przeprowadzamy wstępną analizę, aby lepiej zrozumieć strukturę i charakterystykę danych.

  • Data Preparation: przygotowanie danych do analizy, które jest najczęściej najbardziej czasochłonną częścią procesu. Obejmuje to czyszczenie danych, integrację z różnych źródeł, transformację i selekcję odpowiednich zmiennych.

  • Modeling: zastosowanie technik modelowania do przygotowanych danych. Wybieramy odpowiednie algorytmy, konfigurujemy ich parametry i budujemy modele. Często testujemy kilka różnych podejść, aby znaleźć najlepsze rozwiązanie.

  • Evaluation: ocena jakości modeli z perspektywy biznesowej. Sprawdzamy, czy model rzeczywiście rozwiązuje pierwotny problem biznesowy oraz czy spełnia ustalone kryteria sukcesu. Ta faza może prowadzić do powrotu do wcześniejszych etapów, jeśli wyniki nie są zadowalające.

  • Deployment: wdrożenie modelu w środowisku produkcyjnym. Planujemy sposób monitorowania modelu, jego utrzymania i ewentualnej aktualizacji. Ta faza jest kluczowa dla praktycznego wykorzystania wyników analizy.