19  Ładowanie danych

19.1 Obsługa plików csv

Funkcja pandas.read_csv

Dokumentacja: link

Wybrane argumenty:

  • filepath - ścieżka dostępu
  • sep=_NoDefault.no_default, delimiter=None - separator
  • header='infer' - nagłówek - domyślnie nazwy kolumn, ew. header=None oznacza brak nagłówka
  • index_col=None - ustalenie kolumny na indeksy (nazwy wierszy)
  • thousands=None - separator tysięczny
  • decimal='.' - separator dziesiętny

Zapis pandas.DataFrame.to_csv

Dokumentacja: link

19.2 Obsługa plików z Excela

Funkcja pandas.read_excel

https://pandas.pydata.org/docs/reference/api/pandas.read_excel.html

** Ważne: trzeba zainstalować bibliotekę openpyxl do importu .xlsx oraz xlrd do importu .xls (nie trzeba ich importować w kodzie jawnie w większości wypadków)

Wybrane argumenty:

  • io - ścieżka dostępu
  • sheet_name=0 - nazwa arkusza
  • header='infer' - nagłówek - domyślnie nazwy kolumn, ew. header=None oznacza brak nagłówka
  • index_col=None - ustalenie kolumny na indeksy (nazwy wierszy)
  • thousands=None - separator tysięczny
  • decimal='.' - separator dziesiętny

Ćwiczenie: (ex10.py)

Poćwicz ładowanie danych z plików

https://github.com/pjastr/AIWD-files

19.3 Obsługa sqllite3

import pandas as pd
from sqlite3 import connect

conn = connect('sales_data2.db')
data = pd.read_sql("SELECT * FROM sales_data", con=conn)