Pandas - Analýza datových rámců
Zobrazení dat
Jednou z nejpoužívanějších metod pro získání rychlého přehledu o DataFrame je head()
metoda.
Metoda head()
vrací záhlaví a určený počet řádků, počínaje shora.
Příklad
Získejte rychlý přehled vytištěním prvních 10 řádků DataFrame:
import pandas as pd
df = pd.read_csv('data.csv')
print(df.head(10))
V našich příkladech budeme používat soubor CSV s názvem 'data.csv'.
Stáhněte si data.csv nebo otevřete data.csv v prohlížeči.
Poznámka: Pokud není zadán počet řádků, head()
metoda vrátí prvních 5 řádků.
Příklad
Vytiskněte prvních 5 řádků DataFrame:
import pandas as pd
df = pd.read_csv('data.csv')
print(df.head())
Existuje také tail()
metoda pro zobrazení
posledních řádků DataFrame.
Metoda tail()
vrací záhlaví a určený počet řádků, počínaje zdola.
Příklad
Vytiskněte posledních 5 řádků DataFrame:
print(df.tail())
Získejte certifikaci!
10 $ ZÁPIS
Informace o datech
Objekt DataFrames má metodu nazvanou info()
, která vám poskytuje další informace o sadě dat.
Příklad
Tisk informací o datech:
print(df.info())
Výsledek
<class 'pandas.core.frame.DataFrame'> RangeIndex: 169 entries, 0 to 168 Data columns (total 4 columns): # Column Non-Null Count Dtype --- ------ -------------- ----- 0 Duration 169 non-null int64 1 Pulse 169 non-null int64 2 Maxpulse 169 non-null int64 3 Calories 164 non-null float64 dtypes: float64(1), int64(3) memory usage: 5.4 KB None
Výsledek vysvětlen
Výsledek nám říká, že máme 169 řádků a 4 sloupce:
RangeIndex: 169 entries, 0 to 168 Data columns (total 4 columns):
A název každého sloupce s typem dat:
# Column Non-Null Count Dtype --- ------ -------------- ----- 0 Duration 169 non-null int64 1 Pulse 169 non-null int64 2 Maxpulse 169 non-null int64 3 Calories 164 non-null float64
Nulové hodnoty
Metoda info()
nám také říká, kolik hodnot Non-Null je přítomno v každém sloupci a v naší datové sadě se zdá, že ve sloupci "Kalorie" je 164 ze 169 hodnot Non-Null.
Což znamená, že ve sloupci „Kalorie“ je z jakéhokoli důvodu 5 řádků, které nemají vůbec žádnou hodnotu.
Prázdné hodnoty nebo hodnoty Null mohou být při analýze dat špatné a měli byste zvážit odstranění řádků s prázdnými hodnotami. Toto je krok k tomu, čemu se říká čištění dat a o tom se dozvíte více v dalších kapitolách.