Pandas - Analýza datových rámců


Zobrazení dat

Jednou z nejpoužívanějších metod pro získání rychlého přehledu o DataFrame je head()metoda.

Metoda head()vrací záhlaví a určený počet řádků, počínaje shora.

Příklad

Získejte rychlý přehled vytištěním prvních 10 řádků DataFrame:

import pandas as pd

df = pd.read_csv('data.csv')

print(df.head(10))

V našich příkladech budeme používat soubor CSV s názvem 'data.csv'.

Stáhněte si data.csv nebo otevřete data.csv v prohlížeči.

Poznámka: Pokud není zadán počet řádků, head()metoda vrátí prvních 5 řádků.

Příklad

Vytiskněte prvních 5 řádků DataFrame:

import pandas as pd

df = pd.read_csv('data.csv')

print(df.head())

Existuje také tail()metoda pro zobrazení posledních řádků DataFrame.

Metoda tail()vrací záhlaví a určený počet řádků, počínaje zdola.

Příklad

Vytiskněte posledních 5 řádků DataFrame:

print(df.tail()) 

w3schools CERTIFIED . 2021

Získejte certifikaci!

Dokončete moduly Pandas, proveďte cvičení, udělejte zkoušku a získáte certifikaci w3schools!

10 $ ZÁPIS

Informace o datech

Objekt DataFrames má metodu nazvanou info(), která vám poskytuje další informace o sadě dat.

Příklad

Tisk informací o datech:

print(df.info()) 

Výsledek

  <class 'pandas.core.frame.DataFrame'>
  RangeIndex: 169 entries, 0 to 168
  Data columns (total 4 columns):
   #   Column    Non-Null Count  Dtype  
  ---  ------    --------------  -----  
   0   Duration  169 non-null    int64  
   1   Pulse     169 non-null    int64  
   2   Maxpulse  169 non-null    int64  
   3   Calories  164 non-null    float64
  dtypes: float64(1), int64(3)
  memory usage: 5.4 KB
  None
    

Výsledek vysvětlen

Výsledek nám říká, že máme 169 řádků a 4 sloupce:

  RangeIndex: 169 entries, 0 to 168
  Data columns (total 4 columns):

A název každého sloupce s typem dat:

   #   Column    Non-Null Count  Dtype  
  ---  ------    --------------  -----  
   0   Duration  169 non-null    int64  
   1   Pulse     169 non-null    int64  
   2   Maxpulse  169 non-null    int64  
   3   Calories  164 non-null    float64

Nulové hodnoty

Metoda info()nám také říká, kolik hodnot Non-Null je přítomno v každém sloupci a v naší datové sadě se zdá, že ve sloupci "Kalorie" je 164 ze 169 hodnot Non-Null.

Což znamená, že ve sloupci „Kalorie“ je z jakéhokoli důvodu 5 řádků, které nemají vůbec žádnou hodnotu.

Prázdné hodnoty nebo hodnoty Null mohou být při analýze dat špatné a měli byste zvážit odstranění řádků s prázdnými hodnotami. Toto je krok k tomu, čemu se říká čištění dat a o tom se dozvíte více v dalších kapitolách.