Data Science - Python DataFrame


Vytvořte DataFrame s Pandas

Datový rámec je strukturovaná reprezentace dat.

Definujme datový rámec se 3 sloupci a 5 řádky se smyšlenými čísly:

Příklad

import pandas as pd

d = {'col1': [1, 2, 3, 4, 7], 'col2': [4, 5, 6, 9, 5], 'col3': [7, 8, 12, 1, 11]}

df = pd.DataFrame(data=d)

print(df)

Příklad vysvětlen

  • Importujte knihovnu Pandas jako pd
  • Definujte data pomocí sloupců a řádků v proměnné s názvem d
  • Vytvořte datový rámec pomocí funkce pd.DataFrame()
  • Datový rámec obsahuje 3 sloupce a 5 řádků
  • Vytiskněte výstup datového rámce pomocí funkce print().

Píšeme pd. před DataFrame() , aby Python věděl, že chceme aktivovat funkci DataFrame() z knihovny Pandas.

Buďte si vědomi velkých písmen D a F v DataFrame!


Interpretace výstupu

Toto je výstup:

Výstup datového rámce

Vidíme, že "col1", "col2" a "col3" jsou názvy sloupců.

Nenechte se zmást vertikálními čísly v rozmezí 0-4. Sdělují nám informaci o poloze řádků.

V Pythonu začíná číslování řádků nulou.

Nyní můžeme použít Python k počítání sloupců a řádků.

Pro zjištění počtu sloupců můžeme použít df.shape[1]:

Příklad

Spočítejte počet sloupců:

count_column = df.shape[1]
print(count_column)

Pro zjištění počtu řádků můžeme použít df.shape[0]:

Příklad

Spočítejte počet řádků:

count_row = df.shape[0]
print(count_row)

Proč nemůžeme jen spočítat řádky a sloupce sami?

Pokud pracujeme s většími datovými sadami s mnoha sloupci a řádky, bude matoucí je počítat sami. Riskujete, že to spočítáte špatně. Pokud správně používáme vestavěné funkce v Pythonu, ujišťujeme se, že počet je správný.