Pandy - datové korelace


Hledání vztahů

Skvělým aspektem modulu Pandas je corr()metoda.

Metoda corr()vypočítá vztah mezi každým sloupcem v sadě dat.

Příklady na této stránce používají soubor CSV s názvem: 'data.csv'.

Stáhnout data.csv . nebo Otevřít data.csv

Příklad

Ukaž vztah mezi sloupci:

df.corr()

Výsledek

            Duration     Pulse  Maxpulse  Calories
  Duration  1.000000 -0.155408  0.009403  0.922721
  Pulse    -0.155408  1.000000  0.786535  0.025120
  Maxpulse  0.009403  0.786535  1.000000  0.203814
  Calories  0.922721  0.025120  0.203814  1.000000

Poznámka: Metoda corr()ignoruje sloupce „není číselné“.

Výsledek vysvětlen

Výsledkem corr()metody je tabulka se spoustou čísel, která představuje, jak dobrý je vztah mezi dvěma sloupci.

Číslo se pohybuje od -1 do 1.

1 znamená, že existuje vztah 1 ku 1 (dokonalá korelace) a pro tento soubor dat pokaždé, když se hodnota v prvním sloupci zvýšila, zvýšila se i druhá.

0,9 je také dobrý vztah, a pokud zvýšíte jednu hodnotu, pravděpodobně se zvýší i druhá.

-0,9 by byl stejně dobrý vztah jako 0,9, ale pokud jednu hodnotu zvýšíte, druhá pravděpodobně klesne.

0,2 znamená NENÍ dobrý vztah, což znamená, že pokud jedna hodnota stoupne, neznamená to, že druhá bude.

Co je dobrá korelace? Záleží na použití, ale myslím, že je bezpečné říci, že musíte mít alespoň 0.6(nebo -0.6), aby to bylo dobré korelace.

Dokonalá korelace:

Vidíme, že "Duration" a "Duration" dostaly číslo 1.000000, což dává smysl, každý sloupec má vždy perfektní vztah sám se sebou.

Dobrá korelace:

„Délka“ a „Kalorie“ mají 0.922721korelaci, což je velmi dobrá korelace, a můžeme předpovědět, že čím déle cvičíte, tím více kalorií spálíte, a naopak: pokud jste spálili hodně kalorií, měl asi dlouhou práci.

Špatná korelace:

"Duration" a "Maxpulse" získaly 0.009403korelaci, což je velmi špatná korelace, což znamená, že nemůžeme předpovědět maximální pulz pouhým pohledem na dobu trvání cvičení a naopak.


Otestujte se pomocí cvičení

Cvičení:

Vložte správnou syntaxi pro hledání vztahů mezi sloupci v DataFrame.

df.()


w3schools CERTIFIED . 2021

Získejte certifikaci!

Dokončete moduly Pandas, proveďte cvičení, udělejte zkoušku a získáte certifikaci w3schools!

10 $ ZÁPIS