Pandy - datové korelace
Hledání vztahů
Skvělým aspektem modulu Pandas je corr()
metoda.
Metoda corr()
vypočítá vztah mezi každým sloupcem v sadě dat.
Příklady na této stránce používají soubor CSV s názvem: 'data.csv'.
Stáhnout data.csv . nebo Otevřít data.csv
Příklad
Ukaž vztah mezi sloupci:
df.corr()
Výsledek
Duration Pulse Maxpulse Calories Duration 1.000000 -0.155408 0.009403 0.922721 Pulse -0.155408 1.000000 0.786535 0.025120 Maxpulse 0.009403 0.786535 1.000000 0.203814 Calories 0.922721 0.025120 0.203814 1.000000
Poznámka:
Metoda corr()
ignoruje sloupce „není číselné“.
Výsledek vysvětlen
Výsledkem corr()
metody je tabulka se spoustou čísel, která představuje, jak dobrý je vztah mezi dvěma sloupci.
Číslo se pohybuje od -1 do 1.
1 znamená, že existuje vztah 1 ku 1 (dokonalá korelace) a pro tento soubor dat pokaždé, když se hodnota v prvním sloupci zvýšila, zvýšila se i druhá.
0,9 je také dobrý vztah, a pokud zvýšíte jednu hodnotu, pravděpodobně se zvýší i druhá.
-0,9 by byl stejně dobrý vztah jako 0,9, ale pokud jednu hodnotu zvýšíte, druhá pravděpodobně klesne.
0,2 znamená NENÍ dobrý vztah, což znamená, že pokud jedna hodnota stoupne, neznamená to, že druhá bude.
Co je dobrá korelace?
Záleží na použití, ale myslím, že je bezpečné říci, že musíte mít alespoň 0.6
(nebo -0.6
), aby to bylo dobré korelace.
Dokonalá korelace:
Vidíme, že "Duration" a "Duration" dostaly číslo 1.000000
, což dává smysl, každý sloupec má vždy perfektní vztah sám se sebou.
Dobrá korelace:
„Délka“ a „Kalorie“ mají 0.922721
korelaci, což je velmi dobrá korelace, a můžeme předpovědět, že čím déle cvičíte, tím více kalorií spálíte, a naopak: pokud jste spálili hodně kalorií, měl asi dlouhou práci.
Špatná korelace:
"Duration" a "Maxpulse" získaly 0.009403
korelaci, což je velmi špatná korelace, což znamená, že nemůžeme předpovědět maximální pulz pouhým pohledem na dobu trvání cvičení a naopak.
Získejte certifikaci!
10 $ ZÁPIS