Data Science - Statistics Variance
Rozptyl
Rozptyl je další číslo, které udává, jak rozložené jsou hodnoty.
Ve skutečnosti, když vezmete druhou odmocninu rozptylu, dostanete standardní odchylku. Nebo naopak, pokud směrodatnou odchylku vynásobíte samotnou, dostanete rozptyl!
Nejprve použijeme soubor dat s 10 pozorováními, abychom uvedli příklad, jak můžeme vypočítat rozptyl:
Doba trvání | Průměrný_puls | Max_Pulse | Calorie_Burnage | Hodiny_Práce | Hodiny_Spánek |
---|---|---|---|---|---|
30 | 80 | 120 | 240 | 10 | 7 |
30 | 85 | 120 | 250 | 10 | 7 |
45 | 90 | 130 | 260 | 8 | 7 |
45 | 95 | 130 | 270 | 8 | 7 |
45 | 100 | 140 | 280 | 0 | 7 |
60 | 105 | 140 | 290 | 7 | 8 |
60 | 110 | 145 | 300 | 7 | 8 |
60 | 115 | 145 | 310 | 8 | 8 |
75 | 120 | 150 | 320 | 0 | 8 |
75 | 125 | 150 | 330 | 8 | 8 |
Rozptyl je často reprezentován symbolem Sigma Square: σ^2
Krok 1 pro výpočet rozptylu: Najděte střední hodnotu
Chceme najít rozptyl Average_Pulse.
1. Najděte střední hodnotu:
(80+85+90+95+100+105+110+115+120+125) / 10 = 102.5
Průměr je 102,5
Krok 2: Pro každou hodnotu – Najděte rozdíl od průměru
2. Najděte rozdíl od průměru pro každou hodnotu:
80 - 102.5 = -22.5
85 - 102.5 = -17.5
90 - 102.5 = -12.5
95 - 102.5 =
-7.5
100 - 102.5 = -2.5
105 - 102.5 = 2.5
110 - 102.5 = 7.5
115 -
102.5 = 12.5
120 - 102.5 = 17.5
125 - 102.5 = 22.5
Krok 3: Pro každý rozdíl - Najděte hodnotu čtverce
3. Najděte druhou mocninu pro každý rozdíl:
(-22.5)^2 = 506.25
(-17.5)^2 = 306.25
(-12.5)^2 = 156.25
(-7.5)^2 =
56.25
(-2.5)^2 = 6.25
2.5^2 = 6.25
7.5^2 = 56.25
12.5^2 = 156.25
17.5^2 = 306.25
22.5^2 = 506.25
Poznámka: Musíme odmocnit hodnoty, abychom získali celkový rozptyl.
Krok 4: Rozptyl je průměrný počet těchto čtvercových hodnot
4. Sečtěte druhé mocniny hodnot a najděte průměr:
(506.25 + 306.25 + 156.25 + 56.25 + 6.25 + 6.25 + 56.25 + 156.25 + 306.25 +
506.25) / 10 = 206.25
Rozptyl je 206,25.
Použijte Python k nalezení rozptylu health_data
K nalezení rozptylu můžeme použít var()
funkci z Numpy (nezapomeňte, že nyní používáme první datovou sadu s 10 pozorováními):
Příklad
import numpy as np
var = np.var(health_data)
print(var)
výstup:
Použijte Python k nalezení rozptylu celé sady dat
Zde vypočítáme rozptyl pro každý sloupec pro celý soubor dat:
Příklad
import numpy as np
var_full = np.var(full_health_data)
print(var_full)
výstup: