Data Science - Statistics Variance


Rozptyl

Rozptyl je další číslo, které udává, jak rozložené jsou hodnoty.

Ve skutečnosti, když vezmete druhou odmocninu rozptylu, dostanete standardní odchylku. Nebo naopak, pokud směrodatnou odchylku vynásobíte samotnou, dostanete rozptyl!

Nejprve použijeme soubor dat s 10 pozorováními, abychom uvedli příklad, jak můžeme vypočítat rozptyl:

Doba trvání Průměrný_puls Max_Pulse Calorie_Burnage Hodiny_Práce Hodiny_Spánek
30 80 120 240 10 7
30 85 120 250 10 7
45 90 130 260 8 7
45 95 130 270 8 7
45 100 140 280 0 7
60 105 140 290 7 8
60 110 145 300 7 8
60 115 145 310 8 8
75 120 150 320 0 8
75 125 150 330 8 8

Rozptyl je často reprezentován symbolem Sigma Square: σ^2


Krok 1 pro výpočet rozptylu: Najděte střední hodnotu

Chceme najít rozptyl Average_Pulse.

1. Najděte střední hodnotu:

(80+85+90+95+100+105+110+115+120+125) / 10 = 102.5

Průměr je 102,5


Krok 2: Pro každou hodnotu – Najděte rozdíl od průměru

2. Najděte rozdíl od průměru pro každou hodnotu:

80 - 102.5 = -22.5
85 - 102.5 = -17.5
90 - 102.5 = -12.5
95 - 102.5 = -7.5
100 - 102.5 = -2.5
105 - 102.5 = 2.5
110 - 102.5 = 7.5
115 - 102.5 = 12.5
120 - 102.5 = 17.5
125 - 102.5 = 22.5

Krok 3: Pro každý rozdíl - Najděte hodnotu čtverce

3. Najděte druhou mocninu pro každý rozdíl:

(-22.5)^2 = 506.25
(-17.5)^2 = 306.25
(-12.5)^2 = 156.25
(-7.5)^2 = 56.25
(-2.5)^2 = 6.25
2.5^2 = 6.25
7.5^2 = 56.25
12.5^2 = 156.25
17.5^2 = 306.25
22.5^2 = 506.25

Poznámka: Musíme odmocnit hodnoty, abychom získali celkový rozptyl.



Krok 4: Rozptyl je průměrný počet těchto čtvercových hodnot

4. Sečtěte druhé mocniny hodnot a najděte průměr:

(506.25 + 306.25 + 156.25 + 56.25 + 6.25 + 6.25 + 56.25 + 156.25 + 306.25 + 506.25) / 10 = 206.25

Rozptyl je 206,25.


Použijte Python k nalezení rozptylu health_data

K nalezení rozptylu můžeme použít var()funkci z Numpy (nezapomeňte, že nyní používáme první datovou sadu s 10 pozorováními):

Příklad

import numpy as np

var = np.var(health_data)
print(var)

výstup:

Rozptyl

Použijte Python k nalezení rozptylu celé sady dat

Zde vypočítáme rozptyl pro každý sloupec pro celý soubor dat:

Příklad

import numpy as np

var_full = np.var(full_health_data)
print(var_full)

výstup:

Rozptyl