Strojové učení – standardní odchylka
Co je standardní odchylka?
Směrodatná odchylka je číslo, které popisuje rozložení hodnot.
Nízká směrodatná odchylka znamená, že většina čísel se blíží střední (průměrné) hodnotě.
Vysoká směrodatná odchylka znamená, že hodnoty jsou rozprostřeny v širším rozsahu.
Příklad: Tentokrát jsme zaregistrovali rychlost 7 aut:
speed = [86,87,88,86,87,85,86]
Standardní odchylka je:
0.9
To znamená, že většina hodnot je v rozmezí 0,9 od střední hodnoty, která je 86,4.
Udělejme totéž s výběrem čísel s širším rozsahem:
speed = [32,111,138,28,59,77,97]
Standardní odchylka je:
37.85
To znamená, že většina hodnot je v rozmezí 37,85 od střední hodnoty, která je 77,4.
Jak vidíte, vyšší směrodatná odchylka znamená, že hodnoty jsou rozprostřeny v širším rozsahu.
Modul NumPy má metodu pro výpočet směrodatné odchylky:
Příklad
Použijte metodu NumPy std()
k nalezení směrodatné odchylky:
import numpy
speed = [86,87,88,86,87,85,86]
x = numpy.std(speed)
print(x)
Příklad
import numpy
speed = [32,111,138,28,59,77,97]
x = numpy.std(speed)
print(x)
Rozptyl
Rozptyl je další číslo, které udává, jak rozložené jsou hodnoty.
Ve skutečnosti, když vezmete druhou odmocninu rozptylu, dostanete směrodatnou odchylku!
Nebo naopak, pokud směrodatnou odchylku vynásobíte samotnou, dostanete rozptyl!
Chcete-li vypočítat rozptyl, musíte provést následující:
1. Najděte střední hodnotu:
(32+111+138+28+59+77+97) / 7 = 77.4
2. Pro každou hodnotu: najděte rozdíl od průměru:
32 - 77.4 = -45.4
111 - 77.4 = 33.6
138
- 77.4 = 60.6
28 - 77.4 = -49.4
59 - 77.4 = -18.4
77
- 77.4 = - 0.4
97 - 77.4 = 19.6
3. Pro každý rozdíl: najděte čtvercovou hodnotu:
(-45.4)2 = 2061.16
(33.6)2 = 1128.96
(60.6)2 = 3672.36
(-49.4)2 = 2440.36
(-18.4)2 = 338.56
(- 0.4)2 = 0.16
(19.6)2 = 384.16
4. Rozptyl je průměrný počet těchto čtverců rozdílů:
(2061.16+1128.96+3672.36+2440.36+338.56+0.16+384.16)
/ 7 = 1432.2
Naštěstí má NumPy metodu pro výpočet rozptylu:
Příklad
K nalezení rozptylu použijte metodu NumPy var()
:
import numpy
speed = [32,111,138,28,59,77,97]
x = numpy.var(speed)
print(x)
Standardní odchylka
Jak jsme se dozvěděli, vzorec pro nalezení směrodatné odchylky je druhá odmocnina rozptylu:
√1432.25 = 37.85
Nebo, jako v předchozím příkladu, použijte NumPy k výpočtu směrodatné odchylky:
Příklad
Použijte metodu NumPy std()
k nalezení směrodatné odchylky:
import numpy
speed = [32,111,138,28,59,77,97]
x = numpy.std(speed)
print(x)
Symboly
Směrodatná odchylka je často reprezentována symbolem Sigma: σ
Rozptyl je často reprezentován symbolem Sigma Square: σ 2
Shrnutí kapitoly
Standardní odchylka a odchylka jsou termíny, které se často používají ve strojovém učení, takže je důležité porozumět tomu, jak je získat, a konceptu, který za nimi stojí.