Data Science - Statistika standardní odchylka
Standardní odchylka
Směrodatná odchylka je číslo, které popisuje, jak rozprostřená jsou pozorování.
Matematická funkce bude mít potíže s předpovídáním přesných hodnot, pokud jsou pozorování „rozprostřena“. Směrodatná odchylka je mírou nejistoty.
Nízká směrodatná odchylka znamená, že většina čísel se blíží střední (průměrné) hodnotě.
Vysoká směrodatná odchylka znamená, že hodnoty jsou rozprostřeny v širším rozsahu.
Směrodatná odchylka je často reprezentována symbolem Sigma: σ
std()
K nalezení směrodatné odchylky proměnné můžeme použít funkci z Numpy:
Příklad
import numpy as np
std = np.std(full_health_data)
print(std)
výstup:
Co tato čísla znamenají?
Variační koeficient
Variační koeficient se používá k získání představy o tom, jak velká je směrodatná odchylka.
Matematicky je variační koeficient definován jako:
Coefficient of Variation = Standard Deviation / Mean
Můžeme to udělat v Pythonu, pokud budeme pokračovat s následujícím kódem:
Příklad
import numpy as np
cv = np.std(full_health_data) / np.mean(full_health_data)
print(cv)
výstup:
Vidíme, že proměnné Duration, Calorie_Burnage a Hours_Work mají vysokou standardní odchylku ve srovnání s Max_Pulse, Average_Pulse a Hours_Sleep.