Data Science - Statistika standardní odchylka


Standardní odchylka

Směrodatná odchylka je číslo, které popisuje, jak rozprostřená jsou pozorování.

Standardní odchylka

Matematická funkce bude mít potíže s předpovídáním přesných hodnot, pokud jsou pozorování „rozprostřena“. Směrodatná odchylka je mírou nejistoty.

Nízká směrodatná odchylka znamená, že většina čísel se blíží střední (průměrné) hodnotě.

Vysoká směrodatná odchylka znamená, že hodnoty jsou rozprostřeny v širším rozsahu.

Směrodatná odchylka je často reprezentována symbolem Sigma: σ

std()K nalezení směrodatné odchylky proměnné můžeme použít funkci z Numpy:

Příklad

import numpy as np

std = np.std(full_health_data)
print(std)

výstup:

Standardní odchylka

Co tato čísla znamenají?


Variační koeficient

Variační koeficient se používá k získání představy o tom, jak velká je směrodatná odchylka.

Matematicky je variační koeficient definován jako:

Coefficient of Variation = Standard Deviation / Mean

 Můžeme to udělat v Pythonu, pokud budeme pokračovat s následujícím kódem:

Příklad

import numpy as np

cv = np.std(full_health_data) / np.mean(full_health_data)
print(cv)

výstup:

Variační koeficient

Vidíme, že proměnné Duration, Calorie_Burnage a Hours_Work mají vysokou standardní odchylku ve srovnání s Max_Pulse, Average_Pulse a Hours_Sleep.