Data Science - Regresní tabulka: P-hodnota
"Statistika části koeficientů" v regresní tabulce
Nyní chceme otestovat, zda mají koeficienty z lineární regresní funkce významný dopad na závislou proměnnou (Calorie_Burnage).
To znamená, že pomocí statistických testů chceme dokázat, že existuje vztah mezi Average_Pulse a Calorie_Burnage.
Existují čtyři složky, které vysvětlují statistiku koeficientů:
- std err znamená standardní chybu
- t je "t-hodnota" koeficientů
- P>|t| se nazývá "P-hodnota"
- [0,025 0,975] představuje interval spolehlivosti koeficientů
V tomto modulu se zaměříme na pochopení "P-hodnoty".
P-hodnota
P-value je statistické číslo pro závěr, zda existuje vztah mezi Average_Pulse a Calorie_Burnage.
Testujeme, zda je skutečná hodnota koeficientu rovna nule (bez vztahu). Statistický test se nazývá testování hypotéz.
- Nízká P-hodnota (< 0,05) znamená, že koeficient pravděpodobně nebude roven nule.
- Vysoká P-hodnota (> 0,05) znamená, že nemůžeme dojít k závěru, že vysvětlující proměnná ovlivňuje závislou proměnnou (zde: pokud Average_Pulse ovlivňuje Calorie_Burnage).
- Vysoká P-hodnota se také nazývá nevýznamná P-hodnota.
Testování hypotéz
Testování hypotéz je statistický postup, kterým se ověřuje, zda jsou vaše výsledky platné.
V našem příkladu testujeme, zda je skutečný koeficient Average_Pulse a intercept roven nule.
Test hypotézy má dvě tvrzení. Nulová hypotéza a alternativní hypotéza.
- Nulová hypotéza může být krátce zapsána jako H0
- Alternativní hypotézu lze krátce napsat jako HA
Matematicky napsáno:
H0: Average_Pulse = 0
HA: Average_Pulse ≠ 0
H0: Intercept =
0
HA: Intercept ≠ 0
Znaménko ≠ znamená „nerovná se“
Testování hypotéz a P-hodnota
Nulová hypotéza může být zamítnuta nebo ne.
Pokud zamítneme nulovou hypotézu, dojde k závěru, že existuje vztah mezi Average_Pulse a Calorie_Burnage. K tomuto závěru se používá P-hodnota.
Společný práh P-hodnoty je 0,05.
Poznámka: P-hodnota 0,05 znamená, že v 5 % případů chybně zamítneme nulovou hypotézu. Znamená to, že akceptujeme, že v 5 % případů jsme mohli falešně uzavřít vztah.
Pokud je P-hodnota nižší než 0,05, můžeme zamítnout nulovou hypotézu a dojít k závěru, že mezi proměnnými existuje vztah.
P-hodnota Average_Pulse je však 0,824. Nemůžeme tedy uzavřít vztah mezi Average_Pulse a Calorie_Burnage.
To znamená, že existuje 82,4% šance, že skutečný koeficient Average_Pulse je nulový.
Intercept se používá k nastavení schopnosti regresní funkce přesněji předpovídat. Je proto neobvyklé interpretovat P-hodnotu zachycení.