Data Science - Regresní tabulka: P-hodnota


"Statistika části koeficientů" v regresní tabulce

Regresní tabulka - Statistiky koeficientů

Nyní chceme otestovat, zda mají koeficienty z lineární regresní funkce významný dopad na závislou proměnnou (Calorie_Burnage).

To znamená, že pomocí statistických testů chceme dokázat, že existuje vztah mezi Average_Pulse a Calorie_Burnage.

Existují čtyři složky, které vysvětlují statistiku koeficientů:

  • std err znamená standardní chybu
  • t je "t-hodnota" koeficientů
  • P>|t| se nazývá "P-hodnota"
  •  [0,025 0,975] představuje interval spolehlivosti koeficientů

V tomto modulu se zaměříme na pochopení "P-hodnoty".


P-hodnota

P-value je statistické číslo pro závěr, zda existuje vztah mezi Average_Pulse a Calorie_Burnage.

Testujeme, zda je skutečná hodnota koeficientu rovna nule (bez vztahu). Statistický test se nazývá testování hypotéz.

  • Nízká P-hodnota (< 0,05) znamená, že koeficient pravděpodobně nebude roven nule.
  • Vysoká P-hodnota (> 0,05) znamená, že nemůžeme dojít k závěru, že vysvětlující proměnná ovlivňuje závislou proměnnou (zde: pokud Average_Pulse ovlivňuje Calorie_Burnage).
  • Vysoká P-hodnota se také nazývá nevýznamná P-hodnota.

Testování hypotéz

Testování hypotéz je statistický postup, kterým se ověřuje, zda jsou vaše výsledky platné.

V našem příkladu testujeme, zda je skutečný koeficient Average_Pulse a intercept roven nule.

Test hypotézy má dvě tvrzení. Nulová hypotéza a alternativní hypotéza.

  • Nulová hypotéza může být krátce zapsána jako H0
  • Alternativní hypotézu lze krátce napsat jako HA

Matematicky napsáno:

H0: Average_Pulse = 0
HA: Average_Pulse ≠ 0
H0: Intercept = 0
HA: Intercept ≠ 0

Znaménko ≠ znamená „nerovná se“


Testování hypotéz a P-hodnota

Nulová hypotéza může být zamítnuta nebo ne.

Pokud zamítneme nulovou hypotézu, dojde k závěru, že existuje vztah mezi Average_Pulse a Calorie_Burnage. K tomuto závěru se používá P-hodnota.

Společný práh P-hodnoty je 0,05.

Poznámka: P-hodnota 0,05 znamená, že v 5 % případů chybně zamítneme nulovou hypotézu. Znamená to, že akceptujeme, že v 5 % případů jsme mohli falešně uzavřít vztah.

Pokud je P-hodnota nižší než 0,05, můžeme zamítnout nulovou hypotézu a dojít k závěru, že mezi proměnnými existuje vztah.

P-hodnota Average_Pulse je však 0,824. Nemůžeme tedy uzavřít vztah mezi Average_Pulse a Calorie_Burnage.

To znamená, že existuje 82,4% šance, že skutečný koeficient Average_Pulse je nulový.

Intercept se používá k nastavení schopnosti regresní funkce přesněji předpovídat. Je proto neobvyklé interpretovat P-hodnotu zachycení.