Data Science - Regresní tabulka: R-squared


R - čtvercový

R-Squared a Adjusted R-Squared popisuje, jak dobře lineární regresní model odpovídá datovým bodům:

Regresní tabulka - Statistiky koeficientů

Hodnota R-Squared je vždy mezi 0 až 1 (0 % až 100 %).

  • Vysoká hodnota R-squared znamená, že mnoho datových bodů je blízko k přímce funkce lineární regrese.
  • Nízká hodnota R-squared znamená, že přímka funkce lineární regrese dobře nesedí s daty.

Vizuální příklad nízké hodnoty R – na druhou (0,00)

Náš regresní model ukazuje R-squared hodnotu nula, což znamená, že přímka lineární regresní funkce dobře nesedí s daty.

To lze vizualizovat, když vyneseme lineární regresní funkci prostřednictvím datových bodů Average_Pulse a Calorie_Burnage.

Nízké R – druhá mocnina (0,00)

Vizuální příklad vysoké R – čtvercové hodnoty (0,79)

Pokud však vykreslíme Duration a Calorie_Burnage , R-Squared se zvýší. Zde vidíme, že datové body jsou blízko k přímce lineární regresní funkce:

Nízké R – druhá mocnina (0,00)

Zde je kód v Pythonu:

Příklad

import pandas as pd
import matplotlib.pyplot as plt
from scipy import stats

full_health_data = pd.read_csv("data.csv", header=0, sep=",")

x = full_health_data["Duration"]
y = full_health_data ["Calorie_Burnage"]

slope, intercept, r, p, std_err = stats.linregress(x, y)

def myfunc(x):
 return slope * x + intercept

mymodel = list(map(myfunc, x))

print(mymodel)

plt.scatter(x, y)
plt.plot(x, mymodel)
plt.ylim(ymin=0, ymax=2000)
plt.xlim(xmin=0, xmax=200)
plt.xlabel("Duration")
plt.ylabel ("Calorie_Burnage")

plt.show()

Shrnutí – Predikce spálení kalorií pomocí Average_Pulse

Jak můžeme shrnout lineární regresní funkci s Average_Pulse jako vysvětlující proměnnou?

  • Koeficient 0,3296, což znamená, že Average_Pulse má velmi malý vliv na Calorie_Burnage.
  • Vysoká P-hodnota (0,824), což znamená, že nemůžeme uzavřít vztah mezi Average_Pulse a Calorie_Burnage.
  • Hodnota R-squared 0, což znamená, že přímka funkce lineární regrese dobře nesedí s daty.