Data Science - Regresní tabulka: R-squared
R - čtvercový
R-Squared a Adjusted R-Squared popisuje, jak dobře lineární regresní model odpovídá datovým bodům:
Hodnota R-Squared je vždy mezi 0 až 1 (0 % až 100 %).
- Vysoká hodnota R-squared znamená, že mnoho datových bodů je blízko k přímce funkce lineární regrese.
- Nízká hodnota R-squared znamená, že přímka funkce lineární regrese dobře nesedí s daty.
Vizuální příklad nízké hodnoty R – na druhou (0,00)
Náš regresní model ukazuje R-squared hodnotu nula, což znamená, že přímka lineární regresní funkce dobře nesedí s daty.
To lze vizualizovat, když vyneseme lineární regresní funkci prostřednictvím datových bodů Average_Pulse a Calorie_Burnage.
Vizuální příklad vysoké R – čtvercové hodnoty (0,79)
Pokud však vykreslíme Duration a Calorie_Burnage , R-Squared se zvýší. Zde vidíme, že datové body jsou blízko k přímce lineární regresní funkce:
Zde je kód v Pythonu:
Příklad
import pandas as pd
import matplotlib.pyplot as plt
from scipy
import stats
full_health_data = pd.read_csv("data.csv", header=0, sep=",")
x = full_health_data["Duration"]
y =
full_health_data ["Calorie_Burnage"]
slope, intercept, r, p, std_err =
stats.linregress(x, y)
def myfunc(x):
return slope * x + intercept
mymodel = list(map(myfunc, x))
print(mymodel)
plt.scatter(x,
y)
plt.plot(x, mymodel)
plt.ylim(ymin=0, ymax=2000)
plt.xlim(xmin=0,
xmax=200)
plt.xlabel("Duration")
plt.ylabel ("Calorie_Burnage")
plt.show()
Shrnutí – Predikce spálení kalorií pomocí Average_Pulse
Jak můžeme shrnout lineární regresní funkci s Average_Pulse jako vysvětlující proměnnou?
- Koeficient 0,3296, což znamená, že Average_Pulse má velmi malý vliv na Calorie_Burnage.
- Vysoká P-hodnota (0,824), což znamená, že nemůžeme uzavřít vztah mezi Average_Pulse a Calorie_Burnage.
- Hodnota R-squared 0, což znamená, že přímka funkce lineární regrese dobře nesedí s daty.