Entendimento de relação entre dados.
Resultados Esperados
- Revisitar os mínimos quadrados (ALC)
- Entender a regressão linear do ponto de vista probabilístico
- Entender o conceito de verossimilhança
Continuando da aula passada. Vamos ver mais uma forma de entender um modelo de regressão linear. Lembre-se até agora falamos de correlação e covariância cobrindo os seguintes tópicos:
- Covariância
- Coeficiente de Pearson (Covariância Normalizada)
- Coeficiente de Pearson como sendo a fração do desvio de y capturado por x
- Mínimos Quadrados
Todos os passos acima chegam no mesmo local de traçar a “melhor” reta no gráfico de dispersão. Melhor aqui significa a reta que que minimiza o erro abaixo:
\(\Theta = [\alpha, \beta]\) \(L(\Theta) = \sum_i (y_i - \hat{y}_i)^2\) \(L(\Theta) = \sum_i (y_i - \beta x_i + \alpha)^2\)
Chegamos em:
\begin{align} \alpha & = \bar{y} - \beta\,\bar{x}, \[5pt] \beta &= \frac{ \sum_{i=1}^n (x_i - \bar{x})(y_i - \bar{y}) }{ \sum_{i=1}^n (x_i - \bar{x})^2 } \[6pt] &= \frac{ \operatorname{Cov}(x, y) }{ \operatorname{Var}(x) } \[5pt] &= r_{xy} \frac{s_y}{s_x}. \[6pt] \end{align}
Visão probabílistica
Vamos aprender uma última forma de pensar na regressão. Em particular, vamos fazer uso de uma visão probabílistica. Para tal, exploraremos o caso dos apartamentos de BH abaixo.
Inicialmente, vamos observar os dados além do resultado da melhor regressão.
df = pd.read_csv('', index_col=0)
df['preco'] = df['preco'] / 1000
plt.scatter(df['area'], df['preco'], edgecolors='k', s=80, alpha=0.6)
plt.title('Preco de Apartamentos em BH')
plt.ylabel(r'Preço * $10^3$ (R\$)')
plt.xlabel(r'Área ($M^2$)')
O seaborn tem uma função regplot que plota a melhor reta além de um IC (estmado via bootstrap – aula passada).
sns.regplot(x='area', y='preco', data=df, n_boot=10000,
line_kws={'color':'magenta', 'lw':4},
scatter_kws={'edgecolor':'k', 's':80, 'alpha':0.8})
plt.title('Preco de Apartamentos em BH')
plt.ylabel(r'Preço * $10^3$ (R\$)')
plt.xlabel(r'Área ($M^2$)')
A reta pode ser recuperada usando scipy.
model = ss.linregress(df['area'], df['preco'])
# beta = slope
# alpha = intercept
LinregressResult(slope=3.5357191563336516, intercept=200.5236136898945, rvalue=0.694605637960645, pvalue=1.917920339304322e-32, stderr=0.2503210673009473)
Usando esta reta podemos prever o preço de um apartamento usando apenas a área do mesmo.
beta = model.slope
alpha = model.intercept
novo_apt_area = 225
preco = beta * novo_apt_area + alpha
Ou seja, quando um apartamento de 225m2 entra no mercado o mesmo custa em torno de 1M de reais.
Erros Normais
Agora, será que conseguimos chegar no mesmo pensando na regressão como um modelo probabilístico?
x = np.linspace(-5, 5, 100)
plt.plot(x, ss.distributions.norm.pdf(x, scale=1))
plt.ylabel(r'$p(\epsilon_i \mid \mu=0, \sigma=1)$')
beta = 1
alpha = 1
fig = plt.figure(figsize=(36, 10))
x = np.array([2, 8, 5])
y = np.array([0, 1, 3])
plt.scatter(x, y, edgecolors='k', s=80, alpha=0.6)
plt.title('3 Pontinhos')
y_bar = x * beta + alpha
plt.plot(x, y_bar, color='magenta')
y_min = [min(y_i, y_bar_i) for y_i, y_bar_i in zip(y, y_bar)]
y_max = [max(y_i, y_bar_i) for y_i, y_bar_i in zip(y, y_bar)]
plt.vlines(x, ymin=y_min, ymax=y_max, color='magenta', lw=1)
plt.title('PDF da Normal')
ei_x = np.linspace(-10, 10, 100)
sigma = (y - y_bar).std(ddof=1)
plt.plot(ei_x, ss.distributions.norm.pdf(ei_x, scale=sigma))
plt.ylabel(r'$p(\epsilon_i \mid \mu=0, \sigma={})$'.format(np.round(sigma, 2)))
beta = 3.535719156333653
alpha = 200.52361368989432
fig = plt.figure(figsize=(36, 10))
x = df['area']
y = df['preco']
plt.scatter(x, y, edgecolors='k', s=80, alpha=0.6)
plt.title('Preco de Apartamentos em BH')
plt.ylabel(r'Preço * $10^3$ (R\$)')
plt.xlabel(r'Área ($M^2$)')
y_bar = x * beta + alpha
plt.plot(x, y_bar, color='magenta')
y_min = [min(y_i, y_bar_i) for y_i, y_bar_i in zip(y, y_bar)]
y_max = [max(y_i, y_bar_i) for y_i, y_bar_i in zip(y, y_bar)]
plt.vlines(x, ymin=y_min, ymax=y_max, color='magenta', lw=1)
plt.title('PDF da Normal')
ei_x = np.linspace(-1000, 1000, 100)
sigma = (y - y_bar).std(ddof=1)
plt.plot(ei_x, ss.distributions.norm.pdf(ei_x, scale=sigma))
plt.ylabel(r'$p(\epsilon_i \mid \mu=0, \sigma={})$'.format(np.round(sigma, 2)))
sns.residplot(x='area', y='preco', data=df,
line_kws={'color':'magenta', 'lw':4},
scatter_kws={'edgecolor':'k', 's':80, 'alpha':0.8})
plt.xlabel(r'Área ($M^2$)')
ss.probplot(y - y_bar, plot=plt.gca());
Close Nova Dataset
Abaixo temos a dispersão dos dados
df = pd.read_csv('')
x = df.values[:, 0]
y = df.values[:, 1]
plt.scatter(x, y, alpha=0.8, edgecolors='k', s=80)
plt.xlim((0, 300))
plt.ylim((0, 0.03))
plt.title('Close Nova Dataset')
1e6 / (ss.pearsonr(x, y)[0] * y.std(ddof=1) / x.std(ddof=1))
x = df['Distance (million parsecs)']
y = df['Speed (parsecs/year)']
model = ss.linregress(x, y)
beta = model.slope
alpha = model.intercept
plt.scatter(x, y, edgecolors='k', s=80, alpha=0.6)
plt.title('Closed Novas')
plt.ylabel(r'Speed (parsecs/year)')
plt.xlabel(r'Distance (million parsecs)')
y_bar = x * beta + alpha
plt.plot(x, y_bar, color='magenta')
y_min = [min(y_i, y_bar_i) for y_i, y_bar_i in zip(y, y_bar)]
y_max = [max(y_i, y_bar_i) for y_i, y_bar_i in zip(y, y_bar)]
plt.vlines(x, ymin=y_min, ymax=y_max, color='magenta', lw=1)
sns.residplot(x='Distance (million parsecs)', y='Speed (parsecs/year)', data=df,
line_kws={'color':'magenta', 'lw':4},
scatter_kws={'edgecolor':'k', 's':80, 'alpha':0.8})
ss.probplot(y - y_bar, plot=plt);
import statsmodels.api as sm
stocks = {'Year': [2017,2017,2017,2017,2017,2017,2017,2017,2017,2017,2017,2017,2016,2016,2016,2016,2016,2016,2016,2016,2016,2016,2016,2016],
'Month': [12, 11,10,9,8,7,6,5,4,3,2,1,12,11,10,9,8,7,6,5,4,3,2,1],
'Interest_Rate': [2.75,2.5,2.5,2.5,2.5,2.5,2.5,2.25,2.25,2.25,2,2,2,1.75,1.75,1.75,1.75,1.75,1.75,1.75,1.75,1.75,1.75,1.75],
'Unemployment_Rate': [5.3,5.3,5.3,5.3,5.4,5.6,5.5,5.5,5.5,5.6,5.7,5.9,6,5.9,5.8,6.1,6.2,6.1,6.1,6.1,5.9,6.2,6.2,6.1],
'Stock_Index_Price': [1464,1394,1357,1293,1256,1254,1234,1195,1159,1167,1130,1075,1047,965,943,958,971,949,884,866,876,822,704,719]
df = pd.DataFrame(stocks, columns=['Year','Month', 'Interest_Rate', 'Unemployment_Rate', 'Stock_Index_Price'])
x = df['Interest_Rate']
y = df['Stock_Index_Price']
model = ss.linregress(x, y)
beta = model.slope
alpha = model.intercept
plt.scatter(x, y, edgecolors='k', s=80, alpha=0.6)
y_bar = x * beta + alpha
plt.plot(x, y_bar, color='magenta')
y_min = [min(y_i, y_bar_i) for y_i, y_bar_i in zip(y, y_bar)]
y_max = [max(y_i, y_bar_i) for y_i, y_bar_i in zip(y, y_bar)]
plt.vlines(x, ymin=y_min, ymax=y_max, color='magenta', lw=1)
sns.residplot(x='Interest_Rate', y='Stock_Index_Price', data=df,
line_kws={'color':'magenta', 'lw':4},
scatter_kws={'edgecolor':'k', 's':80, 'alpha':0.8})
ss.probplot(y - y_bar, plot=plt);
x = df['Unemployment_Rate']
y = df['Stock_Index_Price']
model = ss.linregress(x, y)
beta = model.slope
alpha = model.intercept
plt.scatter(x, y, edgecolors='k', s=80, alpha=0.6)
y_bar = x * beta + alpha
plt.plot(x, y_bar, color='magenta')
y_min = [min(y_i, y_bar_i) for y_i, y_bar_i in zip(y, y_bar)]
y_max = [max(y_i, y_bar_i) for y_i, y_bar_i in zip(y, y_bar)]
plt.vlines(x, ymin=y_min, ymax=y_max, color='magenta', lw=1)
sns.residplot(x='Unemployment_Rate', y='Stock_Index_Price', data=df,
line_kws={'color':'magenta', 'lw':4},
scatter_kws={'edgecolor':'k', 's':80, 'alpha':0.8})
ss.probplot(y - y_bar, plot=plt);
df = pd.read_csv('', sep='\t')
Age | Length | |
0 | 1.0 | 1.80 |
1 | 1.5 | 1.85 |
2 | 1.5 | 1.87 |
3 | 1.5 | 1.77 |
4 | 2.5 | 2.02 |
5 | 4.0 | 2.27 |
6 | 5.0 | 2.15 |
7 | 5.0 | 2.26 |
8 | 7.0 | 2.35 |
9 | 8.0 | 2.47 |
10 | 8.5 | 2.19 |
11 | 9.0 | 2.26 |
12 | 9.5 | 2.40 |
13 | 9.5 | 2.39 |
14 | 10.0 | 2.41 |
15 | 12.0 | 2.50 |
16 | 12.0 | 2.32 |
17 | 13.0 | 2.43 |
18 | 13.0 | 2.47 |
19 | 14.5 | 2.56 |
20 | 15.5 | 2.65 |
21 | 15.5 | 2.47 |
22 | 16.5 | 2.64 |
23 | 17.0 | 2.56 |
24 | 22.5 | 2.70 |
25 | 29.0 | 2.72 |
26 | 31.5 | 2.57 |
x = df['Age']
y = df['Length']
model = ss.linregress(x, y)
beta = model.slope
alpha = model.intercept
plt.scatter(x, y, edgecolors='k', s=80, alpha=0.6)
y_bar = x * beta + alpha
plt.plot(x, y_bar, color='magenta')
y_min = [min(y_i, y_bar_i) for y_i, y_bar_i in zip(y, y_bar)]
y_max = [max(y_i, y_bar_i) for y_i, y_bar_i in zip(y, y_bar)]
plt.vlines(x, ymin=y_min, ymax=y_max, color='magenta', lw=1)
sns.residplot(x='Age', y='Length', data=df,
line_kws={'color':'magenta', 'lw':4},
scatter_kws={'edgecolor':'k', 's':80, 'alpha':0.8})
df = pd.read_csv('', sep='\t')
y, x = df.values.T