Yapay öğrenme’nin belki de ilk dersi Doğrusal Bağlanım (Lineer Regression)’dır. Andrew Ng’nin Coursera’daki dersinden esinlenerek basit bir çalışma yapacağız. Öncelikle timsahların ağırlığı ile burun uzunluğu arasındaki ilişkiyi tutan bir veriyi inceleyeceğiz. Ağırlık ve uzunluk arasındaki ilişkiyi, doğrusal bir denklem ile açıklayacağız. Bu işe doğrusal bağlanım ya da ingilizce adıyla lineer regression diyoruz. Çalışmamız iki aşamadan oluşuyor.

Verimizi Oluşturalım

Aşağıdaki veriyi r-bloggers’dan aldım.

uzunluk = c(3.87, 3.61, 4.33, 3.43, 3.81, 3.83, 3.46, 3.76,3.50, 3.58, 4.19, 3.78, 3.71, 3.73, 3.78)
agirlik = c(4.87, 3.93, 6.46, 3.33, 4.38, 4.70, 3.50, 4.50,3.58, 3.64, 5.90, 4.43, 4.38, 4.42, 4.25)
timsah = data.frame(uzunluk,agirlik)

Veriyi Çizdirelim

plot(agirlik ~ uzunluk, data = timsah,
  xlab = "Burun Uzunluğu",
  ylab = "Ağırlık",
  main = "Central Florida'daki Timsahlar"
)
grid(5, 5, lwd = 2)

Veriyi çizdiğimizde, burun uzunluğu ve ağırlık arasında doğrusal bir ilişkiyi saptıyabiliyoruz değil mi? Görünüşe göre, burun uzunluğu arttıkça, ağırlık da artıyor.

R Hazır İşlevleri ile Doğrusal Bağlanım

R ile bağlanım oldukça kolay. Bunun içinde aşağıdaki gibi lm() fonksiyonu kulanılır. summary() ile model parametrelerini elde edebiliriz.

Kolay.Baglanim = lm(agirlik ~ uzunluk, data = timsah)
summary(Kolay.Baglanim)

Call:
lm(formula = agirlik ~ uzunluk, data = timsah)

Residuals:
     Min       1Q   Median       3Q      Max 
-0.24348 -0.03186  0.03740  0.07727  0.12669 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept)  -8.4761     0.5007  -16.93 3.08e-10 ***
uzunluk       3.4311     0.1330   25.80 1.49e-12 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 0.1229 on 13 degrees of freedom
Multiple R-squared:  0.9808,    Adjusted R-squared:  0.9794 
F-statistic: 665.8 on 1 and 13 DF,  p-value: 1.495e-12

Burada lm(agirlik ~ uzunluk, data = timsah) komutunu kullanıyoruz. ~ işareti bağımlı ve bağımsız değişkenleri birbirinden ayırmak için kullanılır. Yukarıda pekçok bilgi var ama şu aşamada biz aşağıdaki bilgilerle ilgileniyoruz.

theta0 = Kolay.Baglanim$coefficients['(Intercept)']
theta1 = Kolay.Baglanim$coefficients['uzunluk']
print(c(theta0, theta1))
(Intercept)     uzunluk 
  -8.476067    3.431098 

Paramtrelerimiz şu şekilde,

Peşinde olduğumuz matematiksel denklem ise, \[y = \theta_0 + \theta_1 x \]

Değerleri yerine yazarsak

\[ agirlik = -8.4761 + 3.4311 * uzunluk\]

Bu doğrusal ilişkiyi verimizle birlikte çizdirelim.

plot(agirlik ~ uzunluk, data = timsah,
  xlab = "Burun Uzunluğu",
  ylab = "Ağırlık",
  main = "Central Florida'daki Timsahlar"
)
x = seq(2,6,0.5)
lines(x, (theta0 + theta1 * x), col = "red")
grid(5, 5, lwd = 2)

Ufak Bir Tahmin Yapalım mı?

Artık elimizde, veriyi açıklayan doğrusal denklemin parametreleri olduğuna göre, tahminde bulunabiliriz. Uzunluk 4’e eşitse Ağırlık ne olacaktır?

x.nokta = 4
tahmin = as.numeric(theta0 + theta1 * x.nokta)
print(tahmin)
[1] 5.248326
plot(agirlik ~ uzunluk, data = timsah,
  xlab = "Burun Uzunluğu",
  ylab = "Ağırlık",
  main = "Central Florida'daki Timsahlar"
)
x = seq(2,6,0.5)
lines(x, (theta0 + theta1 * x), col = "red")
# Tahminimizi büyük bir pembe nokta olarak çizelim
points(x.nokta, tahmin, col= 'pink', lwd= 23)
# Noktadan x ve y eksenlerine dik pembe çizgiler indirelim
segments(x.nokta, 0, x.nokta, tahmin, col= 'pink', lty = "dashed")
segments(0, tahmin, x.nokta, tahmin, col= 'pink', lty = "dashed")
grid(5, 5, lwd = 2)

İleri Seviye - Doğrusal Bağlanım

Bu işi R’ın hazır doğrusal bağlanım fonksiyonunu kullanmadan yapabilir miyiz?

Model

Verimizde \(x\) bağımsız değişken olmak üzere, \(x^{(1)}\) birinci \(x\) gözlemimiz, \(x^{(2)}\) ikinci \(x\) gözlemimiz, .. \(x^{(i)}\) de \(i\)’inci gözlemimiz olsun. Aşağıdaki gibi bir modelimiz olduğunu düşünelim.

\[ h_\theta (x^{(i)})= \theta_0 + \theta_1 x^{(i)} \] Biz en iyi \((\theta_0, \theta_1 )\) değerlerini arıyoruz. Diğer bir ifadeyle, hatayı minimize eden \((\theta_0, \theta_1 )\) değerlerini arıyoruz.

Hata Fonksiyonu

Modelimizin ürettiği \(i\)’inci tahmin \(h_\theta(x^{(i)})\) ile gerçek çıktı değeri \(y^{(i)}\) arasındaki farkın mümkün olduğunca az olmasını istiyoruz. Bunun için \(h_\theta(x^{(i)}) - y^{(i)}\) farklarının karesini minimize eden \((\theta_0, \theta_1 )\) değerlerini arayacağız. Dolayısıyla hata fonksiyonumuz şu şekildedir.

\[ J(\theta_0, \theta_1 ) = \frac{1}{2m} \sum^m_i \left(h_\theta(x^{(i)}) - y^{(i)} \right)^2 \] Burdaki 2, türev alındığında sadeleşecek, m ise ortalama hatayı bulmak amacıyla kullanılmıştır. Şimdi, R ile hipotez’imizin hatasını döndüren bir fonksiyon yazalım.

hipotez <- function(theta0 = -8.4761, theta1, veri = timsah){
  x = veri[,1] # Bağımsız değişken
  y = veri[,2] # Bağımlı değişken
  m = length(x)
  h = theta0  + x * theta1
  hata = (1 / (2*m)) * sum((h - y)^2) # hatanın hesaplanması 
  return(hata)
}

Varsayılan argüman olarak veri = timsah dediğimiz için, farklı bir veri kullanmak istemediğimiz sürece timsah verisini tekrar yazmamıza gerek yok. Burada anlatımı basitleştirmek için, \(\theta_0 = −8.4761\) kabul ederek yolumuza devam ediyoruz. Aşağıdaki örnekte \(\theta_1 = 3\) için hata değerini görüyoruz.

hata = hipotez(theta1 = 3)
hata
[1] 1.324207

Şimdi Farklı \(\theta_1\) değerleri için hata fonksiyonunu çizdirelim.

theta.degerleri = seq(0,7,0.05)
hatalar = theta.degerleri * 0
for (i in 1:length(theta.degerleri)){
  hatalar[i] = hipotez(theta1 = theta.degerleri[i])
}
plot(theta.degerleri, hatalar, type = "l", ylab = expression(J(theta[0], theta[1])), xlab=expression(theta[1]), lwd = 3)
grid(5, 5, lwd = 2)

Aa, hata fonksiyonumuz bir parabol çıktı. :) Aslında bu oldukça beklenen bir durum, çünkü hata fonksiyonuz \(J(\theta_0, \theta_1 )\) gerçekten de ikinci dereceden bir parabol denklemidir. Bu tür bir quadratik denklemin minimum ya da maksimum noktası olacaktır. Biz bu noktayı arıyoruz. Sizce hata fonksiyonumuz, hangi \(\theta_1\) değeri için minimum oluyor? Daha önce bulduğumuz \(\theta_1 = 3.4311\) değeri olabilir mi?

plot(theta.degerleri, hatalar, type = "l", ylab = expression(J(theta[0], theta[1])),    xlab=expression(theta[1]), lwd = 3)
# theta1= 3.4311'den bir dikme çekelim
segments(theta1, 0, theta1, 100, col= 'pink', lty = "dashed", lwd = 3)
grid(5, 5, lwd = 2)

Optimizasyon ile Öğrenmek Arasındaki İnce Çizgi

Optimizasyon ile öğrenmek arasında ince bir çizgi var. Çünkü, en iyi paramatre değerlerini öğrenmek ile optimizasyon aynı şeydir. \(J(\theta_0, \theta_1 )\) hata fonksiyonunu en küçük değerini arıyoruz. Bunu nasıl bulabiliriz? Basitlik açısından, \(\theta_0 = −8.4761\) kabul ederek boyut sayısını 3’ten 2’ye indirelim. Farklı \(\theta_1\) değerleri için \(J(\theta_0, \theta_1 )\)’in nerede en küçük değere ulaşacağını bulmaya çalışacağız. Bunun için \(J(\theta_0, \theta_1 )\) türevini alıp sıfıra eşitlemek asıl yapılması gereken şeydir. Bilgisayar biz programlamadığımız sürece, kendiliğinden türev alıp minimum noktayı bulamaz. Bilgisayara bu işi nasıl yaptıracağımızı görelim.

Gradient Descent -Dereceli İniş- Yöntemi

En iyi \(\theta_1\) değerini bulmak için rastgele bir değerden başlayıp, türevin tersi yönde adım adım ilerlersek, hedefimize ulaşabiliriz.

\[\theta_1^{(t+1)} = \theta_1^{(t)} - \alpha \frac{\partial}{\partial \theta_1} J(\theta_0, \theta_1 )\]

Yukarıdaki fonksiyon aracılığı ile, \(\theta_1\)’in değerini nasıl güncelleyeceğimizi tanımladık. Bu yöntemin adı, dereceli iniş - gradient descent - yöntemidir. Negatif \(\frac{\partial}{\partial \theta_1} J(\theta_0, \theta_1 )\) diyerek, türevin tersi yönünde (yani akıntı ile birlikte) \(\alpha\) adım (kulaç) büyüklüğü ile ilerliyoruz (yüzüyoruz). Burada dikkat edilmesi gereken nokta, algoritmamızın \(J(\theta_0, \theta_1 )\) amaç-hata fonksiyonun türevlenebilir olmasıdır. Ya amaç fonksiyonumuz türevlenebilir olmasaydı ne yapardık?

  • Heuristic-Sezgisel Yöntemlere (örneğin, Genetik Algoritmalara) başvurmamız gerekirdi. Bu konuyu başka bir yazıya bırakalım.
    • Arşimet banyonda çıkıp, Heuristic kelimesinin fiil hali olan eureka (keşfettim) diye bağırmıştır.
    • Sezgisel algoritmalar, en iyi çözümü bulmayı garanti edemez.
    • Sonsuz bir uzayda, en iyi çözümü değil, yeterince iyi bir çözümü arıyor oluruz. Bu bakış açısı çok daha gerçekçidir. (En iyi eşi ya da en iyi işi bulamazsınız, yeterince iyi olanla idare etmelisiniz :) yanılıyor muyum? İsterseniz arayın.. Hayatınızın sonuna kadar arayıp gene de hiç bir şey bulamayabilirsiniz!!)

Neyse bu konuyu kapatıp, biz işimize dönelim. :)

Kısmi Türevler

Hata fonksiyonun türevini bulalım.

\[ \begin{split} \frac{\partial}{\partial \theta_j} J(\theta_0, \theta_1 ) & = \frac{\partial}{\partial \theta_j} \left( \frac{1}{2m}\sum^m_i \left(h_\theta(x^{(i)}) - y \right)^2 \right) \\ & = \frac{1}{2m} \sum^m_i \frac{\partial}{\partial \theta_j} \left(h_\theta(x^{(i)}) - y \right)^2 \\ & = \frac{1}{2m} \sum^m_i \frac{\partial}{\partial \theta_j} \left(\theta_0 + \theta_1 x^{(i)} - y \right)^2 \end{split} \]

Ufak bir hatırlatma yapalım. Bileşike fonksiyonun türevini nasıl buluyorduk? \[ (f o g)'(x) = f' \left(g(x) \right) * g'(x) \]

Buna göre, \(\theta_0\)’a göre kısmi türev

\[ \frac{\partial}{\partial \theta_0} J(\theta_0, \theta_1 ) = \frac{1}{2m} \sum^m_i 2 \left(\theta_0 + \theta_1 x^{(i)} - y \right) = \frac{1}{m} \sum^m_i \left(h_\theta(x^{(i)}) - y \right) \]

Sadece \(\theta_1\)’a göre kısmi türev \[ \frac{\partial}{\partial \theta_1} J(\theta_0, \theta_1 ) = \frac{1}{2m} \sum^m_i 2 \left(\theta_0 + \theta_1 x^{(i)} - y \right)x^{(i)} = \frac{1}{m} \sum^m_i \left(h_\theta(x^{(i)}) - y \right)x^{(i)} \]

Bu kısmi türevlere bakıp, hangi \(\theta_0\) ve \(\theta_1\) değerleri için türevin sıfır yaptığını söyleminiz mümkün mü? Değilse, dereceli iniş yöntemine başvuracağız. Bu arada 2’lerin sadeleştiğini fark ettiniz değil mi?

Dereceli İniş Yöntemi ile Doğrusal Bağlanım

Dereceli iniş yöntemi, rastgele bir başlangıç noktasından, türevin tersi yönde \(\alpha\) adım büyüklüğü ile ilerlemek anlamına geliyor.

İniş algoritması \[\theta_i^{(t+1)} = \theta_i^{(t)} - \alpha \frac{\partial}{\partial \theta_i} J(\theta_0, \theta_1 ) \]

Şimdi mucizevi bir şekilde doğru \(\theta_0 = −8.4761\) ile başlayıp, en uygun \(\theta_1\)’in ne olduğunu bulalım. (Eğitim içeriğini kolaylaştırmak için bunu yaptık. Böylece değişken sayısını azaltarak \(J(\theta_0, \theta_1 )\)’yi iki boyutlu uzayda göreselleştirebiliyoruz.) Adım büyüklüğümüz \(\alpha = 0.043\) olsun. (Neden mi, benim ayak numaram 43 de ondan :) Tabiki bu kadar keyfi, davranmamak gerek. Çok küçük \(\alpha\) değerleri minimum noktayı bulmayı geciktirir. Çok büyük \(\alpha\) değerleri ise, sizi tam minimumu bulacakken size öyle büyük bir adım attırır ki, diğer tarafa savurabilir. Aşırı uçlarda olmayan bir adım büyüklüğü ile yola devam etmek gerekiyor. Acaba \(\theta_1\)’in nerden başlatsak? Sıfırdan başlayalım mı?

Yukarıdaki iniş algoritmasında, \(\theta_1\) için az önce bulduğumuz kısmi türevi yazalım,

\[\theta_1^{(t+1)} = \theta_1^{(t)} - \alpha \frac{1}{m} \sum^m_i \left(h_\theta(x^{(i)}) - y^{(i)} \right) \cdot x^{(i)}\]

Dikkat ederseniz, her adımda, \(1\)’den \(m\)’e kadar eğitim setindeki tüm verilere baktığımız için bu kısmen maliyeti yüksek bir hesaplama işidir.

Hesaplama

# Dereceli İniş Algoritması ile theta1'i güncelleyelim 
dereceli.inis <- function(theta0 = -8.4761, theta1, alpha = 0.043, veri = timsah){
  x = veri[,1] # Bağımsız değişken
  y = veri[,2] # Bağımlı değişken
  h = theta0  + x * theta1
  yeni.theta = theta1 - (alpha/length(x)) * (sum((h - y)*x)) # Dereceli İniş Denklemi
  return(yeni.theta)
}

Şimdi \(\theta_1^{(1)}= 0\) ile başlayalım. Ve \(\theta_1^{(2)}\), \(\theta_1^{(3)}\), \(\theta_1^{(4)}\) ve .. \(\theta_1^{(7)}\) değerlerine bakalım.

theta1.1 = 0
theta1.2 = dereceli.inis(theta1 = theta1.1)
theta1.3 = dereceli.inis(theta1 = theta1.2)
theta1.4 = dereceli.inis(theta1 = theta1.3)
theta1.5 = dereceli.inis(theta1 = theta1.4)
theta1.6 = dereceli.inis(theta1 = theta1.5)
theta1.7 = dereceli.inis(theta1 = theta1.6)
th <- c(theta1.1, theta1.2, theta1.3, theta1.4, theta1.5, theta1.6, theta1.7)
print(th)
[1] 0.000000 2.092017 2.908488 3.227140 3.351503 3.400039 3.418982

Şimdi bu \(\theta_1\) değerleri için hataları hesaplayalım.

th.hata <- th * 0
for(i in 1:length(th)){
  th.hata[i] <- hipotez(theta1 = th[i])
}
th.hata
[1] 83.470908738 12.719662204  1.942983799  0.301503216  0.051476407
[6]  0.013392859  0.007592055

Nispeten büyük bir hata ile başladık ama çok hızlı bir biçimde, hata azalarak sıfıra kadar indi. Şimdi olan biteni görselleştirelim.

# İkili Çizim
par(mfrow=c(1, 2))
# Soldaki Çizim
plot(agirlik ~ uzunluk, data = timsah,
  xlab = "Burun Uzunluğu",
  ylab = "Ağırlık",
  ylim = c(-10,10),
  main = "Central Florida'daki Timsahlar"
)
grid(5, 5, lwd = 2)
x = seq(2,6,0.5)
renkler <- c("red", "orange","gold","green", "blue", "magenta","purple")
for(i in 1:length(th)){
  h = -8.4761  + x * th[i]
  lines(x, h, col = renkler[i],lwd=2)
}
# Sağdaki Çizim
plot(theta.degerleri, hatalar, type = "l", ylab = expression(J(theta[0], theta[1])),    xlab=expression(theta[1]), main = "Hata Değeri")
points(th, th.hata, col = renkler, lwd= 5)
grid(5, 5, lwd = 2)

Yorum

Yukarıdaki görseller ne olup bittiğini anlamak adına çok faydalı. Solda veriyi açıklayan denklemleri ve sağda ise o denklemlerin hatalarını görüyoruz. \(\theta_1^{(1)} = 0\) başlangıç durumu soldaki görselde kırmızı renkli doğruya karşılık geliyor. Bu sağdaki görselde de, hata fonksiyonu üzerinde, kırmızı nokta ile gösterilmiş. Dikkat ederseniz hata oldukça fazla. Sonraki adımda ise, dereceli iniş yöntemi ile elde ettiğimiz yeni \(\theta_1^{(2)} = 2.092017\) değeri turuncu renkle gösterilmiş. Algoritmayı tekrarlı bir biçimde çalıştırarak her adımda, daha az hata yapan bir \(\theta_1^{(t)}\) elde ediyoruz, ta ki hata sıfır olana kadar. Bu sağdaki resimde, hata fonksiyonunu gösteren parabolün minimum noktasına gelmek anlamına geliyor. Biz yedinci tekrarda, \(\theta_1^{(7)} = 3.418982\) bulduk. Ve orada bıraktık. Böylece, sağdaki parabolde, mor renkli noktaya vardık. Nerdeyse minimumdayız.

\(\theta_0\) Nerede?

\(\theta_0 = -8.476067\) görmek isteseniz, soldaki resimde x ve y eksenleri ile biraz oynamamız gerekir.

# İkili Çizim
par(mfrow=c(1, 2))
# Soldaki Çizim
plot(agirlik ~ uzunluk, data = timsah,
  xlab = "Burun Uzunluğu",
  ylab = "Ağırlık",
  xlim = c(-1,5),
  ylim = c(-10,10),
  main = "Central Florida'daki Timsahlar",
  lwd = 6
)
grid(5, 5, lwd = 2)
x = seq(-1,6,0.5)
renkler <- c("red", "orange","gold","green", "blue", "magenta","purple")
for(i in 1:length(th)){
  h = -8.4761  + x * th[i]
  lines(x, h, col = renkler[i],lwd=2)
}
# Sağdaki Çizim
plot(theta.degerleri, hatalar, type = "l", ylab = expression(J(theta[0], theta[1])),    xlab=expression(theta[1]), main = "Hata Değeri")
points(th, th.hata, col = renkler, lwd= 5)
grid(5, 5, lwd = 2)

Gördüğünüz gibi bütün doğrular y eksenini, \(\theta_0 = -8.476067\)’de kesiyor. Olması gereken de bu. Çünkü, farklı \(\theta_1^{(t)}\) değeleri için çizdireceğiniz doğrularda, \(\theta_1^{(t)}= 0\) olduğunda aşağıdaki denklem \(\theta_0 = -8.476067\)’e eşit olur.

\[ h_\theta (x^{(i)})= \theta_0 + \theta_1^{(t)}x^{(i)} \]

Yeni bir veri seti

İsteseniz siz de, R’daki hazır veri kümelerinden biri olan women verisini kullanarak, doğrusal regresyon analizine devam edin.

dogrusal <-lm(weight ~ height, data=women)
summary(dogrusal)

Call:
lm(formula = weight ~ height, data = women)

Residuals:
    Min      1Q  Median      3Q     Max 
-1.7333 -1.1333 -0.3833  0.7417  3.1167 

Coefficients:
             Estimate Std. Error t value Pr(>|t|)    
(Intercept) -87.51667    5.93694  -14.74 1.71e-09 ***
height        3.45000    0.09114   37.85 1.09e-14 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 1.525 on 13 degrees of freedom
Multiple R-squared:  0.991, Adjusted R-squared:  0.9903 
F-statistic:  1433 on 1 and 13 DF,  p-value: 1.091e-14

Son Söz

Veri bilimi ile çalışmanın en güzel taraflarından biri, hiç şüphesiz öğrenmiş olduğunuz bir yapay öğrenme yönteminin biribirinden çok farklı alanlarda, birbirinde çok farklı veri setleri üzerinde çalışabilmesidir. Az önce timsahlar hakkında çalıştık, şimdi ise kadınlar hakkında neden çalışma yapmalıyım :) Çok farklılar gerçekten çok :) Kavga çıkmadan, son sözü söyleyelim. Kadınlar timsah mimsah değildir, kadınlar çiçektir.


Bu çalışmaya atıfta bulunmak isterseniz,

yazabilirsiniz. Teşekkürler

---
title: "Doğrusal Bağlanım"
author: Dr. Uzay Çetin
output: html_notebook
---

Yapay öğrenme'nin belki de ilk dersi Doğrusal Bağlanım (Lineer Regression)'dır. Andrew Ng'nin Coursera'daki [dersinden](https://www.coursera.org/learn/machine-learning/) esinlenerek basit bir çalışma yapacağız. Öncelikle timsahların ağırlığı ile burun uzunluğu arasındaki ilişkiyi tutan bir veriyi inceleyeceğiz. Ağırlık ve uzunluk arasındaki ilişkiyi, doğrusal bir denklem ile açıklayacağız. Bu işe doğrusal bağlanım ya da ingilizce adıyla lineer regression diyoruz. Çalışmamız iki aşamadan oluşuyor.

  * İlk aşamada R'ın hazır lineer regression fonksiyonları kullanacağız.
  * ikinci aşama ise, daha ileri bir seviyede, lineer regression'ın arka planında çalışan *gradient descent* (dereceli iniş) optimizasyon yöntemi ile veriyi açıkladığına inandığımız doğrusal denklemin parametrelerini kendimiz bulacağız.

### Verimizi Oluşturalım
Aşağıdaki veriyi [r-bloggers](https://www.r-bloggers.com/simple-linear-regression-2/)'dan aldım.

```{r}
uzunluk = c(3.87, 3.61, 4.33, 3.43, 3.81, 3.83, 3.46, 3.76,3.50, 3.58, 4.19, 3.78, 3.71, 3.73, 3.78)
agirlik = c(4.87, 3.93, 6.46, 3.33, 4.38, 4.70, 3.50, 4.50,3.58, 3.64, 5.90, 4.43, 4.38, 4.42, 4.25)

timsah = data.frame(uzunluk,agirlik)
```

### Veriyi Çizdirelim

```{r}
plot(agirlik ~ uzunluk, data = timsah,
  xlab = "Burun Uzunluğu",
  ylab = "Ağırlık",
  main = "Central Florida'daki Timsahlar"
)
grid(5, 5, lwd = 2)
```

Veriyi çizdiğimizde, burun uzunluğu ve ağırlık arasında doğrusal bir ilişkiyi saptıyabiliyoruz değil mi? Görünüşe göre, burun uzunluğu arttıkça, ağırlık da artıyor.


### R Hazır İşlevleri ile Doğrusal Bağlanım
R ile bağlanım oldukça kolay. Bunun içinde aşağıdaki gibi `lm()` fonksiyonu kulanılır. `summary()` ile model parametrelerini elde edebiliriz.
```{r}
Kolay.Baglanim = lm(agirlik ~ uzunluk, data = timsah)
summary(Kolay.Baglanim)
```

Burada `lm(agirlik ~ uzunluk, data = timsah)` komutunu kullanıyoruz. `~` işareti bağımlı ve bağımsız değişkenleri birbirinden ayırmak için kullanılır. Yukarıda pekçok bilgi var ama şu aşamada biz aşağıdaki bilgilerle ilgileniyoruz.

```{r}
theta0 = Kolay.Baglanim$coefficients['(Intercept)']
theta1 = Kolay.Baglanim$coefficients['uzunluk']
print(c(theta0, theta1))
```



Paramtrelerimiz şu şekilde,

  *  $\theta_0 = -8.476067$
  *  $\theta_1 = 3.431098$
  
Peşinde olduğumuz matematiksel denklem ise,
$$y = \theta_0 + \theta_1  x $$

Değerleri yerine yazarsak

$$ agirlik =  -8.4761 + 3.4311 * uzunluk$$

Bu doğrusal ilişkiyi verimizle birlikte çizdirelim.

```{r}
plot(agirlik ~ uzunluk, data = timsah,
  xlab = "Burun Uzunluğu",
  ylab = "Ağırlık",
  main = "Central Florida'daki Timsahlar"
)
x = seq(2,6,0.5)
lines(x, (theta0 + theta1 * x), col = "red")
grid(5, 5, lwd = 2)
```

### Ufak Bir Tahmin Yapalım mı?
Artık elimizde, veriyi açıklayan doğrusal denklemin parametreleri olduğuna göre, tahminde bulunabiliriz. Uzunluk 4'e eşitse Ağırlık ne olacaktır?

```{r}
x.nokta = 4
tahmin = as.numeric(theta0 + theta1 * x.nokta)
print(tahmin)
```



```{r}
plot(agirlik ~ uzunluk, data = timsah,
  xlab = "Burun Uzunluğu",
  ylab = "Ağırlık",
  main = "Central Florida'daki Timsahlar"
)
x = seq(2,6,0.5)
lines(x, (theta0 + theta1 * x), col = "red")
# Tahminimizi büyük bir pembe nokta olarak çizelim
points(x.nokta, tahmin, col= 'pink', lwd= 23)
# Noktadan x ve y eksenlerine dik pembe çizgiler indirelim
segments(x.nokta, 0, x.nokta, tahmin, col= 'pink', lty = "dashed")
segments(0, tahmin, x.nokta, tahmin, col= 'pink', lty = "dashed")
grid(5, 5, lwd = 2)
```


## İleri Seviye - Doğrusal Bağlanım 
Bu işi R'ın hazır doğrusal bağlanım fonksiyonunu kullanmadan yapabilir miyiz?


### Model 
Verimizde $x$ bağımsız değişken olmak üzere, $x^{(1)}$ birinci $x$ gözlemimiz,
$x^{(2)}$ ikinci $x$ gözlemimiz, .. $x^{(i)}$ de $i$'inci gözlemimiz olsun.
Aşağıdaki gibi bir modelimiz olduğunu düşünelim.

$$ h_\theta (x^{(i)})= \theta_0 + \theta_1 x^{(i)} $$
Biz en iyi $(\theta_0, \theta_1 )$ değerlerini arıyoruz. Diğer bir ifadeyle, hatayı minimize eden $(\theta_0, \theta_1 )$ değerlerini arıyoruz. 

### Hata Fonksiyonu
Modelimizin ürettiği $i$'inci tahmin $h_\theta(x^{(i)})$ ile gerçek çıktı değeri $y^{(i)}$ arasındaki farkın mümkün olduğunca az olmasını istiyoruz. Bunun için $h_\theta(x^{(i)}) - y^{(i)}$ farklarının karesini minimize eden $(\theta_0, \theta_1 )$ değerlerini arayacağız. Dolayısıyla hata fonksiyonumuz şu şekildedir.


$$
J(\theta_0, \theta_1 ) = \frac{1}{2m}
\sum^m_i \left(h_\theta(x^{(i)}) - y^{(i)} \right)^2
$$
Burdaki 2, türev alındığında sadeleşecek, m ise ortalama hatayı bulmak amacıyla kullanılmıştır. Şimdi, R ile hipotez'imizin hatasını döndüren bir fonksiyon yazalım.


```{r}
hipotez <- function(theta0 = -8.4761, theta1, veri = timsah){
  x = veri[,1] # Bağımsız değişken
  y = veri[,2] # Bağımlı değişken
  m = length(x)
  h = theta0  + x * theta1
  hata = (1 / (2*m)) * sum((h - y)^2) # hatanın hesaplanması 
  return(hata)
}
```

Varsayılan argüman olarak `veri = timsah` dediğimiz için, farklı bir veri kullanmak istemediğimiz sürece timsah verisini tekrar yazmamıza gerek yok. Burada anlatımı basitleştirmek için, $\theta_0 = −8.4761$ kabul ederek yolumuza devam ediyoruz. Aşağıdaki örnekte $\theta_1 = 3$ için hata değerini görüyoruz.

```{r}
hata = hipotez(theta1 = 3)
hata
```

Şimdi Farklı $\theta_1$ değerleri için hata fonksiyonunu çizdirelim.

```{r}
theta.degerleri = seq(0,7,0.05)
hatalar = theta.degerleri * 0
for (i in 1:length(theta.degerleri)){
  hatalar[i] = hipotez(theta1 = theta.degerleri[i])
}
plot(theta.degerleri, hatalar, type = "l", ylab = expression(J(theta[0], theta[1])), xlab=expression(theta[1]), lwd = 3)
grid(5, 5, lwd = 2)
```
Aa, hata fonksiyonumuz bir parabol çıktı. :) Aslında bu oldukça beklenen bir durum, çünkü hata fonksiyonuz $J(\theta_0, \theta_1 )$ gerçekten de ikinci dereceden bir parabol denklemidir. Bu tür bir quadratik denklemin minimum ya da maksimum noktası olacaktır. Biz bu noktayı arıyoruz. Sizce hata fonksiyonumuz, hangi $\theta_1$ değeri için minimum oluyor? Daha önce bulduğumuz $\theta_1 = 3.4311$ değeri olabilir mi?


```{r}
plot(theta.degerleri, hatalar, type = "l", ylab = expression(J(theta[0], theta[1])),    xlab=expression(theta[1]), lwd = 3)
# theta1= 3.4311'den bir dikme çekelim
segments(theta1, 0, theta1, 100, col= 'pink', lty = "dashed", lwd = 3)
grid(5, 5, lwd = 2)
```


## Optimizasyon ile Öğrenmek Arasındaki İnce Çizgi
Optimizasyon ile öğrenmek arasında ince bir çizgi var. Çünkü,
en iyi paramatre değerlerini öğrenmek ile optimizasyon aynı şeydir. $J(\theta_0, \theta_1 )$ hata fonksiyonunu en küçük değerini arıyoruz. Bunu nasıl bulabiliriz? Basitlik açısından, $\theta_0 = −8.4761$ kabul ederek boyut sayısını 3'ten 2'ye indirelim. Farklı $\theta_1$ değerleri için $J(\theta_0, \theta_1 )$'in nerede en küçük değere ulaşacağını bulmaya çalışacağız. Bunun için $J(\theta_0, \theta_1 )$ türevini alıp sıfıra eşitlemek asıl yapılması gereken şeydir. Bilgisayar biz programlamadığımız sürece, kendiliğinden türev alıp minimum noktayı bulamaz. Bilgisayara bu işi nasıl yaptıracağımızı görelim.



### Gradient Descent -Dereceli İniş- Yöntemi
En iyi $\theta_1$ değerini bulmak için rastgele bir değerden başlayıp, türevin tersi yönde adım adım ilerlersek, hedefimize ulaşabiliriz. 

$$\theta_1^{(t+1)} = \theta_1^{(t)} - \alpha \frac{\partial}{\partial \theta_1} J(\theta_0, \theta_1 )$$

Yukarıdaki fonksiyon aracılığı ile, $\theta_1$'in değerini nasıl güncelleyeceğimizi tanımladık. Bu yöntemin adı, dereceli iniş - **gradient descent** - yöntemidir. 
Negatif $\frac{\partial}{\partial \theta_1} J(\theta_0, \theta_1 )$ diyerek,
türevin tersi yönünde (yani akıntı ile birlikte)
$\alpha$ adım (kulaç) büyüklüğü ile ilerliyoruz (yüzüyoruz). Burada dikkat edilmesi gereken nokta, algoritmamızın $J(\theta_0, \theta_1 )$ amaç-hata fonksiyonun türevlenebilir olmasıdır. Ya amaç fonksiyonumuz türevlenebilir olmasaydı ne yapardık? 

  * Heuristic-Sezgisel Yöntemlere (örneğin, Genetik Algoritmalara) başvurmamız gerekirdi. Bu konuyu başka bir yazıya bırakalım.
    * Arşimet banyonda çıkıp, Heuristic kelimesinin fiil hali olan *eureka* (keşfettim) diye bağırmıştır.
    * Sezgisel algoritmalar, en iyi çözümü bulmayı garanti edemez.
    * Sonsuz bir uzayda, en iyi çözümü değil, yeterince iyi bir çözümü arıyor oluruz. Bu bakış açısı çok daha gerçekçidir. (En iyi eşi ya da en iyi işi bulamazsınız, yeterince iyi olanla idare etmelisiniz :) yanılıyor muyum? İsterseniz arayın.. Hayatınızın sonuna kadar arayıp gene de hiç bir şey bulamayabilirsiniz!!)

Neyse bu konuyu kapatıp, biz işimize dönelim. :)

### Kısmi Türevler

Hata fonksiyonun türevini bulalım. 

$$ 
\begin{split}
\frac{\partial}{\partial \theta_j} J(\theta_0, \theta_1 ) 
& = 
\frac{\partial}{\partial \theta_j} 
\left( \frac{1}{2m}\sum^m_i \left(h_\theta(x^{(i)}) - y \right)^2 \right)
\\
& = 
\frac{1}{2m}
\sum^m_i 
\frac{\partial}{\partial \theta_j} 
\left(h_\theta(x^{(i)})  - y \right)^2
\\
& = 
\frac{1}{2m}
\sum^m_i 
\frac{\partial}{\partial \theta_j} 
\left(\theta_0 + \theta_1 x^{(i)}  - y \right)^2
\end{split}
$$


Ufak bir hatırlatma yapalım. Bileşike fonksiyonun türevini nasıl buluyorduk? 
$$
 (f o g)'(x)  = f' \left(g(x) \right) * g'(x)
$$

Buna göre, $\theta_0$'a göre kısmi türev

$$
\frac{\partial}{\partial \theta_0} J(\theta_0, \theta_1 )  
= 
\frac{1}{2m}
\sum^m_i 2 \left(\theta_0 + \theta_1 x^{(i)}  - y \right)
= 
\frac{1}{m}
\sum^m_i \left(h_\theta(x^{(i)}) - y \right)
$$

Sadece $\theta_1$'a göre kısmi türev
$$
\frac{\partial}{\partial \theta_1} J(\theta_0, \theta_1 )  
= 
\frac{1}{2m}
\sum^m_i 2 \left(\theta_0 + \theta_1 x^{(i)}  - y \right)x^{(i)}
= 
\frac{1}{m}
\sum^m_i \left(h_\theta(x^{(i)}) - y \right)x^{(i)}
$$

Bu kısmi türevlere bakıp, hangi $\theta_0$ ve $\theta_1$ değerleri için türevin sıfır yaptığını söyleminiz mümkün mü? Değilse, dereceli iniş yöntemine başvuracağız. Bu arada 2'lerin sadeleştiğini fark ettiniz değil mi?

## Dereceli İniş Yöntemi ile Doğrusal Bağlanım
Dereceli iniş yöntemi, rastgele bir başlangıç noktasından, türevin tersi yönde $\alpha$ adım büyüklüğü ile ilerlemek anlamına geliyor.

`İniş algoritması`
$$\theta_i^{(t+1)} = \theta_i^{(t)} - \alpha 
\frac{\partial}{\partial \theta_i} J(\theta_0, \theta_1 )
$$
 
Şimdi mucizevi bir şekilde doğru  $\theta_0 = −8.4761$ ile başlayıp, en uygun  $\theta_1$'in ne olduğunu bulalım. (Eğitim içeriğini kolaylaştırmak için bunu yaptık. Böylece değişken sayısını azaltarak $J(\theta_0, \theta_1 )$'yi iki boyutlu uzayda göreselleştirebiliyoruz.) Adım büyüklüğümüz $\alpha = 0.043$ olsun. (Neden mi, benim ayak numaram 43 de ondan :) Tabiki bu kadar keyfi, davranmamak gerek. Çok küçük $\alpha$ değerleri minimum noktayı bulmayı geciktirir. Çok büyük $\alpha$ değerleri ise, sizi tam minimumu bulacakken size öyle büyük bir adım attırır ki, diğer tarafa savurabilir. Aşırı uçlarda olmayan bir adım büyüklüğü ile yola devam etmek gerekiyor.
Acaba 
$\theta_1$'in nerden başlatsak? Sıfırdan başlayalım mı?



Yukarıdaki iniş algoritmasında, $\theta_1$ için az önce bulduğumuz kısmi türevi yazalım, 



$$\theta_1^{(t+1)} = \theta_1^{(t)} - \alpha  
\frac{1}{m} 
\sum^m_i \left(h_\theta(x^{(i)}) - y^{(i)} \right) \cdot x^{(i)}$$

Dikkat ederseniz,
her adımda, $1$'den $m$'e kadar eğitim setindeki tüm verilere baktığımız için bu kısmen maliyeti yüksek bir hesaplama işidir.

## Hesaplama

```{r}
# Dereceli İniş Algoritması ile theta1'i güncelleyelim 
dereceli.inis <- function(theta0 = -8.4761, theta1, alpha = 0.043, veri = timsah){
  x = veri[,1] # Bağımsız değişken
  y = veri[,2] # Bağımlı değişken
  h = theta0  + x * theta1
  yeni.theta = theta1 - (alpha/length(x)) * (sum((h - y)*x)) # Dereceli İniş Denklemi
  return(yeni.theta)
}
```

Şimdi $\theta_1^{(1)}= 0$ ile başlayalım. Ve $\theta_1^{(2)}$, $\theta_1^{(3)}$, $\theta_1^{(4)}$ ve .. $\theta_1^{(7)}$ değerlerine bakalım.

```{r}
theta1.1 = 0
theta1.2 = dereceli.inis(theta1 = theta1.1)
theta1.3 = dereceli.inis(theta1 = theta1.2)
theta1.4 = dereceli.inis(theta1 = theta1.3)
theta1.5 = dereceli.inis(theta1 = theta1.4)
theta1.6 = dereceli.inis(theta1 = theta1.5)
theta1.7 = dereceli.inis(theta1 = theta1.6)

th <- c(theta1.1, theta1.2, theta1.3, theta1.4, theta1.5, theta1.6, theta1.7)
print(th)
```

Şimdi bu $\theta_1$ değerleri için hataları hesaplayalım.

```{r}
th.hata <- th * 0
for(i in 1:length(th)){
  th.hata[i] <- hipotez(theta1 = th[i])
}
th.hata
```

Nispeten büyük bir hata ile başladık ama çok hızlı bir biçimde, hata azalarak sıfıra kadar indi. Şimdi olan biteni görselleştirelim.





```{r}
# İkili Çizim
par(mfrow=c(1, 2))
# Soldaki Çizim
plot(agirlik ~ uzunluk, data = timsah,
  xlab = "Burun Uzunluğu",
  ylab = "Ağırlık",
  ylim = c(-10,10),
  main = "Central Florida'daki Timsahlar"
)
grid(5, 5, lwd = 2)

x = seq(2,6,0.5)
renkler <- c("red", "orange","gold","green", "blue", "magenta","purple")
for(i in 1:length(th)){
  h = -8.4761  + x * th[i]
  lines(x, h, col = renkler[i],lwd=2)
}

# Sağdaki Çizim
plot(theta.degerleri, hatalar, type = "l", ylab = expression(J(theta[0], theta[1])),    xlab=expression(theta[1]), main = "Hata Değeri")
points(th, th.hata, col = renkler, lwd= 5)
grid(5, 5, lwd = 2)

```
### Yorum
Yukarıdaki görseller ne olup bittiğini anlamak adına çok faydalı. Solda veriyi açıklayan denklemleri ve sağda ise o denklemlerin hatalarını görüyoruz. $\theta_1^{(1)} = 0$ başlangıç durumu soldaki görselde kırmızı renkli doğruya karşılık geliyor. Bu sağdaki görselde de, hata fonksiyonu üzerinde, kırmızı nokta ile gösterilmiş. Dikkat ederseniz hata oldukça fazla. Sonraki adımda ise, dereceli iniş yöntemi ile elde ettiğimiz yeni $\theta_1^{(2)} = 2.092017$ değeri turuncu renkle gösterilmiş. Algoritmayı tekrarlı bir biçimde çalıştırarak her adımda, daha az hata yapan bir $\theta_1^{(t)}$ elde ediyoruz, ta ki hata sıfır olana kadar. Bu sağdaki resimde, hata fonksiyonunu gösteren parabolün minimum noktasına gelmek anlamına geliyor. Biz yedinci 
tekrarda, $\theta_1^{(7)} = 3.418982$ bulduk. Ve orada bıraktık. Böylece, sağdaki parabolde, mor renkli noktaya vardık. Nerdeyse minimumdayız. 



### $\theta_0$ Nerede?
$\theta_0 = -8.476067$ görmek isteseniz, soldaki resimde x ve y eksenleri ile biraz oynamamız gerekir.

```{r}
# İkili Çizim
par(mfrow=c(1, 2))
# Soldaki Çizim
plot(agirlik ~ uzunluk, data = timsah,
  xlab = "Burun Uzunluğu",
  ylab = "Ağırlık",
  xlim = c(-1,5),
  ylim = c(-10,10),
  main = "Central Florida'daki Timsahlar",
  lwd = 6
)
grid(5, 5, lwd = 2)

x = seq(-1,6,0.5)
renkler <- c("red", "orange","gold","green", "blue", "magenta","purple")
for(i in 1:length(th)){
  h = -8.4761  + x * th[i]
  lines(x, h, col = renkler[i],lwd=2)
}

# Sağdaki Çizim
plot(theta.degerleri, hatalar, type = "l", ylab = expression(J(theta[0], theta[1])),    xlab=expression(theta[1]), main = "Hata Değeri")
points(th, th.hata, col = renkler, lwd= 5)
grid(5, 5, lwd = 2)
```
Gördüğünüz gibi bütün doğrular y eksenini, $\theta_0 = -8.476067$'de kesiyor. Olması gereken de bu. Çünkü, farklı $\theta_1^{(t)}$ değeleri için çizdireceğiniz doğrularda, $\theta_1^{(t)}= 0$ olduğunda aşağıdaki denklem $\theta_0 = -8.476067$'e eşit olur.


$$ h_\theta (x^{(i)})= \theta_0 + \theta_1^{(t)}x^{(i)} $$


## Yeni bir veri seti
İsteseniz siz de, R'daki hazır veri kümelerinden biri olan **women** verisini kullanarak, doğrusal regresyon analizine devam edin. 

```{r}
dogrusal <-lm(weight ~ height, data=women)
summary(dogrusal)
```
### Son Söz
 
Veri bilimi ile çalışmanın en güzel taraflarından biri, hiç şüphesiz öğrenmiş olduğunuz bir yapay öğrenme yönteminin biribirinden çok farklı alanlarda, birbirinde çok farklı veri setleri üzerinde çalışabilmesidir. Az önce timsahlar hakkında çalıştık, şimdi ise kadınlar hakkında neden çalışma yapmalıyım :) Çok farklılar gerçekten çok :) Kavga çıkmadan, son sözü söyleyelim. Kadınlar timsah mimsah değildir, kadınlar çiçektir.


<hr>
Bu çalışmaya atıfta bulunmak isterseniz,

  * Uzay Çetin, R ile Doğrusal Bağlanım, https://uzay00.github.io/kahve/notebooks/DogrusalBaglanim.nb.html, 2017
  
yazabilirsiniz. Teşekkürler