Doğrusal regresyon, sayısal bir değeri tahmin etmek amacıyla bir hedef sonuç etiketi ile bir veya daha fazla özellik değişkeni arasındaki ilişkiyi tahmin etmek için bir dizi veri noktası aracılığıyla doğrusal bir modele uyar. Çıkış y (etiket), şu şekilde görselleştirilebilecek düz bir çizgi olarak tahmin edilebilir:
y = kesme noktası + ci * xi + Hata
Burada xi giriş değişkenleri (özellikler) ve ci, kesişim ve Hata parametreleri sırasıyla regresyon katsayıları, sabit sapma ve hatadır. Ci katsayıları, ilgili bağımsız değişkendeki (x özelliği) bir birim artış için bağımlı değişkendeki (y etiketi) artış olarak yorumlanabilir. Aşağıdaki basit örnekte, evin büyüklüğüne (x özelliği) göre ev fiyatını (y etiketi) tahmin etmek için doğrusal regresyon kullanılmıştır.
X ve y noktaları ile çizgi arasındaki mesafe, bağımsız ve bağımlı değişkenler arasındaki bağlantının gücünü belirler. Çizginin eğimi genellikle şu şekilde belirlenir: en küçük kareler Eğri üzerindeki noktaların uzaklıklarının karelerinin toplamının en aza indirildiği yöntem.
Kaynak: Vikipedi
İki temel doğrusal regresyon türü vardır: basit doğrusal regresyon ve çoklu doğrusal regresyon. Basit doğrusal regresyonda, tek bir bağımlı değişkenin sonucunu açıklamak veya tahmin etmek için bir bağımsız değişken kullanılır. Çoklu doğrusal regresyon, iki veya daha fazla bağımsız değişken kullanarak aynı şeyi yapar.
Regresyon genellikle sonuçları tahmin etmek için kullanılır. Örneğin regresyon, diş fırçalama ile diş çürüğü arasındaki ilişkiyi bulmak olabilir. X ekseni belirli bir popülasyondaki çürüklerin sıklığını, y ekseni ise bu popülasyondaki insanların dişlerini fırçalama sıklığını gösterir. Her kişi, grafik üzerinde haftalık diş fırçalama sıklığını ve sahip olduğu çürük sayısını temsil eden bir nokta ile tanımlanır. Gerçek dünyada, grafiğin her yerinde noktalar olacaktır; çünkü sık sık dişlerini fırçalayan bazı kişilerde çürükler oluşurken, çok sık fırçalamayan bazı kişilerde ise diş çürümesinden kurtulur. Ancak diş çürüğü hakkında bilinenler göz önüne alındığında, grafikteki tüm noktalara en yakın olan çizgi muhtemelen aşağıya ve sağa doğru eğimli olacaktır.
Regresyon analizinin en yararlı uygulamalarından biri hava durumudur. Güneydoğu Atlantik'teki okyanus sıcaklıkları ve kasırgaların görülme sıklığı gibi değişkenler arasında güçlü bir korelasyon kurulduğunda, bağımsız değişkenlerdeki değişikliklere dayanarak gelecekteki olayları tahmin etmek için bir formül oluşturulabilir.
Regresyon analizi, geçmiş faiz oranlarına dayalı olarak bir yatırım hesabının gelecekteki değerinin tahmin edilmesi gibi finansal senaryolarda da yararlı olabilir. Faiz oranları aydan aya değişmekle birlikte, uzun vadede, büyümeyi ve yatırımı makul bir doğrulukla tahmin etmek için kullanılabilecek belirli modeller ortaya çıkar.
Bu teknik aynı zamanda ilişkileri sezgisel olarak açık olmayan faktörler arasındaki korelasyonların belirlenmesinde de faydalıdır. Ancak korelasyon ve nedenselliğin iki farklı şey olduğunu hatırlamak önemlidir. Bunları karıştırmak tehlikeli yanlış varsayımlara yol açabilir. Örneğin, dondurma satışları ve boğulma ölümlerinin sıklığı üçüncü bir faktörle (yaz) ilişkilidir; ancak dondurma yemenin boğulmayla bir ilgisi olduğuna inanmak için hiçbir neden yoktur.
Çoklu doğrusal regresyonun yararlı olduğu yer burasıdır. Tek bir bağımlı değişkenin sonucunu tahmin etmek için birkaç bağımsız değişkeni inceler. Ayrıca bağımlı ve bağımsız değişkenler arasında doğrusal bir ilişkinin var olduğunu, artıkların (regresyon çizgisinin üstünde veya altında kalan noktaların) normal olduğunu ve tüm rastgele değişkenlerin aynı sonlu varyansa sahip olduğunu varsayar.
Bağımsız değişkenlerin bağımlı değişkenler üzerindeki etkisinin göreceli gücünü belirlemek ve herhangi bir bağımsız değişken kümesinin bağımlı değişkenler üzerindeki etkisini ölçmek için çoklu doğrusal regresyon kullanılabilir. Bir malın fiyatını tahmin etmek gibi pek çok faktörün iş başında olduğu problem setlerinde basit doğrusal regresyondan daha kullanışlıdır.
Verilerin bir modele uygun hale getirildiği ve matematiksel bir fonksiyon olarak ifade edildiği, doğrusal olmayan regresyon adı verilen üçüncü bir tür daha vardır. Genellikle birden fazla değişken söz konusudur ve ilişki düz bir çizgi yerine bir eğri olarak temsil edilir. Doğrusal olmayan regresyon, bağımsız ve bağımlı değişkenler arasındaki keyfi ilişkilere sahip modelleri tahmin edebilir. Yaygın bir örnek, zaman içindeki nüfusun tahmin edilmesidir. Nüfus ve zaman arasında güçlü bir ilişki olsa da ilişki doğrusal değildir çünkü yıldan yıla değişiklikler çeşitli faktörlerden etkilenir. Doğrusal olmayan bir nüfus büyüme modeli, gerçekte ölçülmeyen zamanlar için nüfus hakkında tahminlerde bulunulmasını sağlar.