Dalam dunia analisis data, seringkali kita dihadapkan pada situasi di mana hasil yang ingin kita prediksi bersifat diskrit, khususnya dalam bentuk biner. Artinya, hasil tersebut hanya memiliki dua kemungkinan, misalnya "ya" atau "tidak", "lulus" atau "gagal", "sembuh" atau "tidak sembuh", "pembeli" atau "bukan pembeli". Untuk memodelkan hubungan antara satu atau lebih variabel prediktor dengan hasil biner ini, salah satu metode statistik yang paling populer dan kuat adalah **analisis regresi logistik biner**.
Berbeda dengan regresi linear yang memprediksi nilai kontinu, regresi logistik biner dirancang khusus untuk variabel dependen (variabel yang ingin diprediksi) yang bersifat kategorikal dengan dua kategori. Tujuannya adalah untuk memodelkan probabilitas suatu kejadian terjadi berdasarkan nilai variabel independen (variabel prediktor). Hasil dari model regresi logistik bukanlah nilai prediksi langsung, melainkan probabilitas yang berkisar antara 0 hingga 1.
Inti dari regresi logistik biner adalah penggunaan fungsi logistik atau fungsi sigmoid. Fungsi ini memiliki bentuk "S" yang memetakan setiap nilai input (yang merupakan kombinasi linear dari variabel prediktor) ke dalam rentang probabilitas antara 0 dan 1. Secara matematis, fungsi sigmoid ($\sigma(z)$) didefinisikan sebagai:
$\sigma(z) = \frac{1}{1 + e^{-z}}$
Di sini, $z$ adalah kombinasi linear dari variabel prediktor ($x_1, x_2, \dots, x_n$) dan koefisien regresinya ($\beta_0, \beta_1, \dots, \beta_n$):
$z = \beta_0 + \beta_1 x_1 + \beta_2 x_2 + \dots + \beta_n x_n$
Jadi, regresi logistik memodelkan probabilitas dari kategori hasil tertentu (misalnya, probabilitas kejadian "ya") sebagai:
$P(Y=1 | X) = \frac{1}{1 + e^{-(\beta_0 + \beta_1 x_1 + \dots + \beta_n x_n)}}$
Koefisien regresi ($\beta_i$) dalam model ini menginterpretasikan perubahan logaritma peluang (log-odds) untuk setiap kenaikan satu unit pada variabel prediktor $x_i$, dengan asumsi variabel lain konstan. Log-odds didefinisikan sebagai $\log\left(\frac{P(Y=1|X)}{P(Y=0|X)}\right)$.
Regresi logistik biner sangat berguna dalam berbagai skenario, di antaranya:
Proses analisis regresi logistik biner umumnya melibatkan beberapa tahapan:
Regresi logistik biner menawarkan beberapa keunggulan:
Namun, regresi logistik biner juga memiliki keterbatasan:
Meskipun demikian, analisis regresi logistik biner tetap menjadi alat fundamental dalam toolbox seorang analis data dan ilmuwan data untuk memecahkan berbagai masalah klasifikasi biner, memberikan wawasan berharga tentang faktor-faktor yang memengaruhi probabilitas terjadinya suatu peristiwa.