sumber: google |
Multikolineariti
adalah keadaan di mana korelasi antara pasangan pemboleh ubah tidak bersandar yang
sangat tinggi (r = 0.9 dan ke atas). Oleh itu, multikolineariti ditakrifkan
sebagai sejenis gangguan dalam data, dan jika ia wujud, dapatan statistik yang didapati
berkemungkinan tidak boleh dipercayai.
Kewujudan masalah multikolineariti
perlu dilakukan sebagai salah satu langkah awal dalam data kita sebelum
melakukan analisis lanjut seperti analisis regresi berganda (mutliple linear
regression - MLR). Jika anda berhasrat untuk menggunakan MLR dalam kajian, anda
seharusnya peka dengan isu ini dan melakukan ‘usaha’ lanjut bagi mengatasi
masalah ini.
Tanda-tanda kewujudan multikolineariti
- Apabila kita menambah atau membuang pemboleh ubah tidak bersandar, nilai pekali regresi akan berubah dengan ketara
- Ralat piawai bagi pekali regresi menjadi besar
- Pekali regresi sesuatu pemboleh ubah tidak bersandar akan menjadi tidak signifikan walaupun keseluruhan model adalah signifikan
- Sesetengah pekali regresi berkemungkinan akan berbeza secara signifikan daripada apa yang dijangka (walaupun mempunyai tanda yang berbeza)
- Nilai korelasi antara pasangan pemboleh ubah tidak bersandar adalah tinggi
Penyebab multikolineariti
- Pensampelan: kita hanya mengambil sampel kawasan yang mempunyai pemboleh ubah tidak bersandar berkorelasi
- Model (atau populasi) tersebut memerlukan beberapa pemboleh ubah tertentu mempunyai korelasi
- Tidak menggunakan model yang terbaik
Bagaimana untuk kenal pasti multikolineariti?
- Matriks korelasi
- Variance Inflation Factor (VIF)
- VIF mengukur kesan kolineariti antara pemboleh ubah dalam model regresi. Nilai VIF lazimnya ≥1. Dalam kajian literasi, terdapat beberapa cadangan digunakan untuk nilai VIF yang diterima. Tetapi secara kebiasaannya, nilai VIF = 10 dicadangkan sebagai nilai maksimum menandakan multikolineariti wujud (iaitu Hair, Anderson, Tatham, & Black, 1995; Kennedy, 1992; Marquardt, 1970; Neter, Wasserman, & Kutner, 1989). Namun, ada juga kajian menyarankan 5 sebagai nilai maksimum (cth: Rogerson, 2001) malah nilai 4 (cth: Pan & Jackson, 2008)
3. Tolerance
4. Eigensystem analysis
Bagaimana berhadapan dengan masalah
multikolineariti?
- .. Membuang pemboleh ubah yang mempunyai korelasi yang tinggi dalam model
- ..Menggunakan kaedah Partial Lease Square Regression (PLS) atau Principal Component Analysis (PCA)
Rujukan:
● Hair, J. F. Jr., Anderson, R. E.,
Tatham, R. L. & Black, W. C. (1995). Multivariate Data Analysis (3rd ed).
New York: Macmillan.
● Kennedy, P. (1992). A Guide to
Econometrics. Oxford: Blackwell.
●Marquardt, D. W. (1970). Generalized
inverses, ridge regression, biased linear estimation, and nonlinear estimation.
Technometrics, 12, 591–256.
● Neter, J., Wasserman, W. &
Kutner, M. H. (1989). Applied Linear Regression Models. Homewood, IL: Irwin.
● Pan, Y, & Jackson, R. T. (2008).
Ethnic difference in the relationship between acute inflammation and and serum
ferritin in US adult males. Epidemiology and Infection, 136, 421-431.
● Rogerson, P. A. (2001). Statistical
methods for geography. London: Sage.