Wednesday, 12 July 2017

CERITA 17: Multicollinearity Dalam Data

 Multikolineariti (multicollienarity) 

sumber: google

Multikolineariti adalah keadaan di mana korelasi antara pasangan pemboleh ubah tidak bersandar yang sangat tinggi (r = 0.9 dan ke atas). Oleh itu, multikolineariti ditakrifkan sebagai sejenis gangguan dalam data, dan jika ia wujud, dapatan statistik yang didapati berkemungkinan tidak boleh dipercayai.

Kewujudan masalah multikolineariti perlu dilakukan sebagai salah satu langkah awal dalam data kita sebelum melakukan analisis lanjut seperti analisis regresi berganda (mutliple linear regression - MLR). Jika anda berhasrat untuk menggunakan MLR dalam kajian, anda seharusnya peka dengan isu ini dan melakukan ‘usaha’ lanjut bagi mengatasi masalah ini.


Tanda-tanda kewujudan multikolineariti 
  •  Apabila kita menambah atau membuang pemboleh ubah tidak bersandar, nilai pekali regresi akan berubah dengan ketara
  • Ralat piawai bagi pekali regresi menjadi besar
  • Pekali regresi sesuatu pemboleh ubah tidak bersandar akan menjadi tidak signifikan walaupun keseluruhan model adalah signifikan
  • Sesetengah pekali regresi berkemungkinan akan berbeza secara signifikan daripada apa yang dijangka (walaupun mempunyai tanda yang berbeza)
  • Nilai korelasi antara pasangan pemboleh ubah tidak bersandar adalah tinggi


Penyebab multikolineariti
  •  Pensampelan: kita hanya mengambil sampel kawasan yang mempunyai pemboleh ubah tidak bersandar berkorelasi
  • Model (atau populasi) tersebut memerlukan beberapa pemboleh ubah tertentu mempunyai korelasi
  • Tidak menggunakan model yang terbaik


Bagaimana untuk kenal pasti multikolineariti?
  1. Matriks korelasi 
  2. Variance Inflation Factor (VIF) 
  3. VIF mengukur kesan kolineariti antara pemboleh ubah dalam model regresi. Nilai VIF lazimnya ≥1. Dalam kajian literasi, terdapat beberapa cadangan digunakan untuk nilai VIF yang diterima. Tetapi secara kebiasaannya, nilai VIF = 10 dicadangkan sebagai nilai maksimum menandakan multikolineariti wujud (iaitu Hair, Anderson, Tatham, & Black, 1995; Kennedy, 1992; Marquardt, 1970; Neter, Wasserman, & Kutner, 1989). Namun, ada juga kajian menyarankan 5 sebagai nilai maksimum (cth: Rogerson, 2001) malah nilai 4 (cth: Pan & Jackson, 2008) 
     3. Tolerance 
     4. Eigensystem analysis 


Bagaimana berhadapan dengan masalah multikolineariti?
  1.       .. Membuang pemboleh ubah yang mempunyai korelasi yang tinggi dalam model
  2.   ..Menggunakan kaedah Partial Lease Square Regression (PLS) atau Principal Component Analysis (PCA)


Rujukan:
● Hair, J. F. Jr., Anderson, R. E., Tatham, R. L. & Black, W. C. (1995). Multivariate Data Analysis (3rd ed). New York: Macmillan.
● Kennedy, P. (1992). A Guide to Econometrics. Oxford: Blackwell.
●Marquardt, D. W. (1970). Generalized inverses, ridge regression, biased linear estimation, and nonlinear estimation. Technometrics, 12, 591–256.
● Neter, J., Wasserman, W. & Kutner, M. H. (1989). Applied Linear Regression Models. Homewood, IL: Irwin.
● Pan, Y, & Jackson, R. T. (2008). Ethnic difference in the relationship between acute inflammation and and serum ferritin in US adult males. Epidemiology and Infection, 136, 421-431.
● Rogerson, P. A. (2001). Statistical methods for geography. London: Sage.





No comments:

Post a Comment