Wednesday, 12 July 2017

CERITA 17: Multicollinearity Dalam Data

 Multikolineariti (multicollienarity) 

sumber: google

Multikolineariti adalah keadaan di mana korelasi antara pasangan pemboleh ubah tidak bersandar yang sangat tinggi (r = 0.9 dan ke atas). Oleh itu, multikolineariti ditakrifkan sebagai sejenis gangguan dalam data, dan jika ia wujud, dapatan statistik yang didapati berkemungkinan tidak boleh dipercayai.

Kewujudan masalah multikolineariti perlu dilakukan sebagai salah satu langkah awal dalam data kita sebelum melakukan analisis lanjut seperti analisis regresi berganda (mutliple linear regression - MLR). Jika anda berhasrat untuk menggunakan MLR dalam kajian, anda seharusnya peka dengan isu ini dan melakukan ‘usaha’ lanjut bagi mengatasi masalah ini.


Tanda-tanda kewujudan multikolineariti 
  •  Apabila kita menambah atau membuang pemboleh ubah tidak bersandar, nilai pekali regresi akan berubah dengan ketara
  • Ralat piawai bagi pekali regresi menjadi besar
  • Pekali regresi sesuatu pemboleh ubah tidak bersandar akan menjadi tidak signifikan walaupun keseluruhan model adalah signifikan
  • Sesetengah pekali regresi berkemungkinan akan berbeza secara signifikan daripada apa yang dijangka (walaupun mempunyai tanda yang berbeza)
  • Nilai korelasi antara pasangan pemboleh ubah tidak bersandar adalah tinggi


Penyebab multikolineariti
  •  Pensampelan: kita hanya mengambil sampel kawasan yang mempunyai pemboleh ubah tidak bersandar berkorelasi
  • Model (atau populasi) tersebut memerlukan beberapa pemboleh ubah tertentu mempunyai korelasi
  • Tidak menggunakan model yang terbaik


Bagaimana untuk kenal pasti multikolineariti?
  1. Matriks korelasi 
  2. Variance Inflation Factor (VIF) 
  3. VIF mengukur kesan kolineariti antara pemboleh ubah dalam model regresi. Nilai VIF lazimnya ≥1. Dalam kajian literasi, terdapat beberapa cadangan digunakan untuk nilai VIF yang diterima. Tetapi secara kebiasaannya, nilai VIF = 10 dicadangkan sebagai nilai maksimum menandakan multikolineariti wujud (iaitu Hair, Anderson, Tatham, & Black, 1995; Kennedy, 1992; Marquardt, 1970; Neter, Wasserman, & Kutner, 1989). Namun, ada juga kajian menyarankan 5 sebagai nilai maksimum (cth: Rogerson, 2001) malah nilai 4 (cth: Pan & Jackson, 2008) 
     3. Tolerance 
     4. Eigensystem analysis 


Bagaimana berhadapan dengan masalah multikolineariti?
  1.       .. Membuang pemboleh ubah yang mempunyai korelasi yang tinggi dalam model
  2.   ..Menggunakan kaedah Partial Lease Square Regression (PLS) atau Principal Component Analysis (PCA)


Rujukan:
● Hair, J. F. Jr., Anderson, R. E., Tatham, R. L. & Black, W. C. (1995). Multivariate Data Analysis (3rd ed). New York: Macmillan.
● Kennedy, P. (1992). A Guide to Econometrics. Oxford: Blackwell.
●Marquardt, D. W. (1970). Generalized inverses, ridge regression, biased linear estimation, and nonlinear estimation. Technometrics, 12, 591–256.
● Neter, J., Wasserman, W. & Kutner, M. H. (1989). Applied Linear Regression Models. Homewood, IL: Irwin.
● Pan, Y, & Jackson, R. T. (2008). Ethnic difference in the relationship between acute inflammation and and serum ferritin in US adult males. Epidemiology and Infection, 136, 421-431.
● Rogerson, P. A. (2001). Statistical methods for geography. London: Sage.





Thursday, 6 July 2017

CERITA 16: Penjelmaan Data (Data Transformation)

Penjelmaan Data (Data Transformation)



Salam semua pembaca yang budiman, wahh bila mood R.A.J.I.N datang menjelma, hari-hari ko update blog.hehe. Ok kalau nak tau untuk semua pembaca, setiap entry yang ditulis adalah melalui pemahaman dan pembacaan saya di beberapa blog/ website/ jurnal di internet.

Juga hasil rujukan daripada beberapa buah buku. Adakalanya saya ambil ringkas sahaja kerana untuk rujukan saya juga, maklumlah adakalanya kita juga mudah terlupa dan blog ini adalah salah satu catatan ringkas saya secara santai.

*Flashback kejap* 
Ok tajuk di atas ni sebenarnya mengingatkan saya memori sewaktu buat degree dulu di Institut Sains Matematik, Fakulti Sains, Universiti Malaya. Banyak kenangan di situ, tambahan pula 12 tahun dahulu, pelajar Melayu yang ambil statistik berapa kerat sahaja. Dan salah satu subjek yang saya gemari adalah Analisis Data, waktu tu antara pensyarah favourite saya dan geng adalah Dr. Ibrahim Mohamed, sekarang beliau dah bergelar Prof. Dr. Ibrahim Mohamed, ;). Tahniah Prof! Juga antara pensyarah yang kurus, tinggi, lawa mengajar subjek Design of Experiment (DOE), Prof. Dr. Aishah Hamzah. Setiap hari nak pergi kelas sebab suka tengok gaya beliau yang tak pernah tak cantik! hehe . maklumlah student2 nya selebet sahaja. 


Kembali kepada penjelmaan data

Ok, balik kepada realiti. Masa bila perlunya kita buat data transformation ni? Ok, setelah kita melihat bentuk taburan data melalui beberapa kaedah visual sebelum ni, seperti histogram/ plot normal, adakalanya bentuknya tidak menyerupai loceng atau berbentuk taburan normal. Sebagai perbandingan, bentuknya seperti di bawah:

sumber: google



Jika data kita mengikuti bentuk taburan normal, seharusnya nilai min=median=mode adalah sama.


Walaubagaimanapun, adakalanya kita mendapat bentuk seperti yang di bahagian tengah (positive skew- pencong ke kanan) atau (negative skew- pencong ke kiri).

Bagaimana untuk atasi masalah ini?

Seperti yang diketahui, kaedah statistik berparameter (parametric) memerlukan andaian kenormalan. Jika tidak, kaedah statistik tak berparameter (non-parametric statistic) mungkin menjadi pilihan anda.


Antara kaedah penjelmaan data yang popular:

1. Square-root transformation 
    - jika varians berkadaran dengan nilai min
    - sesuai untuk data berbentuk bilangan (count data)
 

Jika kita lihat bentuk taburan data asal kelihatan pencong ke kanan, setelah kita lakukan square-root transformation, bentuk taburan menjadi taburan normal.


2. Log transformation
    - jika sisihan piawai berkadaran dengan nilai min
    - untuk taburan berbentuk pencong ke kanan




3. Reciprocal transformation
    - jika sisihan piawai berkadaran dengan nilai min kuasa dua




OK..sampai sini dulu.. jika rajin akan update lagi. tkasih sudi membaca.













Wednesday, 5 July 2017

CERITA 15: Andaian Kenormalan- Normality Assumption

Andaian Kenormalan- Normality Assumption

Salam semua, lama sungguh tak update entry di sini. Kekangan masa, dan ikut mood rajin datang nak menulis. Hehe.

Ok lah, hari ini saya nak kongsikan serba sedikit tentang beberapa kaedah / teknik yang kita boleh gunakan untuk tentukan samada andaian kenormalan dipenuhi oleh data kita.

Mengapa andaian kenormalan sangat penting? Ini kerana banyak kaedah dan ujian statistik memerlukan data kita menghampiri taburan normal. Contohnya t-test, F-test, analisis regresi ini memerlukan andaian ini dipenuhi sebelum kita dapat meneruskan analisis kita.


Antara pendekatan grafik yang boleh digunakan:

1. Histogram

sumber: google



2. Stem-and-leaf plot (Plot dahan-dan-daun)

sumber: google


3. Boxplot

sumber: google



4. P-P Plot (Probability-probability plot)

sumber: google

5.Q-Q Plot (quantile-quantile plot)

sumber: google


Pendekatan ini bagi kita mendapatkan gambaran ringkas. Akan tetapi, interpretasi adalah berdasarkan pengamatan kita terhadap bentuk/ grafik yang dipamerkan, kemungkinan kurang tepat.

Maka ada alternatifnya, atau tambahan kepada gambaran visual tadi, kita boleh gunakan beberapa ujian seperti:

1. Kolmogorov-Smirnov (K-S) test
2. Lilliefors Corrected K-S test
3. Shapiro-Wilk test
4. Anderson-Darling test
5. Cramer-von Mises test 
6. D’Agostino skewness test 
7. Anscombe-Glynn kurtosis test
8. D’Agostino-Pearson omnibus test
9. Jarque-Bera test

Fuh, banyak rupanya! Namun yang paling famous sudah tentu nombor (1) dan (3). Setiap ujian ini ada kelebihan/limitationnya. Perlu selidik dahulu!


Hipotesis dalam menguji kenormalan ini adalah seperti berikut:


Hipotesis nol:            Taburan data adalah normal
Hipotesis alternatif: Taburan data adalah TIDAK normal

Bagaimana jika data kita tak normal? Ok, ada beberapa teknik yang boleh kita gunakan. Dalam statistik dipanggil Penjelmaan Data (Data Transformation). InsyaAllah di lain masa akan saya kongsikan kaedah tersebut.

ok, catatan di atas saya olah sedikit dan diambil daripada Normality Tests for Statistical Analysis: A Guide for Non-Statisticians. Terima kasih kerana sudi membaca. :)