Tuesday, 17 September 2019

CERITA 25: Ujian Levene signifikan? (Significant Levene Test)

CERITA 25: Ujian Levene signifikan? (Significant Levene Test)


Apa itu Ujian Levene? Ujian ini diperkenalkan oleh Profesor Howard Levene pada tahun 1960, di mana selepas itu ujian ini dikatakan sebagai penemuan yang hebat sehingga kajiannya masih lagi dijadikan rujukan sehingga kini, melebihi separuh abad lamanya. Ini kerana ujian Levene dikatakan teguh (robust) terhadap data yang tidak mengikuti taburan normal.
Beliau meninggal dunia pada Julai 2003. Boleh baca artikel lanjut tribute kepada beliau di SINI.


Ujian Levene digunakan apabila pengkaji ingin menggunakan ujian parametrik seperti ujian- t , ANOVA dan sebagainya. Sebelum ujian tersebut digunakan, pengkaji terlebih dahulu perlu menyemak samada andaian kehomogenan (kesamaan) varians adalah dipenuhi.

Hipotesis dalam ujian Levene ditakrifkan seperti berikut:

Hipotesis nol: varians adalah homogen
Hipotesis alternatif: varians adalah tidak homogen

Nilai-p dalam ujian Levene seharusnya tidak signifikan (nilai-p > 0.05), iaitu membolehkan hipotesis nol diterima. Ini bermaksud andaian kehomogenan varians dipenuhi. Maka kita dapat teruskan dengan ujian t /ANOVA.

Tetapi bagaimana pula jika nilai-p adalah signifikan bagi Ujian Levene tadi? Jangan risau, kerana ada ujian alternatif kita dapat gunakan iaitu Welch test (Delacre et al 2017)

Cara untuk run adalah seperti berikut : Analyze > Compare mean > 1 way ANOVA > Options > Statistics 'Welch' > OK.

Apabila keluar jadual output, guna nilai 'sig.' untuk interpret data anda.

Selamat mencuba.


Rujukan:
Delacre, M., Lakens, D., & Leys, C. (2017). Why psychologists should by default use Welch's t-test instead of student's t-test. International Review of Social Psychology, 30(1), 92-101. DOI: 10.5334/irsp.82

Gastwirth, J.L., Yulia, G. R., and Miao, W. (2009). The Impact of Levene’s Test of Equality of Variances on Statistical Theory and Practice. Statist. Sci.Volume 24, Number 3 (2009), 343-360.

Tuesday, 23 April 2019

CERITA 24: R square(R kuasa dua) dalam analisis regresi

CERITA 24: R square (R kuasa dua) dalam analisis regresi


Salam, hari ni kita bercerita sedikit tentang R squared.

R squared, (R2 = R kuasa dua) adalah peratus varians dalam pemboleh ubah bersandar (dependent variable) yang diterangkan oleh pemboleh ubah tidak bersandar (independent variable) dalam model regresi. R square adalah ukuran statistik yang menunjukkan bagaimana data terletak hampir dengan garis regresi yang dipadankan. Nilai R square adalah di antara 0 – 1, atau bila diterjemahkan dalam bentuk peratus, antara 0-100%.

R square juga dikenali dengan nama coefficient of determination.

Secara amnya, semakin tinggi nilai R square, semakin bagus data berpadanan dengan model. Namun, sebelum kita bergantung pada nilai R square ini, beberapa diagnostik lain harus disemak terlebih dahulu untuk mengelakkan dapatan analisis yang tidak tepat.


Rumus bagi R squared adalah seperti berikut:




Gambaran visual berkenaan R square


Sumber: google


R squared untuk model regresi di sebelah kiri adalah 38% manakala di sebelah kanan adalah 87.4%. Semakin tinggi varians yang dikira oleh model regresi, semakin hampir poin-poin data akan terletak berdekatan garis regresi yang dipadankan.

Adakah nilai r square yang rendah membawa implikasi yang buruk? Tidak, kerana ada beberapa sebab mengapa nilai yang rendah dalam kajian dikatakan ok sahaja. Dalam sesetengah bidang, adalah dijangka bahawa nilai R square adalah rendah. Contohnya bidang yang cuba untuk meramal tingkahlaku manusia, seperti kajian psikologi, lazimnya akan mendapat nilai R square yang kurang daripada 50%. Ini kerana dikatakan manusia adalah lebih sukar untuk diramal, berbanding dengan sesuatu proses fizikal.

Ok sekian sahaja untuk kali ini. Ada cerita dan masa saya kongsi lagi. Terima kasih sudi membaca.

Wednesday, 9 January 2019

CERITA 23: Boxplot (plot kotak) untuk mengenalpasti data terpencil (outliers) bagi data univariat

CERITA 23: Boxplot (plot kotak) untuk mengenalpasti data terpencil (outliers) bagi data univariat


Assalamualaikum dan selamat tahun baharu 2019 kepada sahabat pembaca semua!

Hari ini saya nak kongsikan kaedah untuk mengenalpasti outliers (data terpencil) dalam data univariat (1 pembolehubah). Kalau ikut article dalam ni, kesemuanya ada 39 teknik termasuk univariat dan multivariat (pengsann) kalau anda rajin nak baca bolehlah refer Aguinis et al (2013)

Sebenarnya terdapat pelbagai kaedah digunakan untuk mengenalpasti outlier, salah satu kaedah adalah menggunakan boxplot.

Boxplot (plot kotak)

Sumber: Google


Tukey (1977) memperkenalkan kaedah grafik dipanggil boxplot untuk meringkaskan data univariat.  Menurut Tukey (1977), menyatakan bahawa suatu cerapan itu ditakrifkan sebagai terpencil jika ia terletak di luar selang ini menggunakan rumus:


((Q1 - g (Q3 - Q1), Q3 + g (Q3 - Q1))

di mana g yang lazim digunakan dalam rumus ini adalah 1.5.


Ada juga artikel yang menggunakan g sebagai 3.0. Namun menurut Hoaglin et al (1986), peraturan boxplot dengan g = 1.5 ini adalah agak liberal untuk kebanyakan cerapan yang normal.

Untuk mencari outliers bagi satu pembolehubah menggunakan SPSS,

 Analyze > Descriptive > Explore > Dependent list (masukkan pembolehubah berkenaan) > Klik Statistics > pilih Outliers dan percentiles > klik ‘continue’


Pada output, rujuk jadual ‘percentiles’, refer pada baris ‘weighted average’ dan lajur ‘25’ percentiles dan lajur ‘75’ percentiles.

  •       Lajur ‘25’ percentiles adalah nilai Q1 kita
  •       Lajur 75’ percentiles adalah nilai Q3 kita.


Manakala nilai g adalah 1.5

Menggunakan rumus  ((Q1 - g (Q3 - Q1), Q3 + g (Q3 - Q1)),

Cari nilai had bawah dan nilai had atas bagi pembolehubah tersebut. Di mana;


  • Nilai had bawah = Q1 - g (Q3 - Q1), katalah nilai had bawah = a
  • Nilai had atas = Q3 + g (Q3 - Q1), katalah nilai had atas = b


Maka, menggunakan teknik peraturan 1.5 julat antara kuartil (1.5xIQR rules) ini, maka nilai < a dan nilai yang > b adalah outliers dalam data tersebut.

Bagi mengenalpasti case id yang mempunyai nilai outliers ini, kita boleh refer pada output , jadual bertajuk ‘extreme values’. ‘Highest’ merujuk pada nilai ekstrim pada had atas, manakala ‘lowest’ merujuk pada nilai ekstrim pada had bawah. Menggunakan kaedah ini, kita dapat kenal pasti case id yang dikenalpasti sebagai outliers iaitu yang terletak pada nilai < a dan nilai yang > b.


Sekian, ada cerita dan masa saya kongsi lagi. TQ sudi membaca!



Rujukan:

Hoaglin, D. C., and Iglewicz, B. (1987), “Fine Tuning Some Resistant Rules for Outlier Labeling”, Journal of American Statistical Association., 82, 1147-1149.

Tukey, J.W. (1977), Exploratory Data Analysis, Reading, MA: Addison-Wesley.