Wednesday, 9 January 2019

CERITA 23: Boxplot (plot kotak) untuk mengenalpasti data terpencil (outliers) bagi data univariat

CERITA 23: Boxplot (plot kotak) untuk mengenalpasti data terpencil (outliers) bagi data univariat


Assalamualaikum dan selamat tahun baharu 2019 kepada sahabat pembaca semua!

Hari ini saya nak kongsikan kaedah untuk mengenalpasti outliers (data terpencil) dalam data univariat (1 pembolehubah). Kalau ikut article dalam ni, kesemuanya ada 39 teknik termasuk univariat dan multivariat (pengsann) kalau anda rajin nak baca bolehlah refer Aguinis et al (2013)

Sebenarnya terdapat pelbagai kaedah digunakan untuk mengenalpasti outlier, salah satu kaedah adalah menggunakan boxplot.

Boxplot (plot kotak)

Sumber: Google


Tukey (1977) memperkenalkan kaedah grafik dipanggil boxplot untuk meringkaskan data univariat.  Menurut Tukey (1977), menyatakan bahawa suatu cerapan itu ditakrifkan sebagai terpencil jika ia terletak di luar selang ini menggunakan rumus:


((Q1 - g (Q3 - Q1), Q3 + g (Q3 - Q1))

di mana g yang lazim digunakan dalam rumus ini adalah 1.5.


Ada juga artikel yang menggunakan g sebagai 3.0. Namun menurut Hoaglin et al (1986), peraturan boxplot dengan g = 1.5 ini adalah agak liberal untuk kebanyakan cerapan yang normal.

Untuk mencari outliers bagi satu pembolehubah menggunakan SPSS,

 Analyze > Descriptive > Explore > Dependent list (masukkan pembolehubah berkenaan) > Klik Statistics > pilih Outliers dan percentiles > klik ‘continue’


Pada output, rujuk jadual ‘percentiles’, refer pada baris ‘weighted average’ dan lajur ‘25’ percentiles dan lajur ‘75’ percentiles.

  •       Lajur ‘25’ percentiles adalah nilai Q1 kita
  •       Lajur 75’ percentiles adalah nilai Q3 kita.


Manakala nilai g adalah 1.5

Menggunakan rumus  ((Q1 - g (Q3 - Q1), Q3 + g (Q3 - Q1)),

Cari nilai had bawah dan nilai had atas bagi pembolehubah tersebut. Di mana;


  • Nilai had bawah = Q1 - g (Q3 - Q1), katalah nilai had bawah = a
  • Nilai had atas = Q3 + g (Q3 - Q1), katalah nilai had atas = b


Maka, menggunakan teknik peraturan 1.5 julat antara kuartil (1.5xIQR rules) ini, maka nilai < a dan nilai yang > b adalah outliers dalam data tersebut.

Bagi mengenalpasti case id yang mempunyai nilai outliers ini, kita boleh refer pada output , jadual bertajuk ‘extreme values’. ‘Highest’ merujuk pada nilai ekstrim pada had atas, manakala ‘lowest’ merujuk pada nilai ekstrim pada had bawah. Menggunakan kaedah ini, kita dapat kenal pasti case id yang dikenalpasti sebagai outliers iaitu yang terletak pada nilai < a dan nilai yang > b.


Sekian, ada cerita dan masa saya kongsi lagi. TQ sudi membaca!



Rujukan:

Hoaglin, D. C., and Iglewicz, B. (1987), “Fine Tuning Some Resistant Rules for Outlier Labeling”, Journal of American Statistical Association., 82, 1147-1149.

Tukey, J.W. (1977), Exploratory Data Analysis, Reading, MA: Addison-Wesley.