Uji Asumsi: Solusi Data Tidak Terdistribusi Normal dengan Screening & Tranformasi

 

Sebelum melakukan uji statistik langkah awal yang harus dilakukan adalah screening terhadap data yang akan diolah. Salah satu asumsi penggunaan statistik parametrik adalah asumsi multivariate normality. Multivariate nomality merupakan asumsi bahwa setiap variabel dan semua kombinasi linear dari variabel berdistribusi normal. Jika asumsi ini dipenuhi, maka nilai residual dari analisis juga berdistribusi normal dan independen. Asumsi multivariate normality tidak dapat diuji langsung seketika oleh karena tidaklah praktis menguji jumlah tak terhingga dari kombinasi linear variabel untuk normalitasnya.

Asumsi multivariate normality berlaku baik untuk distribusi variabel itu sendiri (dalam ungroup data) atau terhadap sampling distribution means variable (dalam group data). Dalam ungroup data, jika terdapat multivariate normality hal ini berarti setiap variabel dengan sendirinya terdistribusi secara normal dan hubungan antar pasang variabel adalah linear dan homoskedastik (variance dari satu variabel adalah sama untuk semua nilai variabel lainnya). Asumsi multivariate normality ini dapat diuji dengan melihat normalitas, linearitas dan homoskedastisitas variabel atau melalui residualnya.

Normalitas

Screening terhadap normalitas data merupakan langkah awal yang harus dilakukan untuk setiap analisis multivariate, khususnya jika tujuannya adalah inferensi. Jika terdapat normalitas, maka residual akan terdistribusi secara normal dan independen. Yaitu perbedaan antara nilai prediksi dengan skor yang sesungguhnya atau error akan terdistribusi secara simetri disekitar nilai means sama dengan nol. Jadi salah satu cara mendeteksi normalitas adalah lewat pengamatan nilai residual.

Cara lain adalah dengan melihat distribusi dari variabel-variabel yang akan diteliti. Walaupun normalitas suatu variabel tidak selalu diperlukan dalam analisis akan tetapi hasil uji statistik akan lebih baik jika semua variabel berdistribusi normal. Jika variabel tidak terdistribusi secara normal (menceng kekiri atau menceng kekanan) maka hasil uji statistik akan terdegradasi. Normalitas suatu variabel umumnya dideteksi dengan grafik atau uji statistik sedangkan normalitas nilai residual dideteksi dengan metode grafik.

Secara statistik ada dua komponen normalitas yaitu skewness dan kurtosis. Skewness berhubungan dengan simetri distribusi. Skewed variabel (variabel menceng) adalah variabel yang nilai mean-nya tidak di tengah-tengah distribusi. Sedangkan kurtosis berhubungan dengan puncak dari suatu distribusi. Jika variabel terdistribusi secara normal maka nilai skewness dan kurtosis sama dengan nol.

Transformasi Data

Data yang tidak terdistribusi secara normal dapat ditransformasi agar menjadi normal. Untuk menormalkan data kita harus tahu terlebih dahulu bagaimana bentuk grafik histogram dari data yang ada apakah moderate positive skewness, subtansial positive skewness, severe positive skewness dengan bentuk L dsb. Dengan mengetahui bentuk grafik histogram kita dapat menentukan bentuk transformasinya. Berikut ini bentuk transformasi yang dapat dilakukan sesuai dengan grafik histogram.

Data Outlier

Setelah melakukan transformasi untuk mendapatkan normalitas data langkah screening berikutnya yang harus dilakukan adalah mendeteksi adanya data outlier. Outlier adalah kasus atau data yang memiliki karakteristik unik yang terlihat sangat berbeda jauh dari observasiobservasi lainnya dan muncul dalam bentuk nilai ekstrim baik untuk sebuah variabel tunggal atau variabel kombinasi. Ada empat penyebab timbulnya data outlier: (1) kesalahan dalam meng-entri data, (2) gagal menspesifikasi adanya missing value dalam program komputer, (3) outlier bukan merupakan anggota populasi yang kita ambil sebagai sampel, dan (4) outlier berasal dari populasi yang kita ambil sebagai sampel, tetapi distribusi dari variabel dalam populasi tersebut memiliki nilai ekstrim dan tidak terdistribusi secara normal.

Deteksi terhadap univariate outlier dapat dilakukan dengan menentukan nilai batas yang akan dikategorikan sebagai data outlier yaitu dengan cara mengkonversi nilai data kedalam skor standardized atau yang biasa disebut z-score, yang memiliki nilai means (rata-rata) sama dengan nol dan standar deviasi sama dengan satu. Menurut Hair (1998) untuk kasus sampel kecil (kurang dari 80), maka standar skor dengan nilai 2 2.5 dinyatakan outlier. Untuk sampel besar standar skor dinyatakan outlier jika nilainya pada kisaran 3 sampai 4. Jika standar skor tidak digunakan, maka kita dapat menentukan data outlier jika data tersebut nilainya lebih beasr dari 2.5 standar deviasi atau antara 3 sampai 4 standar deviasi tergantung dari besarnya sampel.

kedairisetsolution