Sebelum melakukan uji statistik
langkah awal yang harus dilakukan adalah screening terhadap data yang akan
diolah. Salah satu asumsi penggunaan statistik parametrik adalah asumsi multivariate normality. Multivariate nomality merupakan asumsi
bahwa setiap variabel dan semua kombinasi linear dari variabel berdistribusi
normal. Jika asumsi ini dipenuhi, maka nilai residual dari analisis juga
berdistribusi normal dan independen. Asumsi multivariate
normality tidak dapat diuji langsung seketika oleh karena tidaklah praktis
menguji jumlah tak terhingga dari kombinasi linear variabel untuk
normalitasnya.
Asumsi multivariate normality berlaku baik untuk distribusi variabel itu
sendiri (dalam ungroup data) atau terhadap sampling
distribution means variable (dalam group data). Dalam ungroup data, jika
terdapat multivariate normality hal
ini berarti setiap variabel dengan sendirinya terdistribusi secara normal dan
hubungan antar pasang variabel adalah linear dan homoskedastik (variance dari
satu variabel adalah sama untuk semua nilai variabel lainnya). Asumsi multivariate normality ini dapat diuji
dengan melihat normalitas, linearitas dan homoskedastisitas variabel atau
melalui residualnya.
Normalitas
Screening terhadap normalitas
data merupakan langkah awal yang harus dilakukan untuk setiap analisis
multivariate, khususnya jika tujuannya adalah inferensi. Jika terdapat
normalitas, maka residual akan terdistribusi secara normal dan independen.
Yaitu perbedaan antara nilai prediksi dengan skor yang sesungguhnya atau error
akan terdistribusi secara simetri disekitar nilai means sama dengan nol. Jadi
salah satu cara mendeteksi normalitas adalah lewat pengamatan nilai residual.
Cara lain adalah dengan melihat distribusi dari variabel-variabel yang akan
diteliti. Walaupun normalitas suatu variabel tidak selalu diperlukan dalam
analisis akan tetapi hasil uji statistik akan lebih baik jika semua variabel
berdistribusi normal. Jika variabel tidak terdistribusi secara normal (menceng
kekiri atau menceng kekanan) maka hasil uji statistik akan terdegradasi.
Normalitas suatu variabel umumnya dideteksi dengan grafik atau uji statistik
sedangkan normalitas nilai residual dideteksi dengan metode grafik.
Secara statistik ada dua komponen normalitas yaitu skewness dan kurtosis.
Skewness berhubungan dengan simetri distribusi. Skewed variabel (variabel
menceng) adalah variabel yang nilai mean-nya tidak di tengah-tengah distribusi.
Sedangkan kurtosis berhubungan dengan puncak dari suatu distribusi. Jika
variabel terdistribusi secara normal maka nilai skewness dan kurtosis sama
dengan nol.
Transformasi Data
Data yang tidak terdistribusi secara normal dapat ditransformasi agar
menjadi normal. Untuk menormalkan data kita harus tahu terlebih dahulu
bagaimana bentuk grafik histogram dari data yang ada apakah moderate positive
skewness, subtansial positive skewness, severe positive skewness dengan bentuk
L dsb. Dengan mengetahui bentuk grafik histogram kita dapat menentukan bentuk
transformasinya. Berikut ini bentuk transformasi yang dapat dilakukan sesuai
dengan grafik histogram.
Data Outlier
Setelah melakukan transformasi untuk mendapatkan normalitas data langkah
screening berikutnya yang harus dilakukan adalah mendeteksi adanya data
outlier. Outlier adalah kasus atau data yang memiliki karakteristik unik yang
terlihat sangat berbeda jauh dari observasiobservasi lainnya dan muncul dalam
bentuk nilai ekstrim baik untuk sebuah variabel tunggal atau variabel
kombinasi. Ada empat penyebab timbulnya data outlier: (1) kesalahan dalam
meng-entri data, (2) gagal menspesifikasi adanya missing value dalam program
komputer, (3) outlier bukan merupakan anggota populasi yang kita ambil sebagai
sampel, dan (4) outlier berasal dari populasi yang kita ambil sebagai sampel,
tetapi distribusi dari variabel dalam populasi tersebut memiliki nilai ekstrim
dan tidak terdistribusi secara normal.
Deteksi terhadap univariate outlier dapat dilakukan dengan menentukan nilai
batas yang akan dikategorikan sebagai data outlier yaitu dengan cara
mengkonversi nilai data kedalam skor standardized atau yang biasa disebut
z-score, yang memiliki nilai means (rata-rata) sama dengan nol dan standar
deviasi sama dengan satu. Menurut Hair (1998) untuk kasus sampel kecil (kurang
dari 80), maka standar skor dengan nilai 2 2.5 dinyatakan outlier. Untuk sampel
besar standar skor dinyatakan outlier jika nilainya pada kisaran 3 sampai 4.
Jika standar skor tidak digunakan, maka kita dapat menentukan data outlier jika
data tersebut nilainya lebih beasr dari 2.5 standar deviasi atau antara 3
sampai 4 standar deviasi tergantung dari besarnya sampel.