Apa yang dimaksud dengan data outlier?

Ditulis oleh: Helvita Dorojatun (Kepala KPKNL Mamuju)

(Tulisan ini merupakan artikel ketiga dari seri Artikel DATA DRIVEN DECISION MAKING, KPKNL MAMUJU untuk KEMENKEU)


Data yang digunakan dalam melakukan pengolahan data sebaiknya berdistribusi normal dan terbebas dari data outlier. Hal ini dikarenakan tujuan dari pengolahan data adalah untuk mendapatkan pola yang kuat yang dapat digunakan dalam pengambilan keputusan. Selain dapat menghasilkan pola yang bias, data outlier yang tidak di-treatment dengan baik akan menyebabkan diperlukannya jumlah iterasi yang lebih banyak dalam suatu permodelan.

Data outlier terdiri dari dua jenis yaitu outlier univariat dan outlier multivariat. Diskusi tentang outlier univariat akan mengacu pada outlier yang disebabkan oleh nilai ekstrem pada dependent variable (gambar 1) atau independent variable. Sedangkan outlier multivariat lebih banyak mengacu pada anomali nilai residual keseluruhan independent variable (gambar 2).

Apa yang dimaksud dengan data outlier?

Apa yang dimaksud dengan data outlier?

Deteksi mengenai data outlier tidak hanya penting bagi data mining untuk role prediction dan forecasting, namun juga sangat berpengaruh untuk olah data dengan tujuan lain semisal clustering. Data outlier akan menyebabkan nilai Davies Boudin indeks terkecil berada pada jumlah klaster yang banyak. Nilai Davies Boudin indeks mencerminkan kedekatan akumulasi kumpulan data pada satu klaster terhadap pusat (centroid) dari klaster yang diikuti. Begitu berpengaruhnya data outlier pada penelitian yang memiliki tujuan menggeneralisir menjadikan hampir semua aplikasi pengolahan data memiliki tools untuk mendeteksi permasalahan ini (gambar 3). Berikut ini disajikan beberapa tools yang dapat digunakan untuk mendeteksi data outlier.

Apa yang dimaksud dengan data outlier?

Apakah semua data yang berbeda dari kumpulan data adalah outlier?

Mungkin iya jika data yang berbeda jauh dari kumpulan data adalah outlier, tapi secara keilmuan, outlier dapat ditentukan paling umum dengan dua teknik yaitu persentil dan interkuartil. Teknik persentil cukup sederhana yaitu dengan memotong data yang paling tinggi dan paling rendah dengan cut off tertentu misalnya 1%, sedangkan Teknik Interkuartil dilakukan dengan membagi terlebih dahulu kumpulan data dalam 4 kuartil ( Q1 sampai dengan Q4) lalu data yang berjarak 1.5 kali dari Q1 dan Q3 (disebut juga nilai interquartil range) dapat didefinisikan mejadi outlier.

How to deal with outliers in data?

Data outlier tidak harus dibuang dalam proses pengolahan data. Terdapat beberapa langkah yang dapat ditempuh dalam upaya kita berdamai dengan data outlier yaitu sebagai berikut:

1.Memperbaiki cara pengumpulan data perlu dilakukan pada data primer ketika terjadi inkonsistensi yang parah. Perbaikan cara pengumpulan data dilakukan dengan menggunakan default pada aplikasi pengumpul data dan juga mengembangkan petunjuk pengumpulan data baik berupa buku maupun video pendek.Inkonsistensi pada cara pengumpulan data primer juga menjadi indikasi bahwa definisi data kurang spesifik sehingga dapat menyebabkan interpretasi ganda.

2. Melakukan preprocessing melalui transformasi datasangat baik jika kita bekerja dengan variable yang tidak sebanding. Variabel yang memiliki jumlah digit berbeda jauh dan di olah dengan algoritma yang menggunakan formula Ecludian akan sangat dipengaruhi oleh variabel dengan jumlah digit yang paling banyak. Hal inilah yang menyebabkan perlu dilakukan transformasi data untuk menghasilkan data yang sebanding pada variabel yang jamak. Dua cara transformasi data yang utama adalah melalui teknik proporsi dan persentase. Sebagai contoh berikut disajikan gambar hasil data mining metode clustering yang menggunakan algoritma K Means, sebelum dan sesudah langkah preprocessing (Gambar 4).

Apa yang dimaksud dengan data outlier?

3.Mendefinisikan ulang suatu variable pada pengumpulan data primer seringkali dapat menyelesaikan permasalahan data outlier dalam jumlah banyak dengan baik. Data outlier seringkali tercipta dari desain penelitian awal berupa penentuan variabelyang general. Sebagai contoh apabila kita menggunakan variabelkawasan peruntukan tanah secara umum, maka variabel yang umum terbentuk bila menggunakan hierarki II adalah: 1) komersial; 2) perumahan; dan 3) pemerintahan. Kemudian apabila terdapat outlier dalam kumpulan data dalam zona peruntukan tanah perumahan, maka kemungkinan kita perlu mendefinisikan lebih detil hingga tingkat zona hierarki III atau hierarki IV sebagaimana gambar 5 dibawah ini.

Apa yang dimaksud dengan data outlier?

4.Langkah terakhir yang dapat dipilih adalah tidak menggunakan data outlier tersebut. Apabila outlier pada data merupakan hal yang alami maka kemungkinan untuk tidak menggunakan data tersebut bisa diambil. Semisal data lokasi sewa ATM Bank terdiri dari variabel lebar jalan dengan range 6 sampai dengan 12 meter. Kemudian terdapat lokasi ATM yang terletak di Jalan yang sangat lebar semisal 30 meter, maka data ini perlu tidak digunakan karena secara alami merupakan outlier.

Referensi:

EViews 12 User’s Guide II

https://dcktrp.jakarta.go.id/Tabel_Zonasi.pdf (jakarta.go.id)

https://orangedatamining.com/search/?q=outlier

Apa yang dimaksud data outliers?

Outlier merupakan data yang memiliki karakteristik yang berbeda jauh dari observasi-observasi lainnya dan muncul dalam bentuk nilai ekstrim baik untuk variabel tunggal atau variabel kombinasi.

Apakah boleh membuang data outlier?

Pengeluaran data outliers atau penggunaan data outliers tidak semata-mata merujuk kepada statistiknya, tetapi juga adjustment dari peneliti. Jika memang data outliers tersebut tidak dapat dikeluarkan karena masih merupakan fenomena subjek penelitian ya sebaiknya tetap dipergunakan.

Bagaimana cara mendeteksi outlier?

Outlier dapat dengan mudah kita deteksi melalui box plot di mana setiap titik di atas atau di bawah whiskers mewakili outlier. Ini juga dikenal sebagai metode univariat karena di sini kita menggunakan analisis outlier satu variabel saja.

Apa yang dimaksud dengan noise dan outlier pada data?

Noise adalah data yang berisi nilai-nilai yang salah atau anomali, yang biasanya disebut juga outlier. Penyebab lain yang mungkin dari noise yang harus dicari dalam perangkat rusak adalah pengukuran data, perekaman dan transmisi.