Imputasi data menggunakan k-nearest neighbors: hanya konsep dasar

Dari sudut ruang kerja, saya melihat ada 3 orang duduk, dua diantaranya ngobrol menggunakan bahasa Belanda, sedangkan yang satu hanya diam. Penasaran rasanya, kira-kira 1 orang yang diam itu apakah juga mampu berbahasa Belanda? Saya tidak memiliki bukti sertifikat kemampuan bahasa Belandanya. Juga tidak tau apakah dia berasal dari Belanda, Itali, Jerman, atau justru Amerika. Warna kulitnya sama, jadi sulit bagi saya menebak asal dan kemampuan bahasa orang yang diam itu.

Itu hanyalah ilustrasi mengenai missing value yang mungkin bisa ditangani menggunakan k-nearest neighbors (KNN), dan itu yang akan kita bahas. Ini sangat lazim dihadapi oleh teman-teman yang pegang data banyak. Untuk mendapatkan data berkualitas, tidak jarang harus menghadapi beberapa kendala. Salah satunya adalah missing value, tidak ada nilai. Missing value ini tidak berarti tidak ada untuk seluruh data, melainkan ada nilai tertentu yang hilang. Contohnya adalah ilustrasi di atas. Dari 3 orang yang sedang bertemu, 2 orang ngobrol dengan bahasa Belanda, maka dengan sangat mudah kita mengatakan bahwa 2 orang itu pasti bisa berbahasa Belanda. Namun bagaimana dengan 1 orang yang diam? Itu bisa dikatakan missing value, kita tidak serta merta mengatakan dia pasti bisa bahasa Belanda. Tidak ada bukti baik melalui obrolan maupun sertifikat kemampuan bahasa Belanda. Dari dataset yang berisi ribuan atau bahkan jutaan, sangat bisa dimaklumi ada nilai-nilai yang tidak terinput dengan baik. Bisa karena human error atau adanya kesalahan di dalam proses wrangling data.

Di dalam dataset biasanya disimbolkan dengan n/a yaitu singkatan dari “no available”. Menjadi masalah dikala kita ingin melakukan komputasi data. Apakah bisa dijumlahkan, atau dikurangi? Tentu tidak bisa karena memang tidak ada datanya, no available (n/a). Yang bisa kita lakukan sekarang adalah memperkirakan atau memanipulasinya. Maka yang bisa dipertimbangkan adalah k-nearest neighbors. Pertimbangan teoritisnya adalah melalui hukum geografi: Everything is related to everything else, but near things are more related than distant things. Kalau kita kembalikan ke ilustrasi di atas: apakah orang yang diam diantara 2 yang sedang berdiskusi menggunakan berbahasa Belanda juga bisa berbisa Belanda? – Maka bisa kita simpulkan bahwa mungkin saja dia bisa berbahasa Belanda. Apalagi kalau ada indikator penunjuk misalnya: dia mengangguk, bisa ikut tertawa dikala kedua teman yang lain juga tertawa, dan seterusnya.

Imputasi berdasarkan pola nilai yang hilang

Missing value itu punya pola atau pattern, maka dikala kita bisa mengetahui polanya akan membantu bagaimana kita melakukan proses imputasi data. Pola nilai yang hilang ini sebelumnya telah dibahas oleh Little & Rubin (2002), yang kemudian dirangkum oleh Kaushik Roy Chowdhury (diakses: 11 April 2022) dibagi menjadi 3 pola yaitu:

Missing completely at random (MCAR). Ini terjadi dikala nilai yang hilang tidak memiliki ketergantungan tersembunyi dengan variabel lain atau karakteristik pengamatan apapun. Benar-benar random. Contohnya begini: Seorang dokter lupa mencatat umur setiap pasien tua yang masuk ke ICU. Nilai yang hilang tidak akan bergantung pada karakteristik pasien. Benar-benar berdiri sendiri.

Missing at Random (MAR). Di dalam kasus ini, kemungkinan nilai yang hilang sangat bergantung pada karakteristik data yang dapat diamati. Sebagai contoh: Ada kecenderungan bahwa orang berpendapatan tinggi memiliki properti yang banyak. Dikala ada seorang responden tidak diketahui pendapatannya namun memiliki properti banyak maka bisa disimpulkan mungkin saja dia berpendapatan tinggi juga.

Missing not at random (MNAR). Ini terjadi ketika nilai yang hilang bergantung pada karakteristik data dan juga pada nilai yang hilang. Untuk kasus ini tidak mudah.

Kemudian bagaimana kaitannya dengan K-NN? Kembali ke ilustrasi di atas dan juga hukum pertama geografi bahwa yang berdekatan memiliki hubungan lebih erat dibandingkan yang berjauhan. Mungkin saja yang berdekatan itu memiliki nilai yang sama asalkan memiliki karakter data yang mirip sesuai dengan 3 pattern di atas. Di kala imputasi itu dilakukan secara otomatis berdasarkan kemiripan 3 pattern maka itulah fungsi machine learning. Algoritma mempelajari ketiga pattern kemudian memprediksi nilai-nilai yang mungkin hilang. Bagaimana operasionalisasi K-NN di dalam hubungan ketetanggaan? itu akan menjadi materi lanjutan, sabar saja.

Advertisement

Spatial data outliers: harus ditangani berbeda

Spatial data, sangat unik dan harus ditangani secara berbeda. Tidak sama dengan data-data lain yang tidak memiliki koordinat (xi,yi). Konsekuensi dari koordinat (xi,yi) itu bukan hanya lokasi tetapi juga jarak yang dihitung dari point-to-point. Dikala kita menghadapi outliers data, yang paling sering dilakukan seorang peneliti adalah menghapusnya atau justru membiarkannya. Saya mulai dari membiarkan outlier tetap di posisinya. Memang outliers terkadang justru menjadi petunjuk akan adanya fenomena baru yang diwakili oleh kelompok kecil di dataset besar. Contoh gampangnya begini: munculnya sel kanker untuk pertama kali yang teridentifikasi. Mungkin saja akan menjadi sel yang benar-benar berbeda dan itu adalah petunjuk akan adanya sel asing. Di statistik, itu mungkin saja hanya outliers kalau dihapus justru berbahaya karena membiarkan sesuatu terjadi tanpa dipedulikan. Berbeda dengan itu, kita bisa memposisikan outlier sebagai anomali. Kalau ini bisa kita hapus saja. Contohnya adalah di populasi perempuan ternyata ada seorang laki-laki. Ya sudah hapus saja data outlier itu, mungkin dia salah masuk kamar atau entry data. Hapus outlier adalah solusi dalam kasus ini.

Bagaimana dengan data spasial? Hapus outlier bisa saja dilakukan, tetapi ada konsekuensi di dalam perhitungan neighbourhood, nilai tetangga dan pada akhirnya berpengaruh pada nilai matematika. Ambil contoh di Geographically Weighted Regression (GWR) dimana weight dihitung dari jarak antar titik. Dikala ada 1 atau lebih titik dihapus maka akan berpengaruh pada bobotnya. Pada akhirnya hasil analisis akan mendapatkan imbas. Hapus outliers di data spasial bukan satu-satunya solusi bijak.

Lebih lanjut, lokasi di data spasial akan berhubungan dengan kualitas data. Sangat berhubungan kuat. Lagi-lagi lokasi tidak hanya berkaitan dengan dimana berada tetapi juga berkaitan dengan panjang & jarak yang dihitung dari titik-titik koordinat itu. Berapa panjang dari titik A (xa,ya) ke titik B (xb,yb)? Pakai saja pitagoras untuk menghitungnya. Yang menjadi pertanyaan sekarang, dikala koordinat A tidak akurat maka jarak A ke B dipastikan juga tidak akurat. Artinya kualitas spatial data tidak hanya ditentukan oleh informasi atas suatu data tetapi juga titik lokasinya. Rada muter-muter, maksudnya begini. Katakanlah titik A itu adalah nama rumah sakit maka kualitas data spasial ditentukan oleh (1) lokasi titik, dan (2) nama rumah sakit. Minimal ada 2 data itu yang kemudian harus di cek. Sangat berbeda dengan data biasa yang mungkin saja cukup dicek nama rumah sakit saja. Data spasial membutuhkan treatment berbeda. Begitupula dikala melakukan data cleaning, harus bekerja di 2 ranah itu: lokasi dan informasi.

Chen bersama rekan-rekannya (2007) menjelaskan cara menanganinya. Di artikel yang berjudul: on detecting spatial outliers (baca disini), dia menjelaskan dengan 2 cara: deteksi outliers spatial kemudian baru deteksi informasinya. Yang dicari lebih dahulu adalah sebaran ruangnya. Contohnya begini: di kelompok rumah-rumah mewah yang biasanya menjadi enclave ternyata terdeteksi ada rumah kumuh. Mungkin tidak kira-kira? Bisa saja itu terjadi. Lihat saja dikala membangun perumahan mewah, ada bedeng-bedeng berupa gubug yang berfungsi sebagai ‘gudang’ peralatan proyek. Itu kalau teridentifikasi sebagai ‘rumah kumuh’ maka akan menjadi anomali/ pembeda dengan rumah-rumah mewah di sekitarnya. Itu adalah outliers yang harus diperhatikan dari sisi lokasi terlebih dahulu apakah diluar boundary rumah mewah ataukah di dalamnya? Dikala itu dihilangkan apakah akan mempengaruhi boundary tadi? Kelompok spasial akan dipengaruhi oleh titik rumah ‘kumuh’ berupa bedeng tadi.

Tahap selanjutnya adalah melihat isinya. Disebut outliers dikala memiliki informasi berbeda banget dengan populasi secara umum. Ambil contoh tinggi bangunan, di kelompok rumah mewah (contoh di atas), hampir seluruh bangunan memiliki 3 lantai namun rumah bedeng itu hanya 1 lantai. Itu juga disebut sebagai outliers bukan dari lokasi (xi,yi), namun oleh tingginya bangunan. Dihapus? – mungkin itu adalah alternatif yang bisa dipertimbangkan.

Apa yang bisa disimpulkan? Spatial data outliers memiliki karakter berbeda. Harus ditelisik dari 2 sisi: lokasi dan informasi. Pertama ditelisik dari lokasi kemudian baru informasi yang dia muat. Sekarang apa yang harus dilakukan dikala datamu lebih dari 100, mungkin 1.000 atau 1.000.000 data? Harus dipelototi setiap titik. Dikala data tidak bersih maka analisis tidak memberikan informasi yang akurat, dan pada akhirnya hanya scroll up & scroll down (baca di sini)

Banjir: memberikan hak menggenang atau menghalaunya?

Banjir jawa. Sepertinya dokumentasi tertua yang mencatatnya adalah The history of java karya Thomas Stamford Raffles tahun 1817. Rival utama Belanda di negeri kita, waktu itu. Saling berebut rempah dan pengaruh. Selain menceritakan tentang pulau jawa mulai dari penduduk hingga bentuk bentangan alam, buku ini juga menggambarkan bagaimana bencana banjir, disebutnya sebagai java flood. Dan, memang sudah lama banjir itu terjadi, bahkan sebelum buku itu diterbitkan. Banjir sendiri merupakan salah satu bencana global, artinya tidak hanya terjadi di Indonesia. Berbagai negara juga mengalami, seperti Belanda, Jerman, Inggris hingga Amerika. Kerugian yang diakibatkan juga terus meningkat seiring dengan jumlah kejadiannya. Itu memaksa kita untuk berbenah, bahasa kerennya adalah adaptasi. Bentuk adaptasi tertua yang tercatat adalah terps di Belanda. Berupa gundukan tanah, kemudian di atasnya berdirilah bangunan. Tujuannya agar rumah tetap kering, dan hanya membiarkan air meluap hingga halaman. Cara itu cukup efektif di masanya.

Gundukan tanah/ terps untuk gereja

Kemudian, sepertinya strategi itu dinilai kurang efektif setelah bencana hidro-meteorologi semakin sering dan semakin meluas. Untuk areal permukiman besar, rasanya tidak mungkin untuk menaikkan bangunan dengan membuat gundukan/ terps tadi. Lebih mahal, dan tentu bakal mengubah struktur bangunan hingga landscape kota. Jadi, solusi yang muncul adalah membuat bendungan dan tanggul. Bangun pembatas antara tanah kering dan tanah basah. Bahasa Inggrisnya adalah dam (bendungan), dyke dan levee, (tanggul) namun fungsinya berbeda. Dyke diperuntukkan untuk mempertahankan daerah kering dari banjir. Sedangkan levee untuk menahan air di daerah perairan. Dan itulah yang dilakukan oleh Belanda pada tahun 700-an (awal mulanya) di desa Frisian dengan tinggi tidak lebih dari 70 cm. Kemudian dilanjutkan ke daerah-daerah lain di Belanda hingga sekarang diakui sebagai tanggul banjir berstandar internasional. Di masa ini, strategi yang popular adalah menghalau air agar tidak menggenang. Istilah yang sering banget ditemukan di literatur adalah ‘keeping water away from land’ dan ‘defending against floods’. Para insinyur sipil (hidrologi) lebih menekankan pada instrument rekayasa dengan lebih menitikberatkan pada ‘rekayasa air’. Membendungnya agar tidak meluap dan menggenangi permukiman. Kota-kota di Belanda yang berakiran -DAM, sebenarnya adalah kota-kota yang dilindungi oleh bendungan. Contohnya adalah Amsterdam dan Roterdam.

Apakah tanggul itu bekerja dengan baik? Sama dengan terps, bekerja dengan baik pada waktunya. Namun sejak tahun 1980-an, dimana perubahan iklim semakin terasa yang ditandai oleh semakin sering dan meluasnya banjir maka itu dinilai kurang efektif lagi. Karena tujuan utamanya bukanlah memastikan tanah tetap kering, melainkan mempertahankan asset yang sudah lama diinvestasikan di perkotaan melalui pembangunan maka manajemen risiko banjir akhirnya ikut beradaptasi. Belanda dan Inggris menyadari itu. Flood Early warning system pertama kali dibuat di Inggris agar masyarakat bisa mengevakuasi diri dikala banjir. Itupun tidak cukup. Mereka mulai menyadari peran penting tata ruang.

Ada dua program yang cukup terkenal di dunia yaitu room for river (di Belanda) dan space for water (di Inggris). Keduanya mirip yaitu memberikan ruang untuk air. Prinsipnya adalah: menyediakan ruang kosong untuk genangan air. Ruang kosong, yang jika termanfaatkanpun biasanya untuk pertanian, merupakan hamparan luas ratusan hektar tanpa bangunan. Tanggul tetap dibangun untuk menghalau air masuk ke lingkungan permukiman & kota, dan mempersilahkan limpasan banjir untuk ikut memiliki ruang. Selain itu, embung-embung kecil dengan ukuran tidak lebih dari 10.000 m2 juga banyak ditemukan di areal-areal perkotaan yang berfungsi untuk menampung air hujan dan meresapkan, tanpa mengalirkannya ke sungai hingga pada level tertentu. Peran tata ruang yaitu menyediakan ruang kosong untuk banjir inilah yang kemudian sering disebut sebagai spatial adaptation.

Perencanaan berdasarkan regulasi vs pasar properti

Pertanyaan selanjutnya adalah bagaimana merencanakan tata ruang sebagai instrumen adaptasi. Pertanyaan kedua yang perlu dijawab adalah: apakah penggunaan lahan (land use) merupakan benar-benar hasil dari rencana tata ruang (RTRW/RDTRK)? Kenyataannya penggunakan lahan perkotaan merupakan hasil irisan antara perencanaaan berdasarkan regulasi (planning by law) dan hak properti (property right). Bahkan bisa juga diinterpretasikan bahwa pembangunan kota merupakan hasil dari hubungan saling mempengaruhi antara ketersediaan lahan, perencanaan (termasuk tata ruang) dan pasar properti. Rencana tata ruang sangat jelas, dia diatur oleh peraturan perundang-undangan sehingga tidak heran jika disebut sebagai planning by law. Sifatnya sangat jelas dan tegas hingga ploting rencana penggunaan ruang. Dikala melanggar rencana tata ruang maka sebenarnya melanggar hukum. Karena sifatnya yang tegas dan berjangka waktu lama (20 tahun) maka sering mengalami apa yang disebut dengan lock in situation. Kurang fleksibel merespon pertumbuhan permukiman di perkotaan. Peninjauan kembali rencana tata ruang setiap 5 tahun sekali, itu merupakan salah satu contoh bentuk dari kurang fleksibelnya dokumen ini. Meski begitu, itu bukanlah indikasi bahwa rencana tata ruang yang diatur regulasi tidak efektif atau tidak berguna. Tetap saja berguna karena ada jaminan hukum yang mengaturnya.

Hal kedua yang juga harus diperhatikan adalah hak property atau property right. Keputusan penggunaan lahan tidak terlepas dari siapa pemilik dan inisiatif untuk menggunakannya yaitu pemilik lahan. Biasanya, mereka mengikuti mekanisme pasar. Dikala mereka memiliki tanah yang berdekatan dengan zona-zona ekonomi, maka hampir dipastikan mereka akan mengikuti itu. Sama halnya dikala ingin membeli rumah. Faktor ekonomi biasanya menjadi bahan pertimbangan utama. Prinsipnya adalah mencari lokasi yang mampu meningkatkan utilitas lokasi dalam keterbatasan anggaran rumah tangga. Ilustrasi paling gampang adalah mencari lokasi rumah yang dekat dengan tempat kerja, dekat dengan sekolah, pasar, dan taman. Itu disebut dengan upaya meningkatkan utilitas lokasi atau sering juga disebut sebagai kualitas lokasi. Inisiatif pemilik tanah atas properti mereka inilah yang kemudian diistilahkan sebagai hak properti/ property right. Dan, secara langsung inisiatif pemilik ini juga akan membentuk penggunaan lahan.

Dua dasar penggunaan lahan itu (planning by law dan property right) pada akhirnya akan menentukan apakah rencana tata ruang cukup efektif ataukah perlu penyesuaian. Mensinkronisasi penggunaan lahan, plannig by law dan property right, adalah tantangan selanjutnya agar sebuah rencana tata ruang benar-benar sesuai dengan tujuan pembangunan termasuk sebagai instrumen manajemen risiko banjir.

Bagi rencana tata ruang yang diatur oleh regulasi, bukan perkara sulit untuk mengidentifikasi daerah mana yang beresiko tinggi kemudian melarang pembangunan di lokasi beresiko itu. Namun kenyataannya, pembangunan yang dipengaruhi oleh pasar memiliki inisiatif berbeda. Itulah kenapa property right perlu dipertimbangkan sebagai pelengkap rencana tata ruang yang bersifat pasif. Active planning policy mungkin bisa dipertimbangkan untuk mengarahkan pembangunan rumah agar menjauhi lokasi banjir dan membangunnya di lokasi yang aman berdasarkan mekanisme pasar. Dan pada akhirnya memberikan ruang khusus untuk air. Membiarkan mereka meluap, menggenang dan memberikan hak kepada alam untuk menampung, meresapkan, kemudian hidup berdampingan dengan alam. Dengan satu catatan biar mereka menggenang pada lokasi tidak terbangun.

Perilaku emotional, ragam respon properti

Perilaku emotional, ada reaksi atas suatu tekanan yang ditangkap oleh seseorang kemudian meresponnya sesuai dengan kondisi emosinya. Bagi teman-teman psikologi, itu bukanlah hal baru. Justru dari merekalah kita belajar kenapa ada teori perilaku (behavioral theory). Tidak berhenti di situ, banyak dari mereka justru meyakini bahwa perilaku seseorang sangat ditentukan oleh kondisi emosi kejiwaannya dibandingkan rationalitas. Ada yang mengatakan lebih dari 95% perilaku seseorang itu didekte oleh kondisi jiwa mereka. Dikala kita sedang senang maka akan menerima setiap informasi berbeda dikala sedang tidak senang (contohnya saja sedih). Begitupula dikala berperilaku. Perilaku inipun sangat ditentukan oleh tiga hal yaitu (1) attitude, (2) subjective norm, dan (3) perceived behavioral control. Ketiganya akan menentukan niat/ intention kemudian baru ke perilaku atau tindakan. Itu dijelaskan di dalam Theory of planned behavior yang kebetulan menjadi bagian dari narasi sebelumnya, gagal-gagal riset PhD (baca di sini). Tidak jadi memasangkan teori ini di dalam trajectory riset.

Ragam respon property atau biasa juga disebut sebagai housing behavior sebenarnya sangat erat dengan narasi di atas, perilaku. Sama halnya dengan mobil yang berjalan di jalan raya. Perilaku mobil ini sangat ditentukan oleh sopirnya yaitu manusia. Perilaku mereka sangat ditentukan oleh 3 hal di atas juga. Dikala sang sopir sudah lihai mengendarai mobil, tentunya akan lebih bagus dibandingkan yang belum menguasai kendaraan. Ada variabel pengalaman, jenis mobil yang dia kendarai dan sebagainya. Itu adalah variabel-variabel yang tentu akan menentukan bagaimana laju sebuah mobil dikontrol di jalan raya. Tidak berbeda dengan properti yang juga “disopiri” oleh seseorang yang juga memiliki perilaku yang disebabkan oleh berbagai faktor. Place attachment, social identity dan tentu masih banyak lagi teori-teori yang melandasinya. Termasuk yang tidak pernah tertinggal adalah rational economic choices. Pertimbangan ekonomi dengan memikirkan untung dan juga rugi atas sebuah keputusan.

Perilaku itu sepertinya tercermin di kala mereka melakukan tindakan adaptasi di pesisir. Saya ambil contoh adalah hasil penelitannya Pak Marfai (baca di sini) dan yang terbaru adalah Bott (baca di sini), perilaku adaptasi dengan cara meninggikan rumah dan lantai rumah sangat bergantung pada kemampuan ekonomi. Di kondisi mereka mampu secara ekonomi maka yang bisa mereka lakukan adalah (a) meninggikan rumah atau lantai rumah; atau (b) justru berpindah untuk mengurangi biaya adaptasi. Ketinggian rumah yang beragam itu merupakan bagaimana perilaku adaptasi sangat ditentukan kondisi ekonomi. Itu mungkin salah satu narasi saja bagaimana rational economic choices menjelaskan adaptasi. Namun dibalik itu, ternyata ada faktor emosional.

Dikala ada rasa takut (fear) entah yang disebabkan oleh banjir, kriminalitas dan faktor negatif lainnya, itu akan mempengaruhi nilai ekonomi. Lebih tepatnya nilai pasar. Ada sentimen pasar yang kemudian direfleksikan oleh harga suatu barang. Nilai properti, salah satunya. Di teori yang sama dijelaskan bahwa seseorang akan menginternalisasi risiko kedalam keputusan mereka membeli suatu properti. Internalisasi risiko ini yang kemudian akan mempengaruhi nilai spekulasi dan pada akhirnya akan mempengaruhi nilai pasar. Ada penurunan harga di daerah zona banjir, itu hanya contoh saja bagaimana proses internalisasi itu terjadi dan pada akhirnya menurunkan nilai. Dan yang mungkin perlu dicatat adalah bahwa rasa takut yang diinternalisasi itu terkadang melebihi dari besar/ tingkatan bahaya. Sama halnya dikala seseorang mengatakan: Kamu itu tidak kompeten untuk pekerjaan ini. Kemudian kita hanya terdiam, dan berusaha membuktikan bahwa statement itu tidaklah tepat. Kita bereaksi atas statement itu, yang mungkin saja hingga beberapa tahun. Ilustrasi itu menandakan adanya informasi yang ditangkap kemudian diinterpretasi dan kemudian kita bertindak/ berperilaku.

Informasi adalah kunci bagaimana kita bertindak rasional termasuk bagaimana mengalokasikan rupiah, salah satunya membeli properti. Reaksi atas informasi yang salah (bisa disinformation atau bisa juga information bias) akan terefleksi oleh keputusan mereka membeli properti. Nah, sekarang yang perlu diperhatikan lebih lanjut adalah membeli barang properti itu memiliki konsekuensi spatial, karena dia memiliki atribut lokasi. Dan perilaku properti itu tercermin oleh pemilihan lokasi rumah juga. Al hasil, rasa takut yang terinternaliasi dalam pembelian rumah akan tercermin juga oleh pemilihan lokasi dan bukan hanya harga. Dan itu sebenarnya penjelasan sederhana mengenai model kotanya Hoyt (1939) yang sangat popular di anak-anak planologi sebagai model kota sektoral. Filtering theory menjadi landasan Hoyt berargumen atasnya.