Gagal-gagal riset PhD

Banyak sekali cerita gagal dari rangkaian riset PhD ini. Hampir semuanya berkaitan dengan 2 hal yaitu data dan underpinning theory. Meskipun keduanya itu sudah terangkai di proposal riset namun di dalam proses eksekusinya tidak semulus dengan apa yang ditulis. Gagal, gagal, dan gagal. Saya memilih kata gagal di tulisan ini karena memang kenyataannya failed, artinya tidak bisa diperbaiki dan re-justifikasi. Tidak bisa, ya gagal seperti kita membuat adonan kue namun tidak bisa mengembang setelah masuk oven, solusinya: dibuang, tidak digunakan. Hanya mendapatkan experience saja dibalik setiap ‘adonan’ gagal tadi. Baik, kita bahas satu per satu.

Machine learning untuk klasifikasi rumah rusak

Itu adalah kegagalan pertama, membuat machine learning untuk mengklasifikasikan tipe rumah. Harapannya tidak hanya di situ tetapi hingga menilai kualitas rumah akibat banjir pesisir. Sebenarnya tidak membuat dari nol, melainkan melakukan edit (customise) syntax phyton untuk machine learning yang sudah beredar bebas di Internet. Mendapatkan bantuan dari adik yang kebetulan lebih jago di programming, kami modifikasi script untuk mengklasifikasikan foto rumah yang kami download dari google street view. Saya melanggan google cloud platform untuk mendapatkan akses street view API, kemudian kami bisa ambil foto-foto berdasarkan koordinat rumah. Mudah? Tidak sama sekali. Setidaknya ada 3 persoalan mendasar di sini.

Pertama, tidak semua peta kapling nyambung dan benar-benar presisi dengan citra satelit. Bagi anak-anak Planologi, saya yakin ini bukanlah ‘persoalan baru’ melainkan persoalan kawakan yang dari dulu hingga sekarang terus ditemukan. Akibatnya adalah tidak mendapatkan titik koordinat kapling yang akurat, bergeser 10 – 20 meter dan tentu di kala crawling foto rumah, bisa jadi bukan rumah yang sebenarnya. Ada titik koordinat yang tidak presisi akibatnya crawling foto rumah tetangganya. Kedua, arah kamera. Seperti yang kita ketahui bersama, google street view menyajikan foto 360. Kita bisa melihat kanan-kiri-atas-bawah dengan memutar foto. Teknologi anyar ini belum bisa dipecahkan di saat mau ambil foto (crawling tadi). Apakah kamera benar-benar menghadap ke muka rumah? Tidak selalu. Sering saya hanya mendapatkan foto langit atau justru jalan raya. Artinya banyak foto-foto yang ‘mubadzir’, tidak bisa dipakai. Ketiga, yang terparah adalah mobil google tidak masuk ke daerah yang sering terkena banjir. Padahal tujuan akhir dari proses ini adalah melihat bagaimana adaptasi rumah dilakukan berdasarkan teknologi tadi. Al hasil, rumah-rumah di daerah banjir yang meninggikan lantai dan rumah itu sama sekali tidak didapatkan. Dibalik kegagalan ini ada rupiah yang harus dibayarkan ke google. Masalah utamanya ada di ketersediaan data dan mengarahkan kamera.

Difference-in-differences, mencari pembanding

Saya rasa bukan barang baru bagi anak-anak statistik. Kita mencari pembeda di antara variansi kelompok data. Metode ini sudah saya gunakan untuk menganalisis bagaimana pengaruh banjir terhadap harga properti. Saya membagi dua dataset: treated dan control data. Seperti prosedur baku metode itu. Apakah bisa dieksekusi? Bisa, bisa banget dan sudah selesai dilakukan. Namun menjadi gagal karena metode itu diputuskan untuk tidak digunakan. Lagi-lagi tidak dipakai karena bakal sulit merangkai cerita dari hasil paper 1 ke paper lainnya. Dikala ini yang menjadi metode utama mungkin saja spatial econometrics akan menjadi ‘benang merah teori’ yang merangkai semua trajectory. Dan itu bakal banyak berkecimpung di metode riset, lengkap dengan asumsi-asumsi dasar statistik yang tidak mudah bagi saya. Jadi, bolehlah metode dan niatan menggunakan spatial econometrics digugurkan atau digagalkan. Dibalik itu semua tentu sudah ada beberapa minggu berkecimpung dengan google, youtube, juga buku-buku referensi. Rugi di waktu, bisa dikata demikian, lagi-lagi untung di experience.

Spatial statistics dan nilai tetangga

Kalau yang ini, sebenarnya tidak terlalu gagal. Ada yang berhasil yaitu Spatial Autoregressive (SAR) model. Namun dibalik keputusan menggunakan SAR, ada sekitar 60 model statistik yang dibuat lengkap dengan tidak terhitungnya syntax error, saking banyaknya. Nilai tetangga yaitu jarak antar titik amatan dan juga jumlah tetangga yang diamati adalah kunci. Namun, lagi-lagi gagal karena variabel amatan tidak menunjukkan perilaku sesuai dengan hipotesa teori. Mencari model lagi, membaca referensi dan juga youtuban. Persoalannya bukan di model statistik, bukan juga pada dataset melainkan bagaimana kita memandang atau menginterpretasi model statistik tadi.

Spatial durbin model (SDM) rasanya lebih tepat menjadi model yang menjelaskan bagaimana nilai tetangga dipengaruhi oleh nilai amatan. Disamping itu variabel amatan berada di variabel independent (X), artinya sudah sangat amat cocok sekali dikala model spatial statistik yang dipilih adalah SDM ini. Kenyataannya tidak demikian, perilaku data tidak menunjukkan adanya efek marginal di variabel X melainkan di Y dan justru di nilai errornya. Kesimpulan yang bisa ditarik sebenarnya adalah diambang perselisihan apakah menggunakan SAR ataukah SEM (spatial error model). Yang membedakan adalah dimana efek marginal terjadi, dikala SAR maka efek marginal terjadi di Y sedangkan SEM terjadi di errornya. Hipotesa teoritik tidak didukung oleh model statistik spasial, itu kesimpulan yang dapat ditarik pertengahan tahun lalu.

Underpinning theory tidak sesuai

Underpinning theory atau teori yang melandasi, itu menjadi landasan utama bagaimana setiap artikel dirangkai menjadi sebuah cerita. Karakter riset di sini adalah merangkai bukti-bukti riset ke dalam trajectory menggunakan ‘sambungan’ teori. Ada 1 teori yang menjadi ‘benang merah’ dari paper 1 hingga paper 4 kemudian di setiap paper itu ada teori-teori lain yang ditambahkan. Kurang lebih ada 2 – 3 teori yang diekstrak kemudian disusun lagi menjadi theoretical framework di setiap papernya. Apakah harus berbeda? sebenarnya tidak, yang pasti harus terangkai. Sebagai contoh paper 2 dan 3 yang saya susun sebenarnya hanya menjelaskan 2 teori saja yaitu teori hedonic dan property-based neighborhood change. Dua teori yang dibongkar kemudian digabungkan kembali ini akan menjelaskan kerentanan permukiman di pesisir. Dari seluruh proses penggabungan 1 – 4 paper akan menyajikan conceptual framework, atau kerangka berfikir baru yang kemudian kita tawarkan ke global di final defense. Harapannya ada sudut pandang baru yang ditawarkan untuk ikut berkecimpung di dalam diskusi global adaptasi. Novelti yang selama ini bisa disajikan melalui 3 hal: data baru, metode dan lokasi baru, hingga materi/ substansi baru sebenarnya diarahkan untuk memberikan sudut pandang baru. Untuk memudahkan, saya berikan contohnya di kanal youtube di bawah ini. Menurut anda apakah stress mengganggu kesehatan tubuh manusia? – Jika jawaban anda adalah Iya, maka itu adalah sudut pandang yang umum diterima manusia. Kenyataannya ada sudut pandang baru yang mengatakan bahwa orang yang paling stress sebenarnya justru yang paling bahagia dan justru yang paling sehat, jadikan stress sebagai teman. Kenali, terima dan deal with it. Kurang lebih begitu yang ingin diceritakan oleh Kelly di bawah ini. Ada sudut pandang baru yang dia tawarkan. Itulah yang mungkin diharapkan dari sekolah ini, lagi-lagi saya hanya menduga.

Kembali ke topik, karena saya berkecimpung di urban economy, maka asumsi-asumsi ekonomi menjadi motor penggerak bagaimana saya berfikir dan tentu berargumentasi. Ternyata itu tidak sepenuhnya bisa merangkaikan seluruh ide paper. Data berperilaku berbeda dengan hipotesa yang terus bergerak. Setiap hipotesa terjawab oleh perilaku data yang sebaliknya dan justru bertentangan. Contohnya begini: banyak riset yang membuktikan bahwa risiko banjir bisa dikapitalisasi dalam harga properti. Hanya ada 1 artikel yang mengatakan: ada bukti bahwa itu tidak berhubungan. Dia membuka ruang diskusi mengenai model statistik yang lain. Penulis artikel ini (Rajapaksa) menduga mungkin ada model statistik lain, yang mungkin saja tidak berkorelasi positif. Bagaimana data saya berbicara? Dua asumsi besar tentang korelasi positif itu terjawab. Justru ada di dua kelompok data bersebarangan. Di sini menjadi semakin yakin, sepertinya tidak bisa kalau hanya mengandalkan 1 model statistik dan 1 landasan teoritik untuk menjelaskan rangkaian keseluruhan paper. Itu disadari saat memasuki winter tahun lalu. Konsekuensinya adalah mengubah underpinning theory, mengubah asumsi dasar argumentasi dan pada akhirnya mengubah alur cerita. Tidak bisa dikatakan gagal sepenuhnya, sebenarnya. Tetapi di sini sudah bisa dihitung berapa waktu yang harus digunakan untuk kesasar. Yang pasti underpinning theory lawas relatif sama dengan adonan roti yang tidak mengembang saat di oven tadi.

Bertemu spatial outliers, dulu dibuang sekarang dipinang

Baca tulisan ini: spatial data outliers: harus ditangani berbeda, tepat 10 bulan lalu saya menulisnya. Buang data outliers agar pemodelannya robust. Dan waktu itu tidaklah salah. Tujuan utamanya adalah mendapatkan model statistik yang robust/ kuat agar bisa menjelaskan fenomena data dan teori. Dan memang setelah outliers itu dihapus, model statistik menjadi lebih bagus, lebih robust yang ditunjukkan oleh nilai signifikansi. Sekarang yang menjadi tantangan adalah bagaimana dikala data panel (8 tahun) diubah menjadi cross-sectional data yang difilter berdasarkan tahun? Ada dinamika yang bisa dipetakan untuk menjelaskan teori, neighborhood change tadi berdasarkan property market. Ternyata ada kelompok atau segmentasi pasar yang berubah dan cenderung berkembang. Perkembangan ini ternyata justru diperlihatkan oleh outliers yang dihapus tadi. Apa yang sudah dilakukan 10 bulan lalu harus diperbaiki. Di kembalikan, kemudian data yang dianggap bersih (tanpa outliers) justru bukanlah data yang dibutuhkan. Harus mengembalikan ke dataset semula. Meminang spatial outliers agar pertumbuhan/ perkembangan segmentasi pasar bisa dijelaskan lebih gamblang. Ubah lagi dataset, pemodelan lagi dan merangkai cerita lagi.

Advertisement