Spatial big data: masakan ala lama gaya baru

Spatial big data, apa itu? Data besar berbasis spasial, mungkin begitu saja translasi umumnya. Saat ini cukup popular, dari urusan realtime mobility yang ada di google traffic hingga realtime update data covid seluruh dunia. Saat ini banyak yang tidak hanya mengandalkan data kemudian divisualisasikan ke dalam bentuk grafik atau tabel. Lebih dari itu, peta interaktif. Data spasial tidak lagi eksklusif yang hanya dipegang oleh mereka dari geografi, geodesi dan planologi. Lebih dari itu, teman saya, seorang dokter gigi juga bermain dengan shapefiles dan SAS, software statistik berbayar termahal saat ini. Artinya, data spasial bukan lagi data eksklusif untuk geograf dan planolog, lebih dari itu.

Analisis data spasial juga mulai marak. Ambil contoh geographically weighted regression (GWR) yang sangat mengandalkan data spasial untuk menentukan besaran bobot (weight). Kata tengah pembentuk kata GWR itu dihitung dari jarak antar titik yang kemudian disebut dengan neighborhood (tetangga). Jadi tidak bisa menafikkan bahwa posisi tetangga juga menentukan besaran weight itu. Apa bedanya dengan regresi berbobot? – konsepnya tidak ada beda sama sekali, sama persis. Hanya ada penyesuaian, digeser-geser sedikit dalam menghitung weight itu. Biasanya weight di regresi berbobot dihitung berdasarkan proporsi sampel. Contohnya begini populasi di kecamatan A 1.000 sedangkan di B 500. Kemudian kita bobotkan 2 untuk kecamatan A dan 1 untuk B. Akan ada 2 persamaan regresi yang kelihatannya berbeda karena perbedaan bobot tadi. Di GWR, bobot itu dihitung dari neighborhood seperti penjelasan di atas.

Konsep regresi itulah yang biasanya digunakan di dalam aplikasi-aplikasi berbasis spatial big data. Tidak hanya GWR, bisa jadi random forest atau pemodelan lainnya termasuk ABM (agent based modeling) hingga cellular automata yang mengandalkan pixel. Kalau model sudah ditentukan sebenarnya kita bisa bermain di dua dunia: masa lalu dan masa depan. Masa lalu, jelas kita memanfaatkan data-data terdahulu (longitudinal lebih bagus) untuk melakukan apa yang disebut dengan estimasi masa depan. Itu adalah ide dasar bagaimana prediksi atau proyeksi dengan melihat ‘kecenderungan’ di masa lampau kemudian digunakan untuk melihat masa depan. Proses itu dilakukan oleh manusia untuk mempermudah membuat keputusan termasuk kebijakan di masa revolusi industri pertama (ditemukannya mesin uap). Kemudian di fase kedua (ditemukannya listrik) teknologi digunakan untuk mempercepat proses pekerjaan, efisiensi waktu dan tenaga. Ada produksi masal. Dan di fase ketiga (ditemukannya komputer dan robot) teknologi digunakan untuk otomatisasi proses, manusia tidak lagi memegang peran penting di dalam dunia industri. Di fase saat ini, keempat, dimana teknologi informasi semakin masif, teknologi digunakan untuk membangun ‘pengetahuan’ baru, itulah kenapa begitu viral istilah machine learning, artificial intelligence dan lain-lain. Apa yang saya tulis itu bisa dibaca lebih jauh di bukunya Larissa Suzuki dan Anthony Finkelstein berjudul data as infrastructur for smart city (baca di sini dan bukunya di sini). Dia juga menekankan peran penting data hingga menjadikannya kata depan di judul bukunya.

Dapur data: spatial data science

Di balik revolusi industri yang terus berkembang itu ada data yang digunakan untuk merancang teknologi. Bagaimana memperlakukan data, bagaimana kualitas data dan bagaimana mereka berperilaku, itu adalah kunci dari dapur data yang selama ini dihandle oleh data scientist. Tugas terbesar mereka sebenarnya adalah menyiapkan data agar masuk ke ‘mesin’ pengolah data. Mesin pengolah ini sebut saja (misalnya) regresi, random forest, k-means yang selama ini menjadi ‘inti’ dari teknologi informasi berbasis data tadi. Ambil contoh sederhana adalah menghitung jarak titik – ke – titik di ArcGIS, itu setidaknya ada beberapa model yang bisa digunakan, salah satunya Euclideance distance yang terinspirasi oleh Pak Euclid, seorang Yunani yang menggagas konsep panjang dan jarak. Ada rumus pitagoras di dalamnya. Tugas data scientist adalah menyiapkan data-data itu agar siap eksekusi. Itulah kenapa saya menulis dapur data, karena para data scientist lah yang berperan sebagai seorang ‘tukang masak’ di balik hidangan makanan nan lezat dan mewah. Selama ini yang kita nikmati hanya makanannya semata, tidak tau bagaimana proses di balik itu. Semuanya ada di dapur. Api terlalu besar, garam terlalu banyak dan seabrek persoalan lainnya, itulah yang mereka hadapi dibalik lezatnya makanan.

Mesin pengolah data juga terus berkembang. ‘Mesin’ yang saya maksud di sini bukan software seperti SPSS, R ataupun Python melainkan rumus-rumus matematika yang digunakan untuk memproduksi ‘pengetahuan baru’. Rumus penjumlahan (misalnya), kita punya data dasar 2 dan 3 kemudian kalo kita jumlahkan menjadi 2 + 3 = 5. Angka 2 dan 3 saya sebut sebagai data, sedangkan tanda jumlah ( + ) saya sebut sebagai mesin dan 5 adalah pengetahuan baru, hasil dari penjumlahan itu. Sangat mudah konsepnya. Itu yang dulu dilakukan secara manual, sekarang dilakukan secara otomatis untuk data-data yang tidak sedikit. Ada produksi pengetahuan baru yang kemudian digunakan kembali untuk mesin yang lain. Inilah alasan kenapa saya menyebut ada trend baru mengenai riset di planologi yaitu adanya data bertingkat (baca di sini). Bukan data mentah lagi, namun data setengah jadi atau justru data yang sudah jadi. Contoh yang lain adalah untuk mengestimasi biaya transportasi biasanya menggunakan jarak terdekat, kemudian berubah menjadi jarak tercepat. Perhitungan jarak tercepat ini harus memperhitungkan kecepatan rata-rata lalu lintas (ingat rumus fisika ini S = V . T), maka dikala kita ingin menghitung jarak tercepat (satuanya waktu) maka harus memperhitungkan jarak dan juga kecepatan. Itu adalah contoh bagaimana data jarak kemudian data kecepatan diramu sedemikian rupa menjadi data jarak tercepat. Apakah berhenti di situ? Tidak, itu yang kemudian bisa digunakan untuk memprediksi apa yang sering disebut dengan travel behavior dimana jarak tercepat diyakini berkaitan dengan penentuan alternatif rute. Teman-teman transport akan lebih gamblang menjelaskannya. Bagi saya sendiri, itu menjadi data dasar saya untuk menghitung harga rumah hedonis.

Otomatisasi mesin sangat mungkin dilakukan sekarang ini. Jadi tidak heran dikala Larissa Suzuki mengatakan bahwa saat ini yang diproduksi oleh data science bukan lagi efisiensi waktu tetapi justru pengetahun baru. Akselerasi yang begitu cepat akibat: open data yang semakin masif tersedia, dan teknologi informasi yang saat ini masuk ke ranah kehidupan sosial masyarakat. Sebelumnya apakah begitu? tentu tidak, teknologi informasi hanya berada di dunia kerja, perusahaan dan pemerintahan. Sekarang semua manusia adalah pencacah data melalui smartphone mereka.

Advertisement