Pengelompokan Spasial (K-Means, DBSCAN, HDBSCAN)
Pendahuluan
Dalam pelajaran ini, Anda akan mempelajari cara menerapkan teknik pengelompokan spasial menggunakan K-Means, DBSCAN, dan HDBSCAN untuk memahami pola distribusi nasabah, transaksi, serta lokasi cabang/ATM dalam konteks pengembangan jaringan perbankan.
Dengan memahami pola cluster, Anda dapat menjawab pertanyaan seperti:
- Di mana area dengan potensi penempatan cabang baru?
- Lokasi mana yang memiliki konsentrasi transaksi tinggi namun belum terlayani?
- Bagaimana memisahkan noise, outlier, dan titik-titik bernilai strategis?
Prasyarat / Alat yang dibutuhkan:
- Python + library:
geopandas,scikit-learn,hdbscan,pandas,numpy - Data geospasial: titik lokasi nasabah/cabang dalam format CSV/GeoJSON
- IDE (Jupyter Notebook, VSCode, Spyder)
- Dasar pemrograman Python
- Dasar analisis geospasial (GeoDataFrame, koordinat, CRS)
Langkah-langkah Utama
1. Siapkan & Bersihkan Data Spasial
Anda akan menyiapkan data titik (nasabah/cabang/ATM) agar siap diproses oleh algoritma clustering.
Instruksi Detail
- Impor data CSV/GeoJSON ke dalam GeoDataFrame.
(Visual Hint: Tampilkan screenshot Jupyter dengan kode import dan preview 5 baris data)
- Pastikan kolom koordinat sudah dalam format EPSG:4326; jika tidak, lakukan reprojection.
(Visual Hint: Visual peta titik setelah transformasi CRS)
- Hilangkan duplikasi dan data yang tidak memiliki koordinat.
- Buat array fitur
X = [[lon, lat], ...]untuk input algoritma clustering.
Tip:
Selalu bersihkan data sebelum masuk ke algoritma. Noise berlebihan dapat membuat DBSCAN/HDBSCAN gagal membentuk cluster.
2. Terapkan K-Means untuk Identifikasi Pola Konsentrasi Utama
K-Means cocok untuk mendeteksi area konsentrasi nasabah atau aktivitas transaksi berdasarkan jumlah cluster yang Anda tentukan.
Instruksi Detail
- Tentukan jumlah cluster awal (misalnya 3, 5, atau 7).
- Inisialisasi model:
from sklearn.cluster import KMeans model = KMeans(n_clusters=5, random_state=42) labels = model.fit_predict(X) - Tambahkan label cluster ke GeoDataFrame.
- Visualisasikan hasil cluster menggunakan
geopandasatau peta interaktif sepertikepler.gl.
(Visual Hint: Tampilkan peta dengan warna berbeda untuk tiap cluster)
Peringatan:
K-Means tidak ideal untuk data dengan distribusi tidak beraturan atau cluster berbentuk non-sferis. Gunakan hanya jika pola persebaran relatif simetris atau Anda membutuhkan baseline cluster cepat.
3. Gunakan DBSCAN untuk Mendeteksi Cluster Alami & Outlier
DBSCAN tidak memerlukan jumlah cluster. Cocok untuk mendeteksi pola alami, termasuk wilayah yang padat dan area yang terisolasi.
Instruksi Detail
- Tentukan parameter penting:
eps: radius jarak dalam derajat koordinatmin_samples: minimal titik untuk membentuk cluster
- Jalankan model:
from sklearn.cluster import DBSCAN model = DBSCAN(eps=0.01, min_samples=10) labels = model.fit_predict(X) - Identifikasi nilai
label = -1sebagai outlier. - Visualisasikan cluster untuk melihat pola kepadatan.
(Visual Hint: Peta dengan titik hitam sebagai outlier dan cluster berwarna)
Tip Penting:
Gunakan DBSCAN untuk mendeteksi area dengan kepadatan transaksi tinggi, misalnya lokasi ATM yang sering digunakan.
4. Gunakan HDBSCAN untuk Cluster Kompleks & Multi-Kepadatan
HDBSCAN adalah versi lebih fleksibel dari DBSCAN. Cocok untuk jaringan perbankan dengan data bervolume besar dan distribusi campuran.
Instruksi Detail
- Instal library
hdbscanjika belum tersedia. - Inisialisasi model:
import hdbscan model = hdbscan.HDBSCAN(min_cluster_size=15) labels = model.fit_predict(X) - Hasil cluster mencakup probabilitas keanggotaan. Gunakan ini untuk mengukur stabilitas cluster.
- Visualisasikan output di peta.
(Visual Hint: Heatmap cluster berdasarkan probabilitas keanggotaan HDBSCAN)
Strategi Profesional:
HDBSCAN sangat berguna untuk mengidentifikasi “zona pasar potensial” berdasarkan menggabungkan titik transaksi yang tidak merata tetapi tetap mengikuti pola struktural tertentu.
5. Interpretasikan Hasil untuk Strategi Jaringan Perbankan
Setelah cluster terbentuk, langkah berikutnya adalah menghubungkan pola tersebut dengan keputusan strategis.
Instruksi Detail
- Identifikasi:
- Cluster paling padat → calon lokasi cabang baru
- Outlier → lokasi dengan transaksi tidak stabil (perlu penanganan khusus)
- Cluster dengan spread luas → area pemasaran prioritas
- Overlay output cluster ke peta administrasi (kelurahan/kecamatan) untuk analisis lebih mendalam.
- Hitung radius catchment area untuk setiap cluster.
(Visual Hint: Peta cluster yang di-overlay ke batas administrasi kota)
Tip:
Selalu hubungkan hasil analisis dengan realita lapangan, seperti data demografi, potensi ekonomi, atau keberadaan pesaing.
Ringkasan & Tugas
3 Poin Kunci
- K-Means cocok untuk cluster baseline berbasis jumlah cluster tertentu.
- DBSCAN unggul dalam mendeteksi cluster alami dan outlier.
- HDBSCAN sangat ideal untuk data spasial kompleks dan distribusi multi-kepadatan.
Tugas Praktis
- Ambil dataset titik nasabah atau ATM (minimal 500 titik).
- Jalankan ketiga metode clustering (K-Means, DBSCAN, HDBSCAN).
- Buat 1 peta interaktif yang menampilkan:
- Perbandingan hasil setiap metode
- Outlier dari DBSCAN/HDBSCAN
- Rekomendasi lokasi strategis untuk penambahan cabang/ATM