Pengelompokan Spasial (K-Means, DBSCAN, HDBSCAN)

Pendahuluan

Dalam pelajaran ini, Anda akan mempelajari cara menerapkan teknik pengelompokan spasial menggunakan K-Means, DBSCAN, dan HDBSCAN untuk memahami pola distribusi nasabah, transaksi, serta lokasi cabang/ATM dalam konteks pengembangan jaringan perbankan.

Dengan memahami pola cluster, Anda dapat menjawab pertanyaan seperti:

Di mana area dengan potensi penempatan cabang baru?
Lokasi mana yang memiliki konsentrasi transaksi tinggi namun belum terlayani?
Bagaimana memisahkan noise, outlier, dan titik-titik bernilai strategis?

Prasyarat / Alat yang dibutuhkan:

Python + library: geopandas, scikit-learn, hdbscan, pandas, numpy
Data geospasial: titik lokasi nasabah/cabang dalam format CSV/GeoJSON
IDE (Jupyter Notebook, VSCode, Spyder)
Dasar pemrograman Python
Dasar analisis geospasial (GeoDataFrame, koordinat, CRS)

Langkah-langkah Utama

1. Siapkan & Bersihkan Data Spasial

Anda akan menyiapkan data titik (nasabah/cabang/ATM) agar siap diproses oleh algoritma clustering.

Instruksi Detail

Impor data CSV/GeoJSON ke dalam GeoDataFrame.
- (Visual Hint: Tampilkan screenshot Jupyter dengan kode import dan preview 5 baris data)
Pastikan kolom koordinat sudah dalam format EPSG:4326; jika tidak, lakukan reprojection.
- (Visual Hint: Visual peta titik setelah transformasi CRS)
Hilangkan duplikasi dan data yang tidak memiliki koordinat.
Buat array fitur X = [[lon, lat], ...] untuk input algoritma clustering.

Tip:
Selalu bersihkan data sebelum masuk ke algoritma. Noise berlebihan dapat membuat DBSCAN/HDBSCAN gagal membentuk cluster.

2. Terapkan K-Means untuk Identifikasi Pola Konsentrasi Utama

K-Means cocok untuk mendeteksi area konsentrasi nasabah atau aktivitas transaksi berdasarkan jumlah cluster yang Anda tentukan.

Instruksi Detail

Tentukan jumlah cluster awal (misalnya 3, 5, atau 7).
Inisialisasi model: from sklearn.cluster import KMeans model = KMeans(n_clusters=5, random_state=42) labels = model.fit_predict(X)
Tambahkan label cluster ke GeoDataFrame.
Visualisasikan hasil cluster menggunakan geopandas atau peta interaktif seperti kepler.gl.

(Visual Hint: Tampilkan peta dengan warna berbeda untuk tiap cluster)

Peringatan:
K-Means tidak ideal untuk data dengan distribusi tidak beraturan atau cluster berbentuk non-sferis. Gunakan hanya jika pola persebaran relatif simetris atau Anda membutuhkan baseline cluster cepat.

3. Gunakan DBSCAN untuk Mendeteksi Cluster Alami & Outlier

DBSCAN tidak memerlukan jumlah cluster. Cocok untuk mendeteksi pola alami, termasuk wilayah yang padat dan area yang terisolasi.

Instruksi Detail

Tentukan parameter penting:
- eps: radius jarak dalam derajat koordinat
- min_samples: minimal titik untuk membentuk cluster
Jalankan model: from sklearn.cluster import DBSCAN model = DBSCAN(eps=0.01, min_samples=10) labels = model.fit_predict(X)
Identifikasi nilai label = -1 sebagai outlier.
Visualisasikan cluster untuk melihat pola kepadatan.

(Visual Hint: Peta dengan titik hitam sebagai outlier dan cluster berwarna)

Tip Penting:
Gunakan DBSCAN untuk mendeteksi area dengan kepadatan transaksi tinggi, misalnya lokasi ATM yang sering digunakan.

4. Gunakan HDBSCAN untuk Cluster Kompleks & Multi-Kepadatan

HDBSCAN adalah versi lebih fleksibel dari DBSCAN. Cocok untuk jaringan perbankan dengan data bervolume besar dan distribusi campuran.

Instruksi Detail

Instal library hdbscan jika belum tersedia.
Inisialisasi model: import hdbscan model = hdbscan.HDBSCAN(min_cluster_size=15) labels = model.fit_predict(X)
Hasil cluster mencakup probabilitas keanggotaan. Gunakan ini untuk mengukur stabilitas cluster.
Visualisasikan output di peta.

(Visual Hint: Heatmap cluster berdasarkan probabilitas keanggotaan HDBSCAN)

Strategi Profesional:
HDBSCAN sangat berguna untuk mengidentifikasi “zona pasar potensial” berdasarkan menggabungkan titik transaksi yang tidak merata tetapi tetap mengikuti pola struktural tertentu.

5. Interpretasikan Hasil untuk Strategi Jaringan Perbankan

Setelah cluster terbentuk, langkah berikutnya adalah menghubungkan pola tersebut dengan keputusan strategis.

Instruksi Detail

Identifikasi:
- Cluster paling padat → calon lokasi cabang baru
- Outlier → lokasi dengan transaksi tidak stabil (perlu penanganan khusus)
- Cluster dengan spread luas → area pemasaran prioritas
Overlay output cluster ke peta administrasi (kelurahan/kecamatan) untuk analisis lebih mendalam.
Hitung radius catchment area untuk setiap cluster.
(Visual Hint: Peta cluster yang di-overlay ke batas administrasi kota)

Tip:
Selalu hubungkan hasil analisis dengan realita lapangan, seperti data demografi, potensi ekonomi, atau keberadaan pesaing.

Ringkasan & Tugas

3 Poin Kunci

K-Means cocok untuk cluster baseline berbasis jumlah cluster tertentu.
DBSCAN unggul dalam mendeteksi cluster alami dan outlier.
HDBSCAN sangat ideal untuk data spasial kompleks dan distribusi multi-kepadatan.

Tugas Praktis

Ambil dataset titik nasabah atau ATM (minimal 500 titik).
Jalankan ketiga metode clustering (K-Means, DBSCAN, HDBSCAN).
Buat 1 peta interaktif yang menampilkan:
- Perbandingan hasil setiap metode
- Outlier dari DBSCAN/HDBSCAN
- Rekomendasi lokasi strategis untuk penambahan cabang/ATM

Previous Lesson

Back to Course

Next Lesson