Clustering in Machine Learning

Didalam unsupervised machine learning terdapat beberapa teknik , Salah satu teknik yang digunakan ada clustering. Clustering adalah teknik yang digunakan untuk mengelompokkan data ke dalam beberapa kelompok sehingga data dalam satu kelompok memiliki tingkat kemiripan yang maksimum dan data antar kelompok memiliki kemiripan yang minimum.

Salah satu contoh pengaplikasian teknik clustering dalam geotermal adalah mengkarakterisasi struktur geologi yang terkubur di dalam tanah.

Untuk menyelesaikan persoalan tersebut terdapat 3 metode yang biasa digunakan

Pertama ada k-Means, k-Means adalah metode untuk membagi satu atau lebih pengamatan menjadi beberapa kelompok hingga tiap pengamatan termasuk ke dalam kelompok dengan jarak terdekat. Pada metode k-means memiliki kelebihan dan kekurangannya, kelebihan jika menggunakan k-means yaitu pertama waktu yang dibutuhkan relatif singkat, kedua sangat fleksibel dan terakhir mudah dilakukan , lalu berikutnya kekurangannya adalah pertama hasil sangat ditentukan dari pemilihan K, dan berikutnya pemilihan k tidak spesifik.

Metode berikutnya ada hierarchical algorithm , hierarchical algorithm adalah algoritma yang mengelompokkan objek atau titik data berdasarkan jarak atau kesamaannya

Untuk menyelesaikan persoalan dengan hierarchical algorithm terdapat beberapa penyelesaiannya salah satunya adalah single linkage. Pada metode hierarchical algorithm tentu memiliki kelebihan dan kekurangannya, untuk kelebihannya pertama mudah dimengerti dan diimplementasikan, kedua tidak perlu menentukan banyaknya jumlah cluster , dan ketiga mudah mencari kesamaan data. Untuk kelemahannya pertama tidak dapat bekerja jika terdapat data yang hilang, kedua tidak selalu memberikan solusi yang terbaik dan ketiga tidak dapat bekerja jika terdapat perbedaan tipe data.

Metode selanjutnya ada gaussian mixture model , gaussian mixture model Mengasumsikan bahwa ada sejumlah distribusi gaussian, dan masing-masing distribusi ini mewakili sebuah cluster. Oleh karena itu, Model Campuran Gaussian cenderung mengelompokkan titik-titik data yang termasuk dalam distribusi tunggal bersama-sama.

Seperti sebelumnya, gaussian mixture model memiliki kelebihan dan kekurangannya , Kelebihan pertamanya adalah memiliki fleksibilitas tinggi dalam jumlah dan bentuk cluster, berikutnya memiliki algoritma tercepat untuk mempelajari mixture models. Selanjutnya untuk kekurangannya pertama estimasi parameter menjadi sulit ketika ada terlalu sedikit titik data di setiap cluster , dan berikutnya algoritmanya sangat kompleks.

Pelajari lebih lengkap .

Connect with us