Pengelompokan Top Player dengan Analisis Cluster Hierarki

Assalamualaikum Mate …..

What’s Up Data Enthusiast !!

Nah, akhirnya mood ana udah balik lagi buat share sedikti ilmu yang ana tau untuk kalian para Data Enthusiast yang insya Allah dirahmati Allah SWT. By The Way, har ini kita akan bahas yang namanya Clustering.

What’s Clustering ?

Clustering (Pengelompokan) adalah suatu teknik pengelompokan titik (data) kedalam suatu kelompok atau grup tertentu yang titik titik didalam kelompok (cluster) tersebut mempunyai kesamaan, namun berbeda dengan titik titik di cluster yang lain.

Lebih mudahnya kaya gini, gimana caranya seorang karyawan di gudang dapat mengelompokan dus yang sangat banyak dengan warna yang beragam ? Tentunya salah satu cara yang cukup mudah yang dapat dilakukan karyawan tersebut adalah dengan mengelompokkan dus tersebut ke suatu cluster berdasarkan kemiripann warnanya bukan.

Image result for unsupervised machine learning gif

Nah, kurang lebih ilustrasinya kaya gini ranger ….

Clustering sendiri terdapat beberapa teknik, salah satunya adalah teknik pengelompokan dengan hierarki. Teknik ini adalah salah satu teknik clustering yang cukup populer pada machine learning mate. Teknik hierarki ini yang akan kita bahas tuntas hari ini dengan memanfaatkan salah satu tool open source yang udah gk asing lagi buat seorang data analysis yaitu R, untuk teknik clustering lain yakni k means dapat mate baca disini.

Lets do it !

Langkah pertama adalah persiapkan segala package yang dibutuhkan dalam analisis ini

Selanjtunya adalah import data dalam R, dataset dapat diakses disini.

Tidak semua variabel digunakan dalam pengujian, variabel yang di gunakan hanya variabel-variabel yang sejalan dengan tujuan clustering ini, sehingga diperlukan beberapa teknik data mining untuk memperoleh variabel-variabel yang diingkan.

Beradasarkan script di atas, dapat kita ketahui bahwa pemain yang akan dikelompokan adalah para pemain dengan nilai overall ≥ 85.

Salah satu langkah yang harus dilewati adalah pengecekan korelasi dengan cara sebagi berikut.

Gambar diatas menampilkan korelasi setiap variabel, terdapat beberapa variabel yang mempunyai korelasi tinggi. Korelasi yang tinggi dapat menyebabkan masalah multikolinearitas sehingga variabel-variabel yang mempunyai korelasi tinggi dapat dieliminasi.

Cluster Hierarki

Berdasarkan hasil pengujian korelasi sehingga hanya 16 variabel yang di gunakan.

Terdapat perbedaan beberapa fungsi pada R untuk komputasi clustering hierarki. Yang pertama yang akan gunakan adalah menggunakan fungsi hclust, dengan sebelumnya menghitung terlebih dulu jaraknya dengan perintah dist.

Alternatif lain yang dapat digunakan adalah dengan menggunakan fungsi agnes kedua fungsi ini bekerja hampir sama, namun fungsi agnes dapat menampilkan koefisien aglomerative (nilai koefisien mendekati 1 artinya pengelompokan semakin kuat/baik).

fungsi ini memungkinkan mate untuk menemukan metode yang terbaik pada saat berselancar dengan teknik hierarki ini.

dengan metode ini dapat memungkinkan para mate untuk menemukan metode pengelompokkan hierarki tertentu yang dapat mengidentifikasi struktur pengelompokan yang lebih baik. Berdasarkan hasil diatas dapat kita ketahui bahwa metode ward adalah metode tebaik.

Menentukan Cluster Optimal

Terdapat beberapa metode dalam menentukan cluster optimal, sebagai berikut

terdapat beberapa rekomendasi jumlah kluster, ana mencoba menggunakan 3 cluster.

Selanjutnya adalah mengetahui karakterisitik dari setiap cluster, dengan cara sebagai berikut

Berdasarkan violin plot di atas dapat disimpulkan bahwa, pemain-pemain yang berada pada cluster 1 adalah pemain yang mempunyai keseluruhan skill tinggi. Sedangkan cluster 2 adalah cluster untuk para penjaga gawang. Dan cluster 3 adalah pemain yang hampir mempunyai skill tinggi namun mempunyai balance yang cukup rendah.

Biar makin joss pemahamannya, leh ugah nih mampir di rpubs ana biar lebih jelas liat output dari setiap pengujian.

the end of the penjelasan singkat ini, semoga bermanfaat.

Wassalamualaikum Matee ….

--

--

I’m a Data Scientist who never stop learning.

Get the Medium app

A button that says 'Download on the App Store', and if clicked it will lead you to the iOS App store
A button that says 'Get it on, Google Play', and if clicked it will lead you to the Google Play store