BLOG

Blog

Apa itu machine learning?

December 15, 2020

Apa itu pembelajaran mesin (machine learning)?

Pembelajaran mesin atau machine learning adalah cabang dari kecerdasan buatan (AI) yang berfokus pada membangun aplikasi yang belajar dari data dan meningkatkan keakuratannya dari waktu ke waktu tanpa diprogram untuk melakukannya.

Dalam ilmu data, algoritma adalah urutan langkah pemrosesan statistik. Dalam pembelajaran mesin, algoritma ‘dilatih’ untuk menemukan pola dan fitur dalam sejumlah besar data untuk membuat keputusan dan prediksi berdasarkan data baru. Semakin baik algoritma, semakin akurat keputusan dan prediksi saat memproses lebih banyak data.

Saat ini, contoh pembelajaran mesin ada di sekitar kita. Penulursuran web melalui digital assistance, rekomndasi situs web berdasarkan apa yang kita beli, tonton, atau dengarkan sebelumnya, pendeteksi spam dalam email, dan masih banyak lagi.

Semakin hari data semakin besar, komputasi menjadi lebih canggih dan terjangkau, dan data scientist terus mengembangkan algoritma yang semakin mumpuni, kitab oleh berharap lebih. Pembelajaran mesin akan mendorong efisiensi yang semakin besar dalam kehidupan pribadi dan pekerjaan kita.

Lalu, bagaimana machine learning bekerja?

Ada empat langkah dasar untuk membuat aplikasi (atau model) machine learning. Ini biasanya dilakukan oleh data scientist yang bekerja sama dengan profesional bisnis yang modelnya sedang dikembangkan.

Langkah 1: Pilih dan persiapkan data pelatihan

Data pelatihan adalah perwakilan kumpulan data dari data yang akan diserap oleh model pembelajaran mesin untuk memecahkan masalah yang dirancang untuk dipecahkan. Dalam beberapa kasus, data pelatihan diberi label data — ‘diberi tag’ untuk memanggil fitur dan klasifikasi yang perlu diidentifikasi model. Data lain tidak berlabel, dan model perlu mengekstrak fitur tersebut dan menetapkan klasifikasinya sendiri.

Dalam kedua kasus tersebut, data pelatihan perlu disiapkan dengan benar — diacak, dihapus duplikatnya, dan diperiksa untuk ketidakseimbangan atau bias yang dapat memengaruhi pelatihan. Ini juga harus dibagi menjadi dua subset: subset pelatihan, yang akan digunakan untuk melatih aplikasi, dan subset evaluasi, digunakan untuk menguji dan menyempurnakannya.

Langkah 2: Pilih algoritma untuk dijalankan pada kumpulan data pelatihan

Sekali lagi, algoritma adalah serangkaian langkah pemrosesan statistik. Jenis algoritma bergantung pada jenis (berlabel atau tidak berlabel) dan jumlah data dalam kumpulan data pelatihan dan pada jenis masalah yang akan dipecahkan.

Jenis algoritma pembelajaran mesin yang umum untuk digunakan dengan data berlabel meliputi:

Algoritma regresi (regression algorithm)

Regresi linier dan logistik adalah contoh algoritma regresi yang digunakan untuk memahami hubungan dalam data. Regresi linier digunakan untuk memprediksi nilai variabel dependen berdasarkan nilai variabel independen. Regresi logistik dapat digunakan ketika variabel dependen bersifat biner: A atau B. Misalnya, algoritma regresi linier dapat dilatih untuk memprediksi penjualan tahunan penjual (variabel dependen) berdasarkan hubungannya dengan pendidikan atau tahun penjual. pengalaman (variabel independen.) Jenis lain dari algoritma regresi yang disebut mesin vektor dukungan berguna ketika variabel dependen lebih sulit untuk diklasifikasikan.

Pohon keputusan (decision tree)

Pohon keputusan menggunakan data rahasia untuk membuat rekomendasi berdasarkan seperangkat aturan keputusan. Misalnya, pohon keputusan yang merekomendasikan bertaruh pada kuda tertentu untuk dimenangkan, ditempatkan, atau ditampilkan dapat menggunakan data tentang kuda tersebut (misalnya, usia, persentase kemenangan, silsilah) dan menerapkan aturan pada faktor-faktor tersebut untuk merekomendasikan tindakan atau keputusan.

Algoritma berbasis instans (instance-based algorithms)

Contoh yang baik dari algoritma berbasis instans adalah K-Nearest Neighbor atau k-nn. Ini menggunakan klasifikasi untuk memperkirakan seberapa besar kemungkinan titik data menjadi anggota satu kelompok atau lainnya berdasarkan kedekatannya dengan titik data lain.

Algoritma untuk digunakan dengan data tak berlabel meliputi:

Algoritma pengelompokan (clustering algorithms)

Pikirkan kluster sebagai grup. Pengelompokan berfokus pada mengidentifikasi kelompok catatan serupa dan memberi label catatan sesuai dengan kelompok tempat mereka berasal. Ini dilakukan tanpa pengetahuan sebelumnya tentang kelompok dan karakteristik mereka. Jenis algoritma pengelompokan termasuk pengelompokan K-means, TwoStep, dan Kohonen.

Algoritma asosiasi (association algorithms)

Algoritma asosiasi menemukan pola dan hubungan dalam data dan mengidentifikasi hubungan ‘jika-maka’ yang sering disebut aturan asosiasi. Ini mirip dengan aturan yang digunakan dalam data mining.

Jaringan neural (neural networks)

Jaringan neural adalah algoritma yang menentukan jaringan kalkulasi berlapis yang menampilkan lapisan masukan, tempat data diserap; setidaknya satu lapisan tersembunyi, di mana kalkulasi dilakukan membuat kesimpulan berbeda tentang masukan; dan lapisan keluaran. di mana setiap kesimpulan diberi probabilitas. Jaringan neural dalam mendefinisikan jaringan dengan beberapa lapisan tersembunyi, yang masing-masingnya menyaring hasil dari lapisan sebelumnya secara berturut-turut. (Untuk lebih lanjut, lihat bagian “Pembelajaran mendalam” di bawah.)

Langkah 3: Melatih algoritma untuk membuat model

Melatih algoritma adalah proses berulang – ini melibatkan menjalankan variabel melalui algoritma, membandingkan output dengan hasil yang seharusnya dihasilkan, menyesuaikan bobot dan bias dalam algoritma yang mungkin menghasilkan hasil yang lebih akurat, dan menjalankan variabel lagi hingga algoritma mengembalikan hasil yang benar di sebagian besar waktu. Algoritma terlatih dan akurat yang dihasilkan adalah model pembelajaran mesin — perbedaan penting yang perlu diperhatikan, karena ‘algoritma’ dan ‘model’ digunakan secara tidak benar secara bergantian, bahkan oleh pakar pembelajaran mesin.

Langkah 4: Menggunakan dan menyempurnakan model

Langkah terakhir adalah menggunakan model dengan data baru dan, dalam kasus terbaik, untuk meningkatkan akurasi dan efektivitas dari waktu ke waktu. Dari mana data baru berasal akan bergantung pada masalah yang diselesaikan. Misalnya, model pembelajaran mesin yang dirancang untuk mengidentifikasi spam akan menyerap pesan email, sedangkan model pembelajaran mesin yang menggerakkan penyedot debu robot akan menyerap data yang dihasilkan dari interaksi dunia nyata dengan furnitur yang dipindahkan atau objek baru di dalam ruangan.

Nah itu dia sedikit ulasan terkait machine learning. Bagaimana pendapatmu terkait salah satu cabang AI ini. Tertarik kah untuk mempelajarinya? Tunggu artikel selanjutnya ya!

Rate this post