Kamus Machine Learning

A/B Testing

Teknik statistik untuk membandingkan dua (atau lebih) teknik.

Metode statistik dasar yang digunakan untuk membandingkan 2 cara atau lebih. A/B testing digunakan untuk mengukur cara/teknik mana yang memiliki performa lebih tinggi. Selain itu A/B testing juga digunakan untuk mengetahui seberapa signifikan perbedaan antar teknik/cara tersebut.

Agent

Entitas yang membuat keputusan.

Action

Dalam reinforcement learning, action adalah setiap keputusan yang diambil oleh agent.

Activation Function

Fungsi yang menerima jumlah bobot semua masukan dari layer sebelumnya, kemudian menghasilkan dan meneruskan nilai keluaran ke layer berikutnya. Contoh: ReLU atau sigmoid.

Akurasi

Jumlah data yang diprediksi dengan benar oleh machine learning dibagi jumlah seluruh data poin.

Algoritma

Dalam ilmu komputer, algoritma adalah sekumpulan aturan atau instruksi yang didesain untuk melakukan tugas dan menyelesaikan permasalahan.

Anomaly Detection

Proses untuk menemukan anomali pada dataset.

Artificial Intelligence

Sebenarnya istilah ini sudah dibahas pada artikel sebelumnya tapi demi kepentingan kelengkapan glosarium, kami tetap akan membahasnya. Artificial intelligence jika diterjemahkan secara harfiah adalah kecerdasan buatan. Istilah ini sebenarnya sudah lama dipakai bahkan awal perkembangan teknologi komputer. Konsep artificial Intelligence yang sering disingkat sebagai AI ini adalah bagaimana membuat mesin dalam hal ini komputer dapat berpikir layaknya manusia mulai dari analisis sampai pengambilan keputusan. Nah, machine learning termasuk salah satu metode dalam artificial intelligence di mana komputer dapat belajar dengan sendirinya untuk menjadi ‘cerdas’.

Program atau model yang dapat menyelesaikan tugas-tugas canggih. Machine learning adalah sub-bidang dari artificial intelligence.

B

Bobot

Koefisien untuk fitur dalam model linier atau parameter yang dipelajari oleh sebuah perceptron untuk menunjukkan kekuatan node tertentu dalam jaringan syaraf tiruan.

C

Callbacks

Objek yang dapat melakukan tindakan pada berbagai tahapan pelatihan (misal di awal atau akhir epoch, sebelum atau setelah batch tunggal, dll).

Classification Model

Salah satu tipe machine learning yang dapat membedakan dua data atau lebih menurut kelas. Contohnya dalam model natural pengklasifikasian bahasa yang dapat membedakan apakah suatu kalimat ditulis dalam Bahasa Inggris, Perancis atau Bahasa Indonesia. Contoh lain untuk model machine learning adalah regression model.

Clustering

Pengelompokan data yang memiliki kesamaan ke dalam grup tertentu.

Metode dalam mengidentifikasi data dengan cara membuat grup data secara vektoral berdasarkan kemiripan data. Metode ini digunakan dalam unsupervised learning. Ada beberapa metode clustering seperti K-mean dan K-median.

Collaborative Filtering

Membuat prediksi tentang minat suatu pengguna berdasarkan minat banyak pengguna lainnya. Collaborative filtering sering digunakan dalam sistem rekomendasi.

Content-based Filtering

Pada sistem rekomendasi, content based filtering menerapkan meta-feature atau fitur bawaan dari objek.

CSV

Comma-Separated Value, format file teks dalam bentuk tabular dengan pemisah berupa koma

D

Data Augmentation

Data augmentation merupakan metode untuk meningkatkan jumlah examples dengan cara mentransformasi example yang sudah ada. Sebagai contoh, jika Anda ingin membuat machine learning yang bisa mengidentifikasi bunga akan tetapi Anda hanya punya satu gambar bunga sebagai example. Karena machine learning merasa butuh lebih dari satu example, maka dia menciptakan gambar baru dengan cara memutar, men-distort, ataupun membalik gambar tadi sehingga tercipta beberapa example baru.

Data Kategorik

Fitur-fitur yang memiliki sekumpulan nilai diskrit dan bisa dibagi ke dalam grup. Sering disebut juga data diskrit.

Data Numerik

Fitur-fitur yang direpresentasikan sebagai bilangan bulat atau bilangan riil. Sering disebut juga fitur berkelanjutan.

Data Time Series

Sekumpulan data atau observasi pada interval waktu tertentu.

Dataset

Sekumpulan data atau contoh-contoh yang terdiri dari satu atau lebih fitur.

Kumpulan dari beberapa example.

Deep Model

Deep model ini biasa disebut dengan istilah deep learning. Deep model menggunakan metode berlapis (neural networks) yang disebut layer di mana setiap lapisan layer terdiri dari neuron. Di tengah lapisan itu terdapat lapisan yang disebut dengan hidden layers. Model ini terinspirasi dari bagaimana cara otak manusia bekerja.

Deep Learning

Cabang machine learning dengan algoritma jaringan syaraf tiruan yang dapat belajar dan beradaptasi terhadap sejumlah besar data.

Deep Neural Network

Tipe Neural Network yang memiliki beberapa hidden layer.

Deployment

Pada machine learning, deployment adalah metode yang digunakan untuk mengintegrasikan model machine learning ke dalam lingkungan produksi untuk membuat keputusan berdasarkan data.

Dimension Reduction

Mengurangi jumlah dimensi yang digunakan untuk merepresentasikan fitur tertentu.

Dropout regularization

Bekerja dengan menghapus pilihan acak sejumlah unit tetap dalam lapisan layer untuk satu langkah gradien.

E

Elbow

Metode untuk menentukan jumlah cluster pada dataset.

Embeddings

Fitur kategorik direpresentasikan sebagai fitur kontinyu. Biasanya, embedidng adalah terjemahan dari vektor berdimensi tinggi ke dalam ruang berdimensi rendah.

Epoch

Satu proses pelatihan penuh atas seluruh dataset sehingga setiap contoh data telah melewati model sebanyak satu kali.

Environment

Dalam reinforcement learning, environment adalah sarana untuk berinteraksi, yang dapat menerima action dan memberikan respon berupa hasil maupun data berupa satu set observasi baru.

Example

Satu barisan dalam satu data set yang memiliki feature dan label.

F

Federated Learning

Konsep sistem machine learning modern yang mengutamakan privasi serta kecerdasan sistem.

Feedback

Dalam machine learning, situasi di mana prediksi model mempengaruhi data pelatihan.

Fitur / Feature

Input variabel yang digunakan untuk membuat prediksi.

Sebuah input variabel dalam membuat prediksi.

G

Good Fit

Kondisi saat model model machine learning melakukan generalisasi data dengan baik.

Google Colaboratory

Notebooks yang memungkinkan kita menulis dan mengeksekusi code pada browser.

H

Hidden Layer

Lapisan sintetis dalam jaringan saraf antara lapisan masukan (fitur) dan lapisan keluaran (prediksi). Hidden layer biasanya berisi fungsi aktivasi untuk pelatihan.

Hierarchical Cluster

Metode clustering yang dilakukan dengan membuat cabang-cabang bertingkat. Metode ini terinspirasi dari bagaimana manusia mengidentifikasi jenis hewan atau tanaman melalui spesies, jenis, ordo, dsb.

Hyperparameter

Variabel yang digunakan untuk mengontrol proses pelatihan model. Contohnya: epoch.

I

Image Augmentation

Meningkatkan rentang dan jumlah contoh pelatihan secara artifisial dengan mengubah contoh yang ada untuk membuat contoh tambahan.

Input Layer

Layer pertama yang menerima data masukan dalam jaringan saraf tiruan.

Input_shape

Menunjukkan bentuk dari setiap elemen input yang akan diterima oleh model.

K

Keras

API Python machine learning yang populer. Keras bisa dijalankan pada beberapa kerangka kerja deep learning, termasuk TensorFlow yang tersedia sebagai tf.keras

Klasifikasi

Tipe model machine learning untuk membedakan antara dua atau lebih kelas. Misalnya klasifikasi apakah suatu email merupakan email spam atau bukan.

K-Means

Sebuah metode clustering yang paling populer dalam unsupervised learning. K-means membuat cluster berdasarkan jarak antara titik tengah yang disebut centroids dengan example.

K-Median

K-Median hampir mirip dengan metode K-Means. Bedanya adalah formula dalam menentukan cluster.

L

Label

Dalam supervised learning, label adalah “jawaban” atau “hasil” dari sebuah contoh.

Label merupakan hasil dari pengelompokan example melalui clustering. Sebagai contoh, machine learning yang berfungsi menyaring email spam, melabeli setiap example dengan ‘spam’ atau ‘not spam’.

Layer

Sekumpulan neuron dalam jaringan saraf yang memproses fitur-fitur masukan atau keluaran dari neuron tersebut.

Linear Regression

Menggunakan keluaran y’ dari model linier sebagai prediksi aktual dalam model regresi. Tujuan dari permasalahan regresi adalah untuk membuat prediksi yang bernilai benar.

Logistic Regression

Model klasifikasi yang menggunakan fungsi sigmoid untuk mengubah prediksi y’ pada model linier menjadi nilai antara 0 dan 1.

LSTM

Long-short-term-memory. Jenis sel dalam jaringan syaraf berulang yang digunakan untuk memproses urutan data dalam aplikasi seperti pengenalan tulisan tangan, terjemahan mesin, dan pembuat teks gambar.

M

Machine Learning

Bidang studi yang memberi komputer kemampuan untuk belajar tanpa diprogram secara eksplisit.

MAE

Mean absolute error. Metrik eror yang dihitung dengan mengambil rata-rata kesalahan absolut. Dalam konteks mengevaluasi keakuratan model, MAE adalah perbedaan absolut rata-rata antara nilai yang diharapkan dan diprediksi.

Matplotlib

Open-source library pada Python untuk membuat plot 2D. Matplotlib membantu Anda memvisualisasikan berbagai aspek dalam machine learning.

Missing Value

Tidak tersedia nilai data pada variabel tertentu dalam sebuah observasi.

Model

Representasi dari apa yang telah dipelajari oleh sistem machine learning dari data pelatihan. Model mendefinisikan relasi antara fitur dan label.

Model sebenarnya merupakan sebuah fungsi yang berfungsi mengatur bagaimana machine learning mengambil input dan mengeluarkan output yang berupa prediksi.

MSE

Mean Squared Error. Kuadrat eror rata-rata per contoh data. MSE dihitung dengan membagi kuadrat eror dengan jumlah contoh.

N

Neural Network

Sebuah model yang mengambil inspirasi dari otak, terdiri dari beberapa layers yang memiliki neuron-neuron yang saling terhubung.

Neural network merupakan kumpulan layer yang setiap layer-nya terdiri dari sebuah neuron. Neuron berfungsi layaknya transistor dalam komponen elektronik. Bedanya, jika transistor memiliki 3 kaki, neuron memiliki jumlah kaki yang tergantung dari posisi layer dan jumlah neuron di dalam layer.

Normalization

Proses mengonversi rentang nilai aktual menjadi rentang nilai standar, biasanya dari -1 hingga +1, atau 0 hingga 1.

Numpy

Library matematika open-source yang menyediakan operasi array effisien dengan Python. Pandas dibangung di atas NumPy.

O

One-hot-encoding

Mengubah data kategorik dengan membuat kolom baru untuk setiap kategori.

Optimizer

Implementasi spesifik dari algoritma penurunan gradien.

Outlier

Sebuah nilai yang jauh berbeda dari kumpulan nilai lainnya dan dapat mengacaukan hasil dari sebuah analisis statistik.

Output layer

Lapisan “terakhir” dari jaringan saraf tiruan. Lapisan yang berisi jawaban.

Overfitting

Kondisi saat model sangat cocok dengan data pelatihan sehingga model gagal membuat prediksi yang benar pada data baru.

P

Pandas

API analisis data yang berorientasi pada kolom. Banyak framework machine learning termasuk TensorFlow mendukung struktur data Pandas sebagai input.

Parameter

Variabel model yang dilatih oleh sistem machine learning. Sebagai contoh: weight/bobot adalah parameter yang nilainya dipelajari secara bertahap oleh sistem machine learning.

Policy

Dalam reinforcement learning, policy adalah panduan untuk agen melakukan aksi yang sesuai dengan lingkungannya. Disebut juga pemetaan probabilistik agen dari keadaan ke tindakan.

Presisi

Proporsi identifikasi kelas positif yang diklasifikasi dengan benar.

Propagasi balik

Algoritma untuk melakukan penurunan gradien pada jaringan saraf tiruan. Pertama, nilai keluaran dari setiap node dihitung dalam sebuah forward pass. Kemudian, turunan parsial dari eror/kesalahan yang terkait dengan setiap parameter dihitung dalam hitungan mundur melalui grafik.

R

Recall

Proporsi kelas yang seharusnya positif dan diklasifikasi dengan benar.

Regression

Regression (mengacu pada regression model) adalah sebuah model menghasilkan nilai output berupa bilangan pecahan (floating point). Berbeda dengan classification model yang memiliki bilangan bulat pada outputnya.

Reinforcement Learning

Algoritma yang belajar dengan sistem policy. Algoritma Reinforcement Learning belajar agar terus mendapatkan reward dan menghindari penalti.

Reward

Dalam reinforcement learning, reward adalah hasil numerik dari mengambil tindakan dalam suatu keadaan seperti yang didefinisikan oleh environment. Reward diberikan saat agent berhasil menyelesaikan tantangan.

S

Scikit learn

Platform machine learning open-source yang populer. Lihat www.scikit-learn.org.

Supervised Learning

Merupakan model pembelajaran pada machine learning di mana kita menentukan label pada beberapa example dengan harapan machine learning dapat menentukan label terhadap input baru yang masuk.

SVM

Algoritma training yang bertujuan untuk memaksimalkan margin antara pola pelatihan dan batas keputusan (decision boundary).

T

Tensorboard

Dashboard yang menampilkan ringkasan yang disimpan selama menjalankan satu atau beberapa program TensorFlow

Tensorflow

Platform machine learning berskala besar dan terdistribusi. Istilah ini juga merujuk pada layer API dasar yang mendukung komputasi umum pada grafik aliran data.

Tensorflow.js

Framework yang kompatibel dengan Tensorflow API. Tensorflow.js menggunakan model yang telah dibuat dengan merubah format model menjadi JSON file.

Test set

Bagian dari dataset yang digunakan untuk menguji sebuah model setelah model melalui pemeriksaan awal oleh validation set.

TF-Agent

Library Reinforcement Learning dari Tensorflow yang dikembangkan google dan dirilis ke publik pada tahun 2018.

Tokenisasi

Proses mengonversi kata-kata ke dalam bilangan numerik

Training set

Bagian dari dataset yang digunakan untuk melatih model

Transfer learning

Mentransfer informasi dari satu tugas machine learning ke tugas lainnya.

U

Underfitting

Model machine learning memiliki kemampuan prediksi yang buruk karena model tersebut belum menangkap kompleksitas data pelatihan.

Unsupervised learning

Model machine learning yang belajar dan menemukan pola dalam sekumpulan data tanpa label.

Kebalikan dari supervised learning, dalam model pembelajaran unsupervised learning ini kita tidak menentukan label dalam dataset. Metode ini menggunakan clustering di mana machine learning melakukan pengelompokan sendiri di dalam data set.

V

Validation set

Bagian dari dataset (berbeda dari training set) yang digunakan sebagai validasi.

Ref : [1][2]

S	S	R	K	J	S	M
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30	31