PERBANDINGAN MODEL CNN DAN LSTM DALAM PENGENALAN PERINTAH SUARA PADA ROBOT MINI FORKLIFT

  • M Fikri Aulian Sriwijaya University

Abstract

Interaksi antara manusia dan mesin menjadi kunci dalam optimalisasi kegiatan operasional memindahkan
barang di lingkungan industri seperti gudang. Sistem kontrol menggunakan suara memerlukan performa yang sangat
bergantung pada keandalan model pengenalan suara yang digunakan. Penelitian ini bertujuan untuk mengembangkan dan
menganalisis performa dua arsitektur deep learning, Long Short-Term Memory (LSTM) dan Convolutional Neural Network
(CNN), untuk sistem kontrol suara real-time pada prototipe robot forklift. Untuk meningkatkan kemampuan model
menghadapi variasi suara, diterapkan teknik augmentasi data berupa Gaussian Noise dan Time Shift Spectrogram selama
proses pelatihan. Hasil evaluasi menunjukkan bahwa model CNN mencapai akurasi training yang lebih tinggi sebesar
93.6% (loss: 0.1857) dibandingkan LSTM dengan akurasi 89.4% (loss: 0.307). Namun, pada tahap validasi, model LSTM
menunjukkan kemampuan yang sedikit lebih baik dengan akurasi validasi 83.8% (val_loss: 0.451), sementara CNN
mencatatkan akurasi validasi 82.05% (val_loss: 0.732). Pengujian real-time pada prototipe dengan beberapa penguji
bersuara berbeda dan gender yang berbeda mengonfirmasi bahwa kedua model mampu mengeksekusi perintah yang
diucapkan dalam kalimat panjang maupun pendek. Selain itu, ditemukan bahwa kebisingan lingkungan (ambient noise)
terkadang dapat menyebabkan kegagalan deteksi, yang menyoroti tantangan utama dalam implementasi praktis sistem di
lapangan.

Published
2026-02-07