Studi Kasus Feature Engineering Untuk Data Teks:  Perbandingan Label Encoding dan One-Hot Encoding Pada Metode Linear Regresi

Cevi Herdian; Ahya Kamila; I Gusti Agung Musa Budidarma

doi:10.31602/tji.v15i1.13457

Studi Kasus Feature Engineering Untuk Data Teks: Perbandingan Label Encoding dan One-Hot Encoding Pada Metode Linear Regresi

Cevi Herdian^(1*), Ahya Kamila⁽²⁾, I Gusti Agung Musa Budidarma⁽³⁾

(1) Universitas Bunda Mulia
(2) Universitas Bunda Mulia
(3) Bisnis Digital
(*) Corresponding Author

Sari

Di dalam pemodelan pembelajaran mesin (Machine Learning), data terbagi menjadi jenis data numerik dan jenis data teks. Tetapi Machine Learning lebih cenderung efektif dalam mengenali pola pada jenis data numerik karena algoritma Machine Learning, terutama yang berbasis statistik dan matematika, dirancang untuk memproses dan menganalisis data numerik. Sehingga bentuk data teks harus dirubah ke dalam bentuk data numerik yang merupakan bagian dari Feature Engineering. Pada penelitian ini, peneliti membanding sebuah hasil akurasi dari prediksi Machine Learning yaitu linear regresi pada teks label data yang telah dilakukan perubahan menjadi numerik dengan metode Feature engineering Label Encoding dan juga Feature Engineering One-Hot Encoding. Pada penelitian ini didapatkan hasil R-Square untuk Label Encoding 0.54 dan R-Squared untuk One-Hot Encoding 0.85 (hasil One-Hot Encoding lebih baik). Sehingga tentu saja yang harus dipilih untuk model yang dibuat adalah Feature Engineering One-Hot Encoding. Untuk kedepannya bisa dilakukan pengujian dengan metode lain untuk merubah data teks menjadi numerik seperti Bags of Words (BoW), Term Frequency-Inverse Document Frequency (TF-IDF), dan yang lainnya.

Teks Lengkap:

PDF

Referensi

I. H. Sarker, “Machine Learning: Algorithms, Real-World Applications and Research Directions,” SN Comput Sci, vol. 2, no. 3, p. 160, May 2021, doi: 10.1007/s42979-021-00592-x.

E. Mosqueira-Rey, E. Hernández-Pereira, D. Alonso-Ríos, J. Bobes-Bascarán, and Á. Fernández-Leal, “Human-in-the-loop machine learning: a state of the art,” Artif Intell Rev, vol. 56, no. 4, pp. 3005–3054, Apr. 2023, doi: 10.1007/s10462-022-10246-w.

E. S. Gualberto, R. T. De Sousa, T. P. De B. Vieira, J. P. C. L. Da Costa, and C. G. Duque, “From Feature Engineering and Topics Models to Enhanced Prediction Rates in Phishing Detection,” IEEE Access, vol. 8, pp. 76368–76385, 2020, doi: 10.1109/ACCESS.2020.2989126.

E. Esenogho, I. D. Mienye, T. G. Swart, K. Aruleba, and G. Obaido, “A Neural Network Ensemble With Feature Engineering for Improved Credit Card Fraud Detection,” IEEE Access, vol. 10, pp. 16400–16407, 2022, doi: 10.1109/ACCESS.2022.3148298.

T. Al-Shehari and R. A. Alsowail, “An Insider Data Leakage Detection Using One-Hot Encoding, Synthetic Minority Oversampling and Machine Learning Techniques,” Entropy, vol. 23, no. 10, p. 1258, Sep. 2021, doi: 10.3390/e23101258.

S. Okada, M. Ohzeki, and S. Taguchi, “Efficient partition of integer optimization problems with one-hot encoding,” Sci Rep, vol. 9, no. 1, p. 13036, Sep. 2019, doi: 10.1038/s41598-019-49539-6.

M. Kuhn and K. Johnson, Feature Engineering and Selection. Chapman and Hall/CRC, 2019. doi: 10.1201/9781315108230.

DOI: http://dx.doi.org/10.31602/tji.v15i1.13457

Refbacks

Saat ini tidak ada refbacks.

-------------------------------------------------------------------------------------------

This work is licensed under a Creative Commons Attribution 4.0 International License.

Nama Pengguna
Kata Sandi
Ingat Saya