Open Access

Videolardaki Çevresel Sesleri Tanımak İçin Derin Öğrenme Tabanlı Bir Model Geliştirme

Bedirhan Karakaya1*, Emre Beray Boztepe2, Bahadır Karasulu3
1Çanakkale Onsekiz Mart Üniversitesi, Bilgisayar Mühendisliği Bölümü, Çanakkale, Türkiye
2Çanakkale Onsekiz Mart Üniversitesi, Bilgisayar Mühendisliği Bölümü, Çanakkale, Türkiye
3Çanakkale Onsekiz Mart Üniversitesi, Bilgisayar Mühendisliği Bölümü, Çanakkale, Türkiye
* Corresponding author: bedirhankrkya@gmail.com

Presented at the 5th International Symposium on Innovative Approaches in Smart Technologies (ISAS2022), Online, Turkey, May 28, 2022

SETSCI Conference Proceedings, 2022, 13, Page (s): 53-58 , https://doi.org/10.36287/setsci.5.1.011

Published Date: 01 June 2022

Günümüzde çevremizdeki çeşitli seslerin ayrıştırılarak ortam tanıma işlemi popülerlik kazanmıştır. Videolarda arka plandaki çeşitli sesler, makine öğrenmesi ve derin öğrenme teknikleriyle oldukça yüksek başarıyla sınıflandırılabilmektedir. Böylece anlamsal olarak zenginleştirilmiş video sahneleri betimlenebilmektedir. Bu çalışma, çevresel seslerin tanımlanması için uygun bir derin öğrenme sinir ağı modelinin geliştirilmesi sürecini içermektedir. Geliştirilen modelin eğitilmesinde çeşitli veriler içeren veri kümesinden on tane temel kategori seçilerek modelin tahminleme gücü deneylerde sınanmıştır. Elde bulunan sınırlı veriden öncelikle spektrogramlar elde edilip daha sonra bu spektrogramlar veri arttırma teknikleri kullanılarak zenginleştirilmiştir. Ayrıca, modelin eğitilmesinde üç farklı tasarımsal yaklaşım ile kaynak kodlar yazılmıştır. Bu kodlar Evrişimsel Sinir Ağları, Uzun Kısa Süreli Bellek, Kapılı Tekrarlayan Birim gibi derin öğrenme ağ modeli tabanlı yöntemler kullanılarak oluşturulmuştur. Tasarlanan yedi farklı sinir ağı modeli deneylerde eğitilmiş ve testler ile başarımı kanıtlanmıştır. Oluşturulan modellerin en yüksek başarıma sahip olanı ile yaklaşık %87 oranında doğruluk oranı elde edilmiştir. Elde edilen deneysel sonuçlara ve bilimsel değerlendirmeye çalışmamızda yer verilmektedir.

Keywords - Evrişimsel Sinir Ağları, Tekrarlayan Sinir Ağları, Çevresel Ses Tanıma

[1] B., Karasulu. “Çoklu Ortam Sistemleri İçin Siber Güvenlik Kapsamında Derin Öğrenme Kullanarak Ses Sahne ve Olaylarının Tespiti” ACTA INFOLOGICA, 3(2):60-82, 2019. doi: 10.26650/acin.590690

[2] K. J. Piczak, “Environmental sound classification with convolutional neural networks”, 2015 IEEE 25th International Workshop on Machine Learning for Signal Processing (MLSP), Boston, MA, USA pp. 1-6. 2015. doi: 10.1109/MLSP.2015.7324337

[3] L., Shaobo, Y., Yao, J., Hu, G., Liu, X. Yao, and J., Hu. “An ensemble stacked convolutional neural network model for environmental event sound recognition”, Applied Sciences, vol. 8, no. 7 (2018): 1152. 2018. doi: 10.3390/app8071152

[4] A., Khamparia, D., Gupta, N.G., Nguyen, A., Khanna, B., Pandey and P., Tiwari, “Sound Classification Using Convolutional Neural Network and Tensor Deep Stacking Network”, IEEE Access, vol. 7, pp. 7717-7727, 2019. doi: 10.1109/ACCESS.2018.2888882

[5] A. Krizhevsky, I. Sutskever, G.E. Hinton. “ImageNet Classification with Deep Convolutional Neural Networks”, Advances in Neural Information Processing Systems, Editörler: F. Pereira and C.J. Burges and L. Bottou and K.Q. Weinberger, Curran Associates, Inc., Vol. 25, 2012. [Online]: https://proceedings.neurips.cc/paper/2012/file/c399862d3b9d6b76c8436e924a68c45b-Paper.pdf

[6] MFCC (Mel-frequency cepstral coefficient) dokümantasyonu, 2022. https://librosa.org/doc/main/generated/librosa.feature.mfcc.html

[7] Chroma ses özniteliği dokümantasyonu, 2022. [Online]. https://librosa.org/doc/main/generated/librosa.feature.chroma_stft.html

[8] B. McFee, C. Raffel, D. Liang, D.P. Ellis, M. McVicar, E. Battenberg and O. Nieto. "librosa: Audio and Music Signal Analysis in Python", In Proceedings of the 14th Python in Science Conference, volume 8, 2015. doi: 10.25080/Majora-7b98e3ed-003

[9] N., Marwan, M., Thiel, N.R. and Nowaczyk. “Cross Recurrence Plot Based Synchronization of Time Series”. In: Nonlinear Processes in Geophysics 9 (2002), 325-331. 2002.

[10] ESC-50 veri kümesi, 2022. [Online]. https://github.com/karolpiczak/ESC-50

[11] Çoklu Maskeleme işlemi dokümantasyonu, 2022. [Online]. https://www.tensorflow.org/io/tutorials/audio

[12] Keras Kütüphanesi dokümantasyonu, 2022. [Online]. https://keras.io

[13] ResNet50 sinir ağı modeli dokümantasyonu, 2022. [Online]. https://keras.io/api/applications/resnet/#resnet50-function

[14] MobileNetV2 sinir ağı modeli dokümantasyonu, 2022. [Online]. https://keras.io/api/applications/mobilenet/#mobilenetv2-function

[15] VGG16 ve VGG19 sinir ağı modelleri dokümantasyonu, 2022. [Online]. https://keras.io/api/applications/vgg/#vgg16-function

[16] Tensorflow kütüphanesi dokümantasyonu, 2022. [Online]. https://www.tensorflow.org/api_docs

[17] Y., Aytar, C., Vondrick, A., Torralba. “SoundNet: Learning Sound Representations from Unlabeled Video “. arXiv preprint arXiv : 1610.09001v1 [cs.CV] 2016

[18] SoundNet kütüphanesinin Github İnternet Erişim Adresi, 2022, [Online]. https://github.com/JarbasAl/soundnet

[19] Altyapıda kullanılan çeşitli kütüphanelerin dokümantasyonları, 2022. [Online]. https://pypi.org

[20] DCASE (Detection and Classification of Acoustic Scenes and Events) veri kümesi, 2022. [Online]. http://dcase.community

[21] Kesit alınan bilgisayar oyununun oynanış videosu, 2022. [Online]. https://www.youtube.com/watch?v=d74REG039Dk

[22] D.S., Park, W., Chan., Y., Zhang, C.-C., Chiu, B., Zoph, E.D., Cubuk and Q.V., Le. “SpecAugment: A Simple Data Augmentation Method for Automatic Speech Recognition”. arXiv preprint: arXiv:1904.08779v3 [eess.AS]. 2019

[23] J. You and J. Korhonen. "Attention Boosted Deep Networks For Video Classification", 2020 IEEE International Conference on Image Processing (ICIP), 2020, pp. 1761-1765. doi: 10.1109/ICIP40778.2020.9190996

[24] Z., Zhang, S., Xu, S., Zhang, T., Qiao and S., Cao. "Learning Attentive Representations for Environmental Sound Classification", IEEE Access, vol. 7, pp. 130327-130339, 2019. doi: 10.1109/ACCESS.2019.2939495

[25] B., Karasulu. “Kısıtlanmış Boltzmann makinesi ve farklı sınıflandırıcılarla oluşturulan sınıflandırma iş hatlarının başarımının değerlendirilmesi”, Bilişim Teknolojileri Dergisi, 11(3), 223-233, 2018. doi: 10.17671/gazibtd.370281

0
Citations (Crossref)
2.3K
Total Views
48
Total Downloads

Licence Creative Commons This is an Open Access article distributed under the terms of the Creative Commons Attribution License 4.0, which permits unrestricted use, distribution, and reproduction in any medium, provided the original work is properly cited.
SETSCI 2025
info@set-science.com
Copyright © 2025 SETECH
Tokat Technology Development Zone Gaziosmanpaşa University Taşlıçiftlik Campus, 60240 TOKAT-TÜRKİYE