Методологія усунення дисбалансу класів наборів даних зображень

Автор(и)

DOI:

https://doi.org/10.20998/2411-0558.2021.02.04

Ключові слова:

дисбаланс класів, незбалансований набір даних, вилучення фрагментів зображень, аугментація

Анотація

Представлено методологію вирішення задачі усунення дисбалансу класів в наборах даних зображень. Запропонована методологія  включає етапи вилучення фрагментів зображень, аугментація фрагментів, вилучення ознак, дублювання об’єктів міноритарного класу та заснована на технології навчання з підкріпленням. В якості міри визначення незбалансованості набору даних використано показник ступеня дисбалансу. Проведено експеримент з використанням набору даних зображень облич пацієнтів з висипаннями на шкірі, анотовані у відповідності до ступеня тяжкості акне. Розглянуто основні кроки реалізації  методології. Результати класифікації показали доцільність застосування  запропонованої методології. Точність класифікації на тестових даних склала 85 %, що на 5 % вище ніж результат, отримаий без застосування запропонованої методології.

Ключові слова: дисбаланс класів, незбалансований набір даних, вилучення фрагментів зображень, аугментація.

Біографії авторів

Тетяна Білобородова, ІПМЕ

Кандидат технічних наук, доцент

Інна Скарга-Бандурова, ІПМЕ

Доктор технічних наук, професор

Посилання

Weiss, G.M. and Hirsh, H. (2000), Learning to predict extremely rare events. In AAAI workshop on learning from imbalanced data sets. – Austin : AAAI Press, р. 64-68.

King, G., and Zeng, L. (2001), Logistic Regression in Rare Events Data. Political Analysis, 9(2), р. 137-163. doi:10.1093/oxfordjournals.pan.a004868.

Peng, J., Bu, X., Sun, M., Zhang, Z., Tan, T., and Yan, J. (2020), Large-scale object detection in the wild from imbalanced multi-labels. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, p. 9709-9718.

Sambasivam, G., & Opiyo, G. D. (2021), A predictive machine learning application in agriculture: Cassava disease detection and classification with imbalanced dataset using convolutional neural networks. Egyptian Informatics Journal, 22(1), р. 27-34.

Yilmaz, I., Masum, R., Siraj, A. (2020), Addressing imbalanced data problem with generative adversarial network for intrusion detection. In 2020 IEEE 21st International Conference on Information Reuse and Integration for Data Science (IRI), p. 25-30.

Guo, J., Wang, Q., Li, Y., Liu, P. (2020), Façade defects classification from imbalanced dataset using meta learning-based convolutional neural network. Computer-Aided Civil and Infrastructure Engineering, 35(12), р.1403-1418.

Saini, M., Susan, S. (2020), Deep transfer with minority data augmentation for imbalanced breast cancer dataset. Applied Soft Computing, 97, 106759.

Yijing, L., Haixiang, G., Xiao, L., Yanan, L., and Jinling, L. (2016), Adapted ensemble classification algorithm based on multiple classifier system and feature selection for classifying multi-class imbalanced data. Knowledge-Based Systems, 94, р. 88-104. doi:10.1016/j.knosys.2015.11.013.

Liu Z., Cao H., Chen X., et al., (2013), Multi-fault classification based on wavelet SVM with PSO algorithm to analyze vibration signals from rolling element bearings, Neurocomputing, 99 (1), р. 399-410.

Kim, Y., Lee, Y., Jeon, M. (2021), Imbalanced image classification with complement cross entropy. Pattern Recognition Letters, 151, р. 33-40. doi:10.1016/j.patrec.2021.07.017.

Guo H.X., Liao X.W., Zhu K.J. (2011), Optimizing reservoir features in oil exploration man agement based on fusion of soft computing, Appl. Soft Comput, 11, р. 1144-1155.

Xie, W., Liang, G., Dong, Z., Tan, B., Zhang, B. (2019), An improved oversampling algorithm based on the samples’ selection strategy for classifying imbalanced data. Mathematical Problems in Engineering.

Huang Z., Dumitru C.O., Pan Z., Lei B. and Datcu M. (2021), Classification of Large- Scale High-Resolution SAR Images With Deep Transfer Learning, in IEEE Geoscience and Remote Sensing Letters, 1(18), p. 107-111. doi: 10.1109/LGRS.2020.2965558.

Singh R., Ahmed T., Kumar A., Singh A. K., Pandey A. K., Singh S. K. (2021), Imbalanced Breast Cancer Classification Using Transfer Learning, in IEEE/ACM Transactions on Computational Biology and Bioinformatics, 1(18), p. 83-93. doi: 10.1109/TCBB.2020.2980831.

Tang Y, Zhang Y, Chawla NV, Krasser S. (2009), SVMs modeling for highly imbalanced classification. IEEE Transactions on Systems, Man, and Cybernetics, Part B: Cybernetics. 391, 281-288. DOI: 10.1109/TSMCB.2008.2002909.

Khoshgoftaar Taghi M, Van Hulse Jason, Napolitano Amri (2010), Supervised Neural Network Modeling: An Empirical Investigation Into Learning From Imbalanced Data With Labeling Errors. IEEE Transactions on Neural Networks, 21(5), р. 813-830. doi:10.1109/tnn.2010.2042730.

Rein van den Boomgaard (2017), Lecture Notes "Image Processing and Computer Vision" URL https://staff.fnwi.uva.nl/r.vandenboomgaard/IPCV20172018/LectureNotes/IP/Images/ImageD efinition.html (access 30.09.2021 р.)

Lezoray O. (2015), Patch-based mathematical morphology for image processing, segmentation and classification // International Conference on Advanced Concepts for Intelligent Vision Systems. Springer, Cham, p. 46-57.

Ortigosa-Hernandez J, Inza I, Lozano JA. (2017), Measuring the class-imbalance extent of multi-class problems. Pattern Recogn. Letters. 98, р. 32-38.

Iwana, B. K., and Uchida, S. (2021), An empirical survey of data augmentation for time series classification with neural networks. Plos one, 16(7), p. e0254841.

Vyas A., Yu S., and Paik J. (2018), Fundamentals of digital image processing. Multiscale Transforms with Application to Image Processing. Springer, Singapore, p. 3-11.

Wu, X., Wen, N., Liang, J., Lai, Y.K., She, D., Cheng, M.M. Yang, J. (2019), Joint acne image grading and counting via label distribution learning. In Proceedings of the IEEE/CVF International Conference on Computer Vision (ICCV), p. 10642-10651. doi:

1109/ICCV.2019.01074.

Davisking/dlib-models. Github.com. URL: https://github.com/davisking/dlib-models. (access 30.09.2021).

OpenСV. Github.com. URL: https://github.com/opencv/opencv/blob/master/data/ haarcascades/haarcascade_eye.xml. (access 30.09.2021).

The Microsoft Cognitive Toolkit. URL: https://www.cntk.ai/Models/Caffe_Converted/ ResNet152_ImageNet_Caffe.model (access 30.09.2021).

Chawla, N. V., Bowyer, K. W., Hall, L. O., & Kegelmeyer, W. P. (2002). SMOTE: synthetic minority over-sampling technique. Journal of artificial intelligence research, 16, p. 321-357.

##submission.downloads##

Опубліковано

2023-12-18