نوع مقاله : مقاله پژوهشی
نویسندگان
1 دانشجوی کارشناسی ارشد، هوش مصنوعی و رباتیک، گروه مهندسی کامپیوتر، دانشکده مکانیک، برق و کامپیوتر، واحد علوم و تحقیقات، دانشگاه آزاد اسلامی، تهران، ایران
2 استادیار، شبکه، گروه کامپیوتر، دانشکده مهندسی برق، واحد یادگار امام (ره)، دانشگاه آزاد اسلامی، شهرری، ایران
3 دانشیار، الکترونیک، گروه مهندسی برق، دانشکده علوم و فنآوریهای پزشکی، واحد علوم و تحقیقات، دانشگاه آزاد اسلامی، تهران، ایران
چکیده
مقدمه: جایگذاری مقادیر گمشده در مجموعه دادههای اطلاعاتی پزشکی، یکی از چالشهای مهم در مسایل دادهکاوی به شمار میرود. بنابراین، پژوهش حاضر با هدف جایگذاری مقادیر گمشده برخی از ویژگیهای مجموعه دادههای دیابت و سرطان سینه انجام شد.روش بررسی: در این مطالعه توصیفی، از مجموعه داده سرطان سینه شامل 699 نمونه که 458 نمونه خوشخیم و 241 نمونه بدخیم و مجموعه داده دیابت شامل 768 نمونه که 500 نمونه فاقد بیماری دیابت و 268 نمونه دیگر دارای بیماری دیابت بودند، استفاده گردید. برای جایگذاری مقادیر گمشده در این دو مجموعه داده، مدلی بر پایه شبکه عصبی پرسپترون دو لایه طراحی شد. به منظور ارزیابی، ماشین بردار پشتیبان SVM (Support Vector Machine) و آزمون t مورد استفاده قرار گرفت. یافتهها: میزان میانگین مربعات خطا MSE (Mean Squared Error) به دست آمده در مدل شبکه عصبی پرسپترون دو لایه در مجموعه داده دیابت، حدود 03/0 و در مجموعه داده سرطان سینه، حدود 04/0 کمتر از MSEهای به دست آمده در روش جایگذاری با مقدار میانگین گزارش گردید. مقادیر جایگذاری شده با استفاده از مدل نسبت به مقادیر جایگذاری شده با مقدار میانگین، به مقدار واقعی نزدیکتر بود. صحت و حساسیت طبقهبندی بیماری در حالتی که مقادیر گمشده توسط شبکه عصبی پرسپترون جایگذاری شده بود، در مقایسه با دو روش مرسوم مقدار میانگین و روش حذف مقادیر گمشده در مجموعه داده دیابت به ترتیب در حدود 2، 4، 2 و 4 درصد و در مجموعه داده سرطان سینه به ترتیب در حدود 1، 3، 2، 5 درصد بیشتر شد. تفاوت معنیداری بین دو روش جایگذاری مقادیر گمشده با مقدار میانگین و جایگذاری مدل وجود داشت.نتیجهگیری: جایگذاری مقایر گمشده در مجموعه دادههای پزشکی توسط شبکه عصبی پرسپترون دو لایه نسبت به دو روش جایگذاری با مقدار میانگین و روش حذف مقادیر گمشده، نتایج بهتری در طبقهبندی بیماری نشان میدهد.
کلیدواژهها
عنوان مقاله [English]
Imputing of Missing Values in Diabetes and Breast Cancer Datasets through a Two-Layer Perceptron Neural Network
نویسندگان [English]
- Elham Pourjani 1
- Sara Najafzadeh 2
- Nader Jafarnia-Dabanloo 3
1 MSc Student, Artificial Intelligence and Robotic, Department of Computer Engineering, School of Mechanics, Electrical and Computer, Science and Research Branch, Islamic Azad University, Tehran, Iran
2 Assistant Professor, Network, Department of Computer, School of Electrical Engineering, Yadegar-e-Imam Branch, Islamic Azad University, Shahr-e-Rey, Iran
3 Associate Professor, Electronic, Department of Electrical Engineering, School of Science and Biomedical Engineering, Science and Research Branch, Islamic Azad University, Tehran, Iran
چکیده [English]
Introduction: Imputation of missing values in a medical data set is one of the important challenges in data mining. Therefore, this study was performed with the aim of imputation the missing values of some features of the diabetes and breast cancer datasets.Methods: In this descriptive study, a breast cancer dataset consisting of 699 specimens including 458 benign and 241 malignant specimens, along with a diabetes dataset consisting of 768 specimens including 500 non-diabetic specimens and 268 other specimens with diabetes, were used. For the purpose of the imputation of missing values in these two datasets, a model based on a two-layer perceptron neural network was developed, and for the purpose of assessment, support vector machine (SVM) and t test were used.Results: The mean squared errors (MSEs) obtained in the two-layer perceptron neural network model, in the diabetes dataset about 0.03 and in the breast cancer dataset about 0.04, were less than the MSEs obtained in the imputation method with the mean value. The values imputed by the model were closer to the actual value than the values imputed with the mean value. Accuracy and sensitivity of disease classification in the case of missing values imputed by the perceptron neural network increased in comparison with the two conventional methods of mean value and the method of deleting missing values, about 2, 4, 2, and 4 percent in the diabetes dataset, and about 1, 3, 2, 5 percent in the dataset breast cancer, respectively. There was a significant difference between the two methods of imputation of missing values with the mean value and imputation by the model.Conclusion: The imputation of the missing values in the medical data set by the two-layer perceptron neural network showed better results in the classification of the disease than the two methods of imputation with the mean value and the method of deleting missing values.
کلیدواژهها [English]
- Data Mining
- Neural Network Models
- Support Vector Machine
- Ispirova G, Eftimov T, Seljak BK. Evaluating missing value imputation methods for food composition databases. Food Chem Toxicol 2020; 141: 111368.
- Ayilara OF, Zhang L, Sajobi TT, Sawatzky R, Bohm E, Lix LM. Impact of missing data on bias and precision when estimating change in patient-reported outcomes from a clinical registry. Health Qual Life Outcomes 2019; 17(1): 106.
- Folguera L, Zupan J, Cicerone D, Magallanes JF. Self-organizing maps for imputation of missing data in incomplete data matrices. Chemometr Intell Lab Syst 2015; 143: 146-51.
- Purwar A, Singh SK. Hybrid prediction model with missing value imputation for medical data. Expert Syst Appl 2015; 42(13): 5621-31.
- de Silva H, Perera AS. Missing data imputation using Evolutionary k- Nearest neighbor algorithm for gene expression data. Proceedings of the 16th International Conference on Advances in ICT for Emerging Regions (ICTer); 2016 Sep 1-3; Negombo, Sri Lanka.
- Jea K, Hsu C, Tang L. A missing data imputation method with distance function. Proceddings of the 2018 International Conference on Machine Learning and Cybernetics (ICMLC); 2018 Jul 15-18; Chengdu, China.
- Duan Y, Lv Y, Liu YL, Wang FY. An efficient realization of deep learning for traffic data imputation. Transp Res Part C Emerg Technol 2016; 72: 168-81.
- Deb R, Liew AW-C. Missing value imputation for the analysis of incomplete traffic accident data. Inf Sci 2016; 339: 274-89.
- Silva-Ramirez EL, Pino-Mejias R, Lopez-Coello M, Cubiles-de-la-Vega MM-D. Missing value imputation on missing completely at random data using multilayer perceptrons. Neural Netw 2011; 24(1): 121-9.
- de Goeij MC, van DM, Jager KJ, Tripepi G, Zoccali C, Dekker FW. Multiple imputation: Dealing with missing data. Nephrol Dial Transplant 2013; 28(10): 2415-20.