نوع مقاله : مقاله مروری نقلی

نویسندگان

1 ‏استادیار، مهندسی کامپیوتر، گروه فن‌آوری اطلاعات، دانشکده مهندسی صنایع، ‏دانشگاه صنعتی خواجه نصیرالدین طوسی، تهران، ایران ‏

2 دانشجوی کارشناسی ارشد، فن‌آوری اطلاعات، دانشکده مهندسی صنایع، ‏دانشگاه صنعتی خواجه نصیرالدین طوسی، تهران، ایران

چکیده

داده‌کاوی ابزاری جهت استخراج اطلاعات مفید از مجموعه‌ داده‌های عظیم، از جمله زمینه‌های مور‌د‌ علاقه محققان در حوزه سلامت محسوب می‌شود. رده‌بندی، یک تابع یادگیری می‌باشد که هر داده را به یکی از دسته‌های از قبل تعریف‌ شده، نگاشت می‌‌کند. بر اساس گزارش‌های سازمان بهداشت جهانی، بیماری‌های قلبی، کلیوی، دیابت و سرطان‌ها در سال 2012 عامل 68 درصد از مرگ‌ها بوده‌‌اند. پژوهش حاضر، با هدف مطالعه و بررسی انواع الگوریتم‌های رده‌بندی و نتایج آن‌ها درون حوزه سلامت در مطالعات پیشین انجام شد. این مطالعه از نوع مروری- نقلی‌ بود که در آن، مطالعات مرتبط برای بیماری‌های قلبی، سرطان‌ سینه و دیابت از سال 2003 تا 2015 بررسی گردید. کلمات کلیدی «Data mining، Classification، Health، Heart disease، Diabetes و Breast cancer» در پایگاه‌های اطلاعاتی ScienceDirect، Elsevier، Springer و IEEE ‌جستجو و منابع هر مقاله و مقالات ‌استناد‌ شده به آن نیز جمع‌آوری شد. پس از حذف مطالعات نامتناسب، 34 مقاله انتخاب گردید. جمع‌بندی مطالعات نشان داد که تکرار استفاده از الگوریتم شبکه ‌عصبی، برای هر سه بیماری بیشتر بود. الگوریتم‌های شبکه‌ عصبی و بیز‌ ساده برای بیماری‌ قلبی، نزدیک‌ترین ‌همسایگان برای سرطان ‌سینه و شبکه‌ عصبی برای دیابت بالاترین دقت را داشت. به طو‌ر کلی می‌توان دریافت، با وجود این که نمی‌توان با قطعیت یک الگوریتم را بهترین الگوریتم برای هر بیماری دانست، اما تعیین بهترین الگوریتم‌ها برای هر بیماری، می‌تواند برای مطالعات آینده مفید باشد.

کلیدواژه‌ها

عنوان مقاله [English]

Assessment of Classification Algorithms in the Prediction of Healthcare Data: A Literature Review

نویسندگان [English]

  • Hojatollah Hamidi 1
  • Atefeh Daraei 2

1 Assistant Professor, Computer Engineering, Department of Information Technology, School of Industrial Engineering, Khajeh Nasir Toosi University of Technology, Tehran, Iran

2 MSc Student, Information Technology, School of Industrial Engineering, Khajeh Nasir Toosi University of Technology, Tehran, Iran

چکیده [English]

Data mining, as a tool for extracting useful information from large data sets, has been one of the areas of interest to researchers in the field of health. Classification is a learning function by which data is mapped to one of the predefined categories. According to World Health Organization (WHO), heart disease, renal disease, diabetes and cancer have been the cause of 68% of all deaths in 2012. The aim of this research was to study various types of classification algorithms and the results of previous researches in this regard in the field of health. In this narrative review, studies on heart disease, breast cancer, and diabetes, published from 2003 to 2015, were investigated. The keywords of “data mining”, “classification”, “health”, “heart disease”, “diabetes”, and “breast cancer” were searched in ScienceDirect, Elsevier, Springer, and IEEE databases. In addition, references and citations of each retrieved article were collected. After the elimination of unsuitable studies, 34 articles were selected. Literature review showed that frequency of use of neural network algorithm was the highest for all three diseases. Neural network and Naïve Bayes for heart disease, K-nearest neighbors for breast cancer, and neural network for diabetes had the highest accuracy. In general, it can be concluded that although no algorithm can be consider the best algorithm for each disease with certainty, determining the best algorithm for each disease could be useful for future studies.

کلیدواژه‌ها [English]

  • classification
  • Data Mining
  • Neural Network
  • Heart Disease