نوع مقاله : مقاله پژوهشی

نویسندگان

1 دانشجوی کارشناسی ارشد، مهندسی فن‌آوری اطلاعات تجارت الکترونیک، دانشگاه صنعتی خواجه نصیرالدین طوسی، تهران، ایران

2 استادیار، مهندسی صنایع، دانشگاه صنعتی خواجه نصیرالدین طوسی، تهران، ایران

3 دانشجوی کارشناسی ارشد، مهندسی صنایع، دانشگاه صنعتی خواجه نصیرالدین طوسی، تهران، ایران

چکیده

مقدمه: امروزه با شیوع بیماری دیابت پیش‌بینی تعداد قرص مصرفی Glibenclamid و Metformin روزانه برای بیماران به پزشکان در جهت تشخیص تعداد قرص مصرفی بیمار و همچنین مهار عوارض شدید و خطرناک مصرف بیش از حد دارو کمک می‌نماید، زیرا میزان نیاز بیماران دیابتی به دارو دارای اهمیت بسیار می‌باشد. از این‌رو در پژوهش حاضر به‌منظور پیش‌بینی تعداد قرص مصرفی روزانه‌ی بیماران دیابتی، از تکنیک‌های داده‌کاوی استفاده شد. در پایان الگوریتمی که نتیجه‌ی بهتری در فرآیند ارزیابی بدست می‌دهد، با توجه به مجموعه داده‌های تحت بررسی، انتخاب می‌شود. روش بررسی: مطالعه‌ی حاضر به روش توصیفی- مقطعی صورت گرفت. نمونه‌گیری به روش سرشماری بود و تمامی بیماران (2783 بیمار) را در فاصله‌ی زمانی فروردین 87 تا خرداد 91 در برگرفت. جامعه‌ی پژوهش متشکل از داده‌های مرکز تحقیقات دیابت یزد وابسته به دانشگاه علوم پزشکی شهید صدوقی یزد بود و محتوای رکوردها مورد تایید مسؤولین مرکز دیابت قرار گرفت. در مرحله‌ی پیش پردازش داده‌ها، با نظر افراد خبره در مراکز تحقیقاتی رکوردهایی که مقادیر برخی فیلدهای آنها خالی بود، حذف شد و تعداد بیماران تحت بررسی به 740 مورد رسید. این یافته‌ها با مراجعه‌ی مستقیم پژوهشگر به مرکز تحقیقات دیابت یزد حاصل شده و روایی روش جمع‌آوری اطلاعات توسط استاد راهنما و متخصصین امر مورد تایید قرار گرفت. با سنجش صحت مجموعه داده‌های آزمون، میزان پایایی دو الگوریتم مورد استفاده نیز مقایسه شد. در این مطالعه جهت تحلیل داده‌ها و اجرای الگوریتم‌های داده‌کاوی از نرم‌افزار Clementine 12.0 استفاده شد. دو الگوریتم متفاوت از الگوریتم‌های استنتاج قانون به نام‌های C5.0 و CHAID روی داده‌ها اعمال گردید و سپس صحت مدل‌های تولید شده بدست آمد. در نهایت برای تایید صحت مدل‌های تولید شده از خوشه‌بندی استفاده گردید. یافته‌ها: مقادیر به‌دست آمده برای صحت مدل‌های ایجاد شده از اجرای الگوریتم‌های C5.0 و CHAID روی مجموعه داده‌های تحت بررسی 52/45 و 38/28 درصد بود. صحت بالای مدل C5.0 عملکرد بهتر این الگوریتم برای پیش‌بینی تعداد قرص مصرفی را نشان داد. از طرفی پایین بودن مقدار صحت این مدل نشان‌دهنده‌ی این بود که برخی مقادیر به‌طور صحیح در جای خود دسته‌بندی نشده‌اند. بنابراین مقایسه‌ی مقادیر واقعی و مقادیر پیش‌بینی شده برای تعداد قرص مصرفی در تولید مدل می‌‌تواند بیانگر علل کاهش صحت هر مدل باشد. علت کاهش صحت مدل به مقادیر پیش‌بینی شده‌ای وابسته بود که در مقایسه با مقادیر واقعی صحت و ضریب اطمینان پایینی دارند. خوشه‌بندی نتایج بدست آمده از اجرای الگوریتم C5.0 تعداد قرص مصرفی 3، 5، 6 و 7 با صحت مقدار پیش‌بینی شده‌ی به ترتیب 83/46، 36/36، 71/55 و 15 درصد را در یک خوشه قرار داد، زیرا نمونه داده‌هایی که دارای صحت پایینی در پیش‌بینی تعداد قرص مصرفی بود و یا تعداد نمونه داده‌ی کمی داشت، در یک خوشه قرار گرفتند. همچنین خوشه‌بندی نتایج اجرای الگوریتم CHAID نیز تعداد قرص مصرفی 5 با صحت مقدار پیش‌بینی شده‌ی 93/20 را در یک خوشه قرار داد. نتیجه‌گیری: این مقاله حاصل پروژه‌ی تحقیقاتی گروه داده‌کاوی دانشگاه خواجه نصیر بود که در نهایت در قالب فعالیت گروهی تکمیل و به‌صورت پژوهش حاضر درآمد. در مراکز تحقیقات دیابت وجود رویکرد سازمان‌دهی شده جهت پیش‌بینی تعداد قرص مصرفی بیمار به‌منظور کمک به پزشک برای افزایش صحت تشخیص و جلوگیری ازعوارض جانبی ناشی از تشخیص نادرست در تعداد قرص خوراکی ضروری است. با توجه به لزوم استفاده از فن‌آوری‌های رایانه‌ای، اینترنت و نرم‌افزارهای تحلیلی و به‌منظور مهار اثرات خطرناک بیماری، بهتر است اقدامات لازم جهت ابداع رویکردهای پیشنهادی با مشاوره‌ی متخصصان مربوط انجام شود. واژه‌های کلیدی: دیابت؛ درخت تصمیم؛ دسته‌بندی؛ خوشه‌بندی؛ شاخص Dunn

کلیدواژه‌ها

عنوان مقاله [English]

Classification and Clustering Algorithm Application for Prediction of Tablet Numbers: Case Study Diabetes Disease

نویسندگان [English]

  • Maryam Ashoori 1
  • Vajihe NajiMoghadam 1
  • Somayeh Alizadeh 2
  • Mahsa Safi 3

1 MSc student, Information Technology engineering, K. N. Toosi University of Technology, Tehran, Iran

2 Assistant Professor, Industrial engineering, K. N. Toosi University of Technology, Tehran, Iran

3 MSc student, Industrial engineering, K. N. Toosi University of Technology, Tehran, Iran

چکیده [English]

Introduction: By diabetes outbreak in these days, prediction of tablet daily usage like Glibenclamid and Metformin helps doctors to recognize number of tablets, and prevents from drug abuse side effects. Also, it should be considered that the need of diabeticto drug is critical. So, in this paper we have used data mining techniques to predict the number of daily usage of tablets for diabetes. At the end, in evaluation process the algorithm that causes better results will be chosen. Methods: This study done by descriptive-cross sectional method. It done by Census sampling method and contains all 2783 patients from March 2008 to May 2012. The community research consists of Yazd Diabetes Research Center data dependent to Shaeed Sadoughi University of Medical Sciences Yazd and diabetes center agency confirms the records contents. In data preprocessing step, the records with missing value in some fields have been removed by the experts’ opinion and the number of patients reduced to 740 cases. These results have achieved by referring directly to the Yazd Diabetes Research Center and data gathering method validity confirmed by supervisor and specialists. Also reliability value have compared to each other for two used algorithms by measurement of test dataset accuracy. In this study Clementine 12.0 has been used for data analysis and data mining algorithms application. Two different algorithms namely CHAID and C5.0 have been used on data and then the generated models accuracy has been achieved. At the end, to confirm the accuracy, we have used clustering method. Results: The obtained values for generated models accuracy by C5.0 and CHAID algorithm's execution on dataset was 45/52 and 28/38 respectively. The high accuracy of C5.0 model shows the better performance of this algorithm for number of tablet usage prediction. In other hand, the low accuracy of C5.0 model shows some values have not classified directly in own location, due to the comparison of actual and predicted values for number of tablet usage in model generation shows the reasons of low accuracy of each model. The reason was dependent to predicted values which had low accuracy and confidence. The clustering of obtained results of C5.0 algorithm executing, put 3, 5, 6 and 7 of tablet usage with 46/83, 36/36, 55/71 and 15 percent of predicted value accuracy, respectively, in one cluster because the cases which have low accuracy or have low samples will be located in the same cluster. Also the clustering of CHAID algorithm executing results put 5 of tablet usage with 20/93 percent of predicted value accuracy in a cluster. Conclusion: This paper was done by Data Mining group's research of K.N. Toosi University of Technology. Finally it has been completed by team work and resulted into present research. In Diabetes Center, an organized approach to predict number of daily usage tablets and prediction from side effects of false recognition in number of tablets is necessary. In order to prevent dangerous effects of diabetes, it is better to invent novel approaches by the help of expert consultant and use of computerized technologies, internet and analytical softwares. Keywords: Diabetes; Decision Tree; Classification; Clustering; Dunn Index

کلیدواژه‌ها [English]

  • Diabetes
  • Decision Tree
  • classification
  • Clustering
  • Dunn Index
  1. Keyvan poor M.R, Khalatbari L. Moghayese algorithm haye class bandi dar tashkhise diabet va naresaye ghalbi. 3rd Iran Data Mining Conference (1388/11/26), Tehran: Iran DataMining, 1388. [Article in Persian].
  2. Khalilinezhad M, Minaee Bidgoli B. Clinical Data mining. 3rd Iran Data Mining Conference (1388/11/26), Tehran: Iran DataMining, 1388. [Article in Persian].
  3. Endocrine and Metabolism Research Institute . Amozeh diabet noe1. Iran:emrc; 1398. Available from: URL: http://emri.tums.ac.ir/upfiles/ 60782275.pdf. [Book in Persian].
  4. Bocquier A, Cortaredona S, Nauleau S, Jardin M, Verger P. Prevalence of treated diabetes: Geographical variations at the small-area level and their association with area-level characteristics. A multilevel analysis in Southeastern France. Diabetes & Metabolism 2011; 37: 39–46.
  5. Solet J.-L, Baroux N, Pochet M, Benoit-Cattin T, De Montera A.-M, Sissoko D, et al. Prevalence of type 2 diabetes and other cardiovascular risk factors in Mayotte in 2008: The MAYDIA study. Diabetes & Metabolism 2011; 37: 201–207.
  6. Attale C, Lemognea C, Sola-Gazagnes A, Guedeney N, Slama G, Horvath A.-O, et al. Therapeutic alliance and glycaemic control in type 1 diabetes: A pilot study, Diabetes & Metabolism 2010; 36: 499–502.
  7. Gaborit B, Dutour O, Ronsin O, Atlan C, Darmon P, Gharsalli R, et al. Ramadan fasting with diabetes: An interview study of inpatients’ and general practitioners’ attitudes in the South of France. Diabetes & Metabolism 2010; accepted 31 December.
  8. Endocrine and Metabolism Research Institute. Diabet va varzesh. Iran: emrc; 1389. Available from: URL: http://emri.tums.ac.ir/upfiles/46872743. pdf. [Book in Persian].
  9. Khoshenyatniko M, Shadman zh. Roze dari va diabet: molahezate akhlaghi. Iranian Journal of Diabetes and Lipid Disorders 1390; 10(5): 459-471. [Article in Persian].
  10. Hossieni A.S, Moghadasi H, Jahanbakhsh M. nezam etelaate balini diabet dar chand keshvar. Health Information Management Journal 1385; 3(1): 33-39. [Article in Persian].
  11. Endocrine and Metabolism Research Institute. Ghors haye khoraki paeen avarande ghande khon. Iran: emrc; 1389. Available from: URL: http://emri.tums.ac.ir/upfiles/61459053.pdf. [Book in Persian].
  12. Modeling techniques in Clementine. Chapter11; Available from: URL: https://fhss.byu.edu/SPSS%20Modeler/Chapter%2011.pdf.
  13. Rule Induction. Chapter12; Available from: URL: https://fhss.byu.edu/SPSS%20Modeler/Chapter%2012.pdf.
  14. Tan P.N, Steinbach M, Kumar V. Introduction to Data Mining. USA: Addison-Wesley Longman; 2005.
  15. Ghazanfari M, Alizadeh S, Teymour poor B. Dade kavi va kashfe danesh. Iran: iust; 1387. [Book in Persian].