الهام پورجانی؛ سارا نجفزاده؛ نادر جعفرنیا دابانلو
چکیده
مقدمه: جایگذاری مقادیر گمشده در مجموعه دادههای اطلاعاتی پزشکی، یکی از چالشهای مهم در مسایل دادهکاوی به شمار میرود. بنابراین، پژوهش حاضر با هدف جایگذاری مقادیر گمشده برخی از ویژگیهای مجموعه دادههای دیابت و سرطان سینه انجام شد.روش بررسی: در این مطالعه توصیفی، از مجموعه داده سرطان سینه شامل 699 نمونه که 458 نمونه خوشخیم و 241 ...
بیشتر
مقدمه: جایگذاری مقادیر گمشده در مجموعه دادههای اطلاعاتی پزشکی، یکی از چالشهای مهم در مسایل دادهکاوی به شمار میرود. بنابراین، پژوهش حاضر با هدف جایگذاری مقادیر گمشده برخی از ویژگیهای مجموعه دادههای دیابت و سرطان سینه انجام شد.روش بررسی: در این مطالعه توصیفی، از مجموعه داده سرطان سینه شامل 699 نمونه که 458 نمونه خوشخیم و 241 نمونه بدخیم و مجموعه داده دیابت شامل 768 نمونه که 500 نمونه فاقد بیماری دیابت و 268 نمونه دیگر دارای بیماری دیابت بودند، استفاده گردید. برای جایگذاری مقادیر گمشده در این دو مجموعه داده، مدلی بر پایه شبکه عصبی پرسپترون دو لایه طراحی شد. به منظور ارزیابی، ماشین بردار پشتیبان SVM (Support Vector Machine) و آزمون t مورد استفاده قرار گرفت. یافتهها: میزان میانگین مربعات خطا MSE (Mean Squared Error) به دست آمده در مدل شبکه عصبی پرسپترون دو لایه در مجموعه داده دیابت، حدود 03/0 و در مجموعه داده سرطان سینه، حدود 04/0 کمتر از MSEهای به دست آمده در روش جایگذاری با مقدار میانگین گزارش گردید. مقادیر جایگذاری شده با استفاده از مدل نسبت به مقادیر جایگذاری شده با مقدار میانگین، به مقدار واقعی نزدیکتر بود. صحت و حساسیت طبقهبندی بیماری در حالتی که مقادیر گمشده توسط شبکه عصبی پرسپترون جایگذاری شده بود، در مقایسه با دو روش مرسوم مقدار میانگین و روش حذف مقادیر گمشده در مجموعه داده دیابت به ترتیب در حدود 2، 4، 2 و 4 درصد و در مجموعه داده سرطان سینه به ترتیب در حدود 1، 3، 2، 5 درصد بیشتر شد. تفاوت معنیداری بین دو روش جایگذاری مقادیر گمشده با مقدار میانگین و جایگذاری مدل وجود داشت.نتیجهگیری: جایگذاری مقایر گمشده در مجموعه دادههای پزشکی توسط شبکه عصبی پرسپترون دو لایه نسبت به دو روش جایگذاری با مقدار میانگین و روش حذف مقادیر گمشده، نتایج بهتری در طبقهبندی بیماری نشان میدهد.