نوع مقاله : مقاله پژوهشی

نویسندگان

1 استادیار، علم اطلاعات و دانش شناسی، گروه علم اطلاعات و دانش شناسی، دانشگاه یزد، یزد، ایران

2 استادیار، علم اطلاعات و دانش شناسی، گروه علم اطلاعات و دانش شناسی، دانشگاه پیام نور قم، قم، ایران

3 کارشناس ارشد علم اطلاعات و دانش شناسی

چکیده

مقدمه: تحت تاثیر پویایی اصطلاحات تخصصی، امروزه طبقه بندی موضوعات پیچیده تر شده است زیرا هر مدرک می تواند در چند طبقه موضوعی جای بگیرد. بر این اساس، پژوهش حاضر با هدف تعیین کارآمدی روش تشخیص خودکار شاخه اصلی اصطلاحاتMeSH از طریق محاسبه نسبت فراوانی آن‌ها در دسته مدارک مرتبط وغیر مرتبط انجام شد.روش بررسی: روش پژوهش توصیفی، با استفاده از تحلیل اسنادی و نوع آن کاربردی است. در تیر ماه 1391 شمسی از MeSH و پایگاه PubMed به عنوان منابع گردآوری اطلاعات بهره گرفته شد. اعتبار این منابع، روا بودن بهره گیری از آن‌ها را  تائید می‌کند. تعداد 18164 اصطلاح MeSH و 163226 مدرک از PubMedبرگزیده شد. در گزینش آن ها، هیچ محدودیت زمانی اعمال نشد. این تعداد، از حجم نمونه به روش کوکران بالاتر بود. با جستجو در PubMed، یازده دسته مدرک حاصل شد. نسبت حضور هر اصطلاح در این دسته ها محاسبه و نتیجه با شاخه واقعی آن در درخت MeSH مقایسه شد. شاخه اصلی یک درصد از این اصطلاحات توسط متخصصان پزشکی نیز پیش بینی گردید. برای بررسی داده ها، از روش توزیع فراوانی و آزمون‌هایT و Chi-Squar بهره گرفته  شد. تحلیل داده‌ها با نرم‌افزارSPSS  صورت گرفت.یافته ها: مدارکPubMed به طور متوسط به سه شاخه مربوط بودند و غالب اصطلاحات در تمامی دسته‌ها حضور داشتند. مشخص شد که روش پیشنهادی، احتمال تشخیص منطبق با ساختار درخت موضوعیMeSH را افزایش می دهد و کارآمدی آن بسته به شاخه موضوعی، بین 3 تا 67 درصد متفاوت است. پیش‌بینی متخصصان پزشکی درباره شاخه موضوعی هر اصطلاح، به طور معناداری با ساختار MeSHمنطبق بود.نتیجه گیری: سطح انطباق تشخیص طبقه موضوعات به روش‌های عینی و ذهنی در حوزه های گوناگون فرق می‌کند. از آن جا که طبقه بندی های ذهنی کاری  کاملا  ادراکی و مربوط به تجربه های بیرونی بشری است، مدل های ماشینی نمی توانند دقیقا آن فرآیند را مشابه سازی کنند.

کلیدواژه‌ها

عنوان مقاله [English]

Automatic Category Recognition of MeSH Terms through Comparison of their Occurrence Frequency in Relevant and non-Relevant Documents

نویسندگان [English]

  • Mohammad Tavakolizadeh-Ravari 1
  • Saeed Ghaffari 2
  • Forough Mostafavi 3

1 Assisstant Professor, Library and Information science, Yazd University, Yazd, Iran

2 Assisstant Professor, Library and Information science, Payam Noor Qom University, Qom, Iran

3 MSc, Library and Information Science, Payam Noor Eqlid University, Eqlid, Iran

چکیده [English]

INTRODUCTION: Due to dynamic of terms, their classification is challenging. The current research aims at determining the usability of a model for automatic recognition of MeSH terms categories through measuring their occurrence frequency within relevant and non-relevant document corpuses from PubMed. METHODs: This is a descriptive research that uses the document analysis method. MeSH and PubMed were used to collect research data. The significancy of these resources confirms their validity. 18164 MeSH-term and 163226 PubMed documents were selected. The both of these amounts are greater than what Cocran function suggests. Eleven document corpuses were retrieved from PubMed. The relative ocurrence frequencies of MeSH terms within each corpus were determined. The results were compared with the real category of MeSH. In additions, the categories of 1 percent of MeSH terms were determined by experts in medical domains. The frequency distribution method was used for statistical description of data. Data were also analyzed through T and Chi-Squar tests in SPSS.RESULTS: Each document of PubMed on average belongs to three MeSH categoris and most of Mesh terms occurred in all corpuses. The results confirm that the suggested method increases the probability of MeSH category recognition. The performance of the method depends on the subject category of MeSH Term and ranges between 3 to 67 percent. The findings also show that the medical expertises determination on the subject category of MeSH Terms is compatible with the real categories of MeSH tree. CONCLUSION: The compatibility of the subjective and objective methods for the subject category recognition depends on the knowledge area. The subjective categorization is a quite cognitive task and roots in human environmental experiences. This is why the machine depended models are not able to simulate that process.

کلیدواژه‌ها [English]

  • classification
  • Automatic Data Processing
  • Medical Subject Headings
  • PubMed