نوع مقاله : مقاله پژوهشی

نویسندگان

1 دانشجوی دکتری، نرم افزار، گروه نرم افزار، دانشکده برق و کامپیوتر،دانشگاه صنعتی اصفهان، ایران

2 دانشیار، نرم افزار،گروه نرم افزار، دانشکده برق و کامپیوتر، دانشگاه صنعتی اصفهان، ایران

3 استادیار، نرم فزار، گروه مهندس کامپیوتر،پردیسشهرضا، دانشگاه اصفهان، ایران

چکیده

مقدمه: شناسایی بیماران شبیه به یکدیگر بر اساس داده‌های پرونده الکترونیک سلامت آن‌ها یک مکانیسم کلیدی در طراحی بسیاری از روش‌های هوشمند باهدف ارتقای کیفیت خدمات ارائه‌شده به بیماران و پژوهشگران است. شباهت در تشخیص‌های نهایی یکی از معیارهای شباهت بیماران است. یکی از ابزارهای اصلی در تعیین تشخیص‌های نهایی، پرونده الکترونیک بیمار است. بخش مهمی از پرونده الکترونیک بیمار به داده‌های متنی مانند شرح‌حال بیمار و گزارش‌های مختلف اختصاص دارد که پردازش آن‌ها به دلیل نداشتن ساختار، با چالش‌هایی مواجه است. بنابراین هدف مطالعه حاضر، طراحی یک مدل پردازش متن‌های بالینی به‌منظور شناسایی تشخیص‌های نهایی است.

روش بررسی: در این پژوهش متن‌های خلاصه پرونده بیش از ۲۶۰۰۰ بیمار از پایگاه داده MIMIC-III با استفاده از روش‌های هوش مصنوعی در پردازش متن‌های بالینی به‌صورت بردار بازنمایی شده و از این بردارها به‌عنوان ورودی مدل پیش‌بینی کننده تشخیص استفاده‌شده است.

یافته‌ها: با توجه به نتایج آزمایش‌ها برای معیار F1-score مدل BIO-BERT با 0.715 و سپس مدل SciBERT با 0.713 نسبت به سایر مدل‌ها پیشتاز بوده‌اند. همچنین نتایج نشان می‌دهد استفاده از روش‌های شناسایی موجودیت منجر به افزایش دقت مدل شده است.

نتیجه‌گیری: مدل‌های بازنمایی که روی داده‌های خاص زیست پزشکی آموزش‌دیده‌اند می‌توانند برای نگاشت اطلاعات نهفته متن به بردارهای ریاضی قابل استنتاج مورداستفاده قرارگرفته و امکان به‌کارگیری داده‌های متنی را در مسائل پیش‌بینی هوشمند ازجمله برای پیش‌بینی گروه تشخیص نهایی و پیش‌بینی بازگشت مجدد بیمار را فراهم آورند.

تازه های تحقیق

هدی معمارزاده:  Google Scholar

ناصر قدیری:  Google Scholar،  PubMed

کلیدواژه‌ها

موضوعات

عنوان مقاله [English]

Patient Similarity Model Using Discharge Sheet Representation and Final Diagnosis Prediction

نویسندگان [English]

  • Hoda Memarzadeh 1
  • Nasser Ghadiri 2
  • Maryam Lotfi shahreza 3

1 PhD Student, Engineering, Department of Electrical and Computer Engineering, Isfahan University of Technology, Isfahan

2 Associate Professor, Engineering, Department of Electrical and Computer Engineering, Isfahan University of Technology, Isfahan

3 Assisstant Professor, Engineering Department of Electrical and Computer Engineering, Isfahan University of Technology, Isfahan

چکیده [English]

Introduction: Identifying similar patients is effective in designing many secondary applications to improve the quality of treatments and research services. The similarity of the final diagnoses is one of the aspects of similar patient groups. In order to measure similarity between patients, it is crucial to convert their information into a comparable format. There are different types of data in electronic health records (EHR). An important part of patient EHR are clinical notes, which face challenges to process. Therefore, the present study aims to design a clinical language processing model to identify definitive diagnoses.

Research method: In this study, the clinical notes of more than 26,000 patients from the MIMIC-III database were represented as vectors using modern language models, and these vectors were used as input for the diagnostic prediction model.

Results: According to the results of the experiments, the BIO-BERT model with 0.715 and then the SciBERT model with 0.713 the best result between the biomedical language models. The results also show that using unique concepts extracted from clinical notes resulted in an increase in model accuracy.

Conclusion: Representation models trained with specific biomedical data can be used to map latent clinical note information to embedding vectors and provide the ability to use notes in machine learning algorithms, including prediction of the final diagnostic group.

کلیدواژه‌ها [English]

  • Natural language processing
  • Health informatics
  • Language model
1.Shah SM, Khan RA. Secondary use of electronic health record: Opportunities and challenges. IEEE Access [Internet]. 2020;8:136947–65.
Available from: http://dx.doi.org/10.1109/ACCESS.2020.3011099
2.Pokharel S, Zuccon G, Li X, Utomo CP, Li Y. Temporal tree representation for similarity computation between medical patients. Artif Intell Med.
2020 Jun 11;108:101900.
3.Memarzadeh H, Ghadiri N, Samwald M, Lotfi Shahreza M. A study into patient similarity through representation learning from medical records.
Knowl Inf Syst. 2022;64(12):3293–324.
4. Hosseini Pozveh Z, Monadjemi A, Ahmadi A. FNLP-ONT: A feasible ontology for improving NLP tasks in Persian. Expert Syst. 2018 Aug;35(4):e12282.
5. Koroleva A, Kamath S, Paroubek P. Measuring semantic similarity of clinical trial outcomes using deep pre-trained language representations. J Biomed
Inform [Internet]. 2019;100:100058. Available from: https://www.sciencedirect.com/science/article/pii/S2590177X19300575
6. Devlin J, Chang M-W, Lee K, Toutanova K. Bert: Pre-training of deep bidirectional transformers for language understanding. arXiv Prepr arXiv181004805.
2018; Oct 11.
7.OpenAI TB. Chatgpt: Optimizing language models for dialogue. OpenAI. 2022.
8.Pan W, Zhong E, Yang Q. Transfer learning for text mining. Min text data. 2012;223–57.
9.Peng Y, Yan S, Lu Z. Transfer learning in biomedical natural language processing: An evaluation of BERT and ELMo on ten benchmarking
datasets. BioNLP 2019 - SIGBioMed Work Biomed Nat Lang Process Proc 18th BioNLP Work Shar Task. 2019;58–65.
10. Hu Y, Nie T, Shen D, Kou Y, Yu G. An integrated pipeline model for biomedical entity alignment. Front Comput Sci [Internet].
2021;15(3):153321. Available from: https://doi.org/10.1007/s11704-020-8426-4
11. Kang T, Perotte A, Tang Y, Ta C, Weng C. UMLS-based data augmentation for natural language processing of clinical research literature. J
Am Med Informatics Assoc. 2021 Apr;28(4):812–23.
12. Darabi S, Kachuee M, Fazeli S, Sarrafzadeh M. TAPER: Time-aware patient EHR representation. IEEE J Biomed Heal Informatics [Internet].
2020 Dec [cited 2019 Dec 24];24(11):3268–75. Available from: http://arxiv.org/abs/1908.03971
13. Lee J, Yoon W, Kim S, Kim D, Kim S, So CH, et al. BioBERT: a pre-trained biomedical language representation model for biomedical text
mining. Bioinformatics. 2020;36(4):1234–40.
14. Alsentzer E, Murphy JR, Boag W, Weng W-H, Jin D, Naumann T, et al. Publicly available clinical BERT embeddings. arXiv Prepr
arXiv190403323. 2019; Apr 6.
15. Beltagy I, Lo K, Cohan A. SCIBERT: A pretrained language model for scientific text. EMNLP-IJCNLP 2019 - 2019 Conf Empir Methods Nat
Lang Process 9th Int Jt Conf Nat Lang Process Proc Conf. 2019;3615–20.
16. Gu Y, Tinn R, Cheng H, Lucas M, Usuyama N, Liu X, et al. Domain-specific language model pretraining for biomedical natural language
processing. ACM Trans Comput Healthc. 2021;3(1):1–23.
17. Michalopoulos G, Wang Y, Kaka H, Chen H, Wong A. UmlsBERT: Clinical Domain Knowledge Augmentation of Contextual Embeddings Using the
Unified Medical Language System Metathesaurus. arXiv Prepr arXiv201010391. 2021;1744–53.
18. Johnson AE, Pollard TJ, Shen L, Lehman LWH, Feng M, Ghassemi M, et al. MIMIC-III, a freely accessible critical care database. Sci Data. 2016;3.
19. Allvin H, Carlsson E, Dalianis H, Danielsson-Ojala R, Daudaravičius V, Hassel M, et al. Characteristics of Finnish and Swedish intensive care nursing
narratives: a comparative analysis to support the development of clinical language technologies. In: Journal of Biomedical Semantics. Springer; 2011;(2):
1–11.
20. Neumann M, King D, Beltagy I, Ammar W. ScispaCy: Fast and robust models for biomedical natural language processing. BioNLP 2019 - SIGBioMed
Work Biomed Nat Lang Process Proc 18th BioNLP Work Shar Task. 2019;319–27.
21. Sammut C, Webb GI, editors. TF–IDF BT - Encyclopedia of Machine Learning. In Boston, MA: Springer US; 2010. p. 986–7. Available from:
https://doi.org/10.1007/978-0-387-30164-8_832
22. Goutte C, Gaussier E. A Probabilistic Interpretation of Precision, Recall and F-Score, with Implication for Evaluation BT - Advances in Information
Retrieval. In: Losada DE, Fernández-Luna JM, editors. Berlin, Heidelberg: Springer Berlin Heidelberg; 2005: 345–59.
23. Bradley AP. The use of the area under the ROC curve in the evaluation of machine learning algorithms. Pattern Recognit. 1997;30(7):1145–59.
24. Dligach D, Miller T. Learning Patient Representations from Text. NAACL HLT 2018 - Lex Comput Semant SEM 2018, Proc 7th Conf [Internet].
2018;119–23. Available from: https://aclanthology.org/S18-2014
25. Duque A, Fabregat H, Araujo L, Martinez-Romo J. A keyphrase-based approach for interpretable ICD-10 code classification of Spanish medical reports.
Artif Intell Med [Internet]. 2021;121:102177. Available from: https://www.sciencedirect.com/science/article/pii/S0933365721001706
26. Shen Z, Schutte D, Yi Y, Bompelli A, Yu F, Wang Y, et al. Classifying the lifestyle status for Alzheimer’s disease from clinical notes using deep learning
with weak supervision. BMC Med Inform Decis Mak. 2022;22(1):1–11.