چطور این مقاله مهندسی کامپیوتر و IT را دانلود کنم؟
فایل انگلیسی این مقاله با شناسه 2008101 رایگان است. ترجمه چکیده این مقاله مهندسی کامپیوتر و IT در همین صفحه قابل مشاهده است. شما می توانید پس از بررسی این دو مورد نسبت به خرید و دانلود مقاله ترجمه شده اقدام نمایید
حجم فایل فارسی :
1 مگا بایت
نوع فایل های ضمیمه :
Pdf+Word
کلمه عبور همه فایلها :
www.daneshgahi.com
عنوان فارسي
خلاصه سازی متون زیست پزشکی بر اساس گراف: رویکردی مبتنی بر کاوش مجموعه اقلام و خوشه بندی جمله
عنوان انگليسي
Graph-based biomedical text summarization: An itemset mining and sentence clustering approach
نویسنده/ناشر/نام مجله
Journal of Biomedical Informatics
این مقاله چند صفحه است؟
این مقاله ترجمه شده مهندسی کامپیوتر و IT شامل 17 صفحه انگلیسی به صورت پی دی اف و 50 صفحه متن فارسی به صورت ورد تایپ شده است
چکیده
هدف: خلاصه سازی خودکار متن راهکار کارآمدی برای دسترسی به حجم انبوهی از مقالات علمی و کلینیکی نوشته شده در حوزه ی زیست پزشکی است. برای این امر اسناد منبع خلاصه سازی شده و در عین حال اطلاعاتی ترین محتوای آن ها حفظ می شود. ما در این مقاله یک روش خلاصه سازی نوین مبتنی بر گراف را مطرح می کنیم که از دانش حوزه ای و یک روش داده کاوی مناسب به نام «کاوش مجموعه اقلام پرتکرار» استفاده می کند. روش: در طرح پیشنهادی، جهت ایجاد یک مدل مبتنی بر مفهوم برای سند منبع و همچنین نگاشت اسناد به مفاهیم از سیستم زبان یکپارچه پزشکی (UMLS) استفاده می شود. سپس از مجموعه اقلام پرتکرار برای طرح یک تابع شباهت مبتنی بر گراف تولید شده استفاده می کنیم. پس از آن، مدل خلاصه ساز با استفاده از الگوریتم خوشه بندی یک درخت پوشای کمینه ایجاد کرده و آن را برای کشف زیرموضوعات سند بکار می گیرد. در نهایت، تضمین می شود که خلاصه ی نهایی حاوی اطلاعاتی ترین و مرتبط ترین جملات موجود در زیرموضوعات یک متن می باشد. نتایج: ما با استفاده از معیارهای ROUGE یک ارزیابی خودکار بر روی تعداد زیادی از متون خلاصه سازی شده انجام می دهیم. نتایج بدست آمده نشان می دهند که سیستم خلاصه سازی پیشنهادی نسبت به رویکردهای معیار و پایه عملکرد بهتری دارد. نتیجه گیری: تحقیق انجام شده نشان می دهد که استفاده از دانش حوزه ای و روش کاوش مجموعه اقلام پرتکرار می تواند سیستم خلاصه سازی را هدایت کند تا میزان اطلاعاتی بودن جملات به شکل بهتری فراهم شود. علاوه بر این، گره های گراف (جملات) می توانند خلاصه ساز را قادر سازند تا زیرموضوعات اصلی مختلف در یک سند را به طور کارآمد مورد هدف قرار دهد. نتایج ارزیابی نشان می دهند که رویکرد پیشنهادی می تواند کارایی سیستم های خلاصه سازی در حوزه زیست پزشکی را به طور کارآمدی بهبود دهد.
1-مقدمه
با رشد سریع اینترنت و دیگر فناوری ها، متون الکترونیکی در حوزه زیست پزشکی به طور قابل توجهی افزایش یافته است. بیش از ۲۷ میلیون مقاله زیست پزشکی در پایگاه داده PubMed وجود دارد [۱]. علاوه بر این، در حال حاضر مقلات زیست پزشکی و اطلاعات پزشکی از جمله رکوردهای ثبت شده مربوط به سلامت بیماران نیز از منابع مختلفی از جمله پایگاه داده های آنلاین مقالات زیست پزشکی، گزارشات آنلاین کلینیکی، و سیستم های EHR قابل دسترس می باشند [۲، ۳]...
خلاصه سازی خودکار متن
:کلمات کلیدی
Abstract
Objective: Automatic text summarization offers an efficient solution to access the ever-growing amounts of both scientific and clinical literature in the biomedical domain by summarizing the source documents while maintaining their most informative contents. In this paper, we propose a novel graph-based summarization method that takes advantage of the domain-specific knowledge and a well-established data mining technique called frequent itemset mining.
Methods: Our summarizer exploits the Unified Medical Language System (UMLS) to construct a concept-based model of the source document and mapping the document to the concepts. Then, it discovers frequent itemsets to take the correlations among multiple concepts into account. The method uses these correlations to propose a similarity function based on which a represented graph is constructed. The summarizer then employs a minimum spanning tree based clustering algorithm to discover various subthemes of the document. Eventually, it generates the final summary by selecting the most informative and relative sentences from all subthemes within the text.
Results: We perform an automatic evaluation over a large number of summaries using the Recall-Oriented Understudy for Gisting Evaluation (ROUGE) metrics. The results demonstrate that the proposed summarization system outperforms various baselines and benchmark approaches. Conclusion: The carried out research suggests that the incorporation of domain-specific knowledge and frequent itemset mining equips the summarization system in a better way to address the informativeness measurement of the sentences. Moreover, clustering the graph nodes (sentences) can enable the summarizer to target different main subthemes of a source document efficiently. The evaluation results show that the proposed approach can significantly improve the performance of the summarization systems in the biomedical domain.
Keywords:
text summarization
سایر منابع مهندسی کامپیوتر و IT-نرم افزار در زمینه خلاصه سازی متون