چطور این مقاله مهندسی کامپیوتر و IT را دانلود کنم؟
فایل انگلیسی این مقاله با شناسه 2005986 رایگان است. ترجمه چکیده این مقاله مهندسی کامپیوتر و IT در همین صفحه قابل مشاهده است. شما می توانید پس از بررسی این دو مورد نسبت به خرید و دانلود مقاله ترجمه شده اقدام نمایید
حجم فایل انگلیسی :
523 Kb
حجم فایل فارسی :
759 کیلو بایت
نوع فایل های ضمیمه :
Pdf+Word
کلمه عبور همه فایلها :
www.daneshgahi.com
عنوان فارسي
یک مدل موضوعی Biterm برای متون کوتاه
عنوان انگليسي
A Biterm Topic Model for Short Texts
نویسنده/ناشر/نام مجله
Proceedings of the 22nd international conference on World Wide Web
این مقاله چند صفحه است؟
این مقاله ترجمه شده مهندسی کامپیوتر و IT شامل 11 صفحه انگلیسی به صورت پی دی اف و 29 صفحه متن فارسی به صورت ورد تایپ شده است
چکیده
کشف موضوعات در متن های کوتاه، مانند توییت ها و پیام های فوری، برای بسیاری از برنامه های کاربردی تحلیل محتوا به وظیفه مهمی تبدیل شده است. به هر حال، اعمال مستقیم مدل های موضوعی معمولی (برای مثال LDA و PLSA) ممکن است خیلی خوب کار نکند. دلیل اصلی این است که مدل های موضوعی معمولی به صورت ضمنی الگوهای هم رخدادی کلمه را در سطح سند، برای نشان دادن موضوع اتخاذ می کنند، و بنابراین از پراکندگی شدید داده در سند کوتاه رنج می برند. در این مقاله، راه جدیدی را برای مدلسازی موضوعی در متن های کوتاه پیشنهاد می کنیم، که به آن مدل موضوعی Biterm (BTM) می گوییم. به صورت ویژه، در BTM با مدلسازی مستقیم تولید الگو هم رخدادی کلمه (برای مثال، Biterm) در کل مجموعه، موضوعات را یاد میگیریم. مزیت اصلی BTM است که 1) BTM به صورت صریح الگوی هم رخدادی کلمات را برای ارتقای یادگیری موضوع مدل می کند، و 2) BTM از الگوی تجمعی در کل مجموعه برای یادگیری موضوعات برای حل مسئله الگوی هم رخدادی کلمات پراکنده در سطح سند استفاده می کند. ما آزمایشات گسترده ای را بر روی مجموعه متن های کوتاه جهان واقعی انجام دادیم. نتایج تشریح می کنند که رویکرد ما می تواند موضوعات برجسته تر و منسجم تری را کشف کند، و به طور قابل توجهی از روش های مبنا در چندین متریک ارزیابی بهتر اجرا می شود. علاوه بر این، دریافتیم که BTM می تواند حتی در متن های معمولی بهتر از LDA اجرا شود، که نشان دهنده عمومیت بالقوه و استفاده گسترده تر از مدل موضوعی جدید است.
1-مقدمه
متن های کوتاه در وب، هم در وب سایت های سنتی، برای مثال عناوین صفحه وب، آگهی های متنی، یک عنوان تصویر، هم در رسانه اجتماعی در حال ظهور، برای مثال توییت ها، پیام های استاتوس (status)، و سوالات وب سایت Q&A، شایع هستند. کشف موضوعات در متن های کوتاه برای طیف وسیعی از وظایف تحلیل محتوا، مانند تعیین مشخصات محتوا [26,35,14]، پروفایل سازی علایق کاربر [32]، و تشخیص موضوعات در حال ظهور [20] و غیره، حیاتی است...
متن کوتاه مدل موضوعی Biterm
:کلمات کلیدی
Abstract
Uncovering the topics within short texts, such as tweets and instant messages, has become an important task for many content analysis applications. However, directly applying conventional topic models (e.g. LDA and PLSA) on such short texts may not work well. The fundamental reason lies in that conventional topic models implicitly capture the document-level word co-occurrence patterns to reveal topics, and thus suffer from the severe data sparsity in short documents. In this paper, we propose a novel way for modeling topics in short texts, referred as biterm topic model (BTM). Specifically, in BTM we learn the topics by directly modeling the generation of word co-occurrence patterns (i.e. biterms) in the whole corpus. The major advantages of BTM are that 1) BTM explicitly models the word co-occurrence patterns to enhance the topic learning; and 2) BTM uses the aggregated patterns in the whole corpus for learning topics to solve the problem of sparse word co-occurrence patterns at document-level. We carry out extensive experiments on real-world short text collections. The results demonstrate that our approach can discover more prominent and coherent topics, and significantly outperform baseline methods on several evaluation metrics. Furthermore, we find that BTM can outperform LDA even on normal texts, showing the potential generality and wider usage of the new topic model
Keywords:
Short Text Topic Model Biterm
سایر منابع مهندسی کامپیوتر و IT-فناوری اطلاعات در زمینه وب کاوی