چطور این مقاله مهندسی کامپیوتر و IT را دانلود کنم؟
فایل انگلیسی این مقاله با شناسه 2005985 رایگان است. ترجمه چکیده این مقاله مهندسی کامپیوتر و IT در همین صفحه قابل مشاهده است. شما می توانید پس از بررسی این دو مورد نسبت به خرید و دانلود مقاله ترجمه شده اقدام نمایید
حجم فایل انگلیسی :
323 Kb
حجم فایل فارسی :
600 کیلو بایت
نوع فایل های ضمیمه :
Pdf+Word
کلمه عبور همه فایلها :
www.daneshgahi.com
عنوان فارسي
ادغام خوشه بندی سند و مدلسازی عنوان
عنوان انگليسي
Integrating Document Clustering and Topic Modeling
این مقاله چند صفحه است؟
این مقاله ترجمه شده مهندسی کامپیوتر و IT شامل 10 صفحه انگلیسی به صورت پی دی اف و 19 صفحه متن فارسی به صورت ورد تایپ شده است
چکیده
خوشه بندی سند و مدل سازی عنوان دو عمل نزدیک و مرتبط به یکدیگر هستند که می توانند از یکدیگر سود ببرند. مدل سازی عنوان می تواند اسناد را در فضای عنوان قرار دهد که روش خوشه بندی موثر سند را تسهیل کنند. برچسب های خوشه که با خوشه بندی سند مشخص شده اند را می توان در مدل های عنوان گنجانید تا عناوین محلی خاص برای هر خوشه و عناوین کلی مشترک بین همه ی خوشه ها را استخراج کرد. در این مقاله، ما یک مدل عنوان خوشه بندی چند دانه ای MGCTM)) را پیشنهاد می کنیم که روش های خوشه بندی سند و مدلسازی عنوان را در یک چارچوب یکپارچه ادغام می کند و به طور مشترک دو عمل را انجام می دهد تا به بهترین عملکرد کلی دست یابد. مدل ما دو مولفه را به یکدیگر نزدیک می کند: یک جز ترکیبی که برای کشف گروه نهفته در مجموعه ی سند استفاده می شود و یک مولفه ی مدل عنوان که برای عناوین چند دانه از جمله عناوین محلی خاص هر خوشه و عناوین محلی مشترک بین خوشه ها مورد استفاده قرار می گیرند. ما روش استنتاج متغیر را به کار می گیریم تا روش دوم متغیرهای پنهان را تقریب بزنیم و پارامترهای مدل را فرا بگیریم. آزمایش ها روی دو مجموعه، اثر بخشی مدل ما را نشان می دهند.
1-مقدمه
در حوزه ی متنی، خوشه بندی سند (آگاروال و ژای، 2012؛ کای و همکاران، 2011؛ لو و همکاران، 2011، NG و همکاران، 2002؛ خو و گونگ، 2004؛ خو و همکاران، 2003) و مدل سازی عنوان (بلی و همکاران، 2003، هافمن، 2001) دو مسئله ای هستند که به طور گسترده مطالعه شده اند و کاربردهای بسیاری دارند. هدف از خوشه بندی سند این است که اسناد مشابه را به گروه ها سازماندهی کنیم که این کار برای سازماندهی اسناد، مرو، خلاصه سازی و طبقه بندی و بازیابی بسیار مهم هستند...
مدلسازی عنوان خوشه بندی سند MGCTM خوشه بندی چنددانه ای
:کلمات کلیدی
Abstract
Document clustering and topic modeling are two closely related tasks which can mutually benefit each other. Topic modeling can project documents into a topic space which facilitates effective document clustering. Cluster labels discovered by document clustering can be incorporated into topic models to extract local topics specific to each cluster and global topics shared by all clusters. In this paper, we propose a multi-grain clustering topic model (MGCTM) which integrates document clustering and topic modeling into a unified framework and jointly performs the two tasks to achieve the overall best performance. Our model tightly couples two components: a mixture component used for discovering latent groups in document collection and a topic model component used for mining multi-grain topics including local topics specific to each cluster and global topics shared across clusters.We employ variational inference to approximate the posterior of hidden variables and learn model parameters. Experiments on two datasets demonstrate the effectiveness of our model
Keywords:
Document Clustering Topic Modeling MGCTM multi-grain clustering topic model
سایر منابع مهندسی کامپیوتر و IT-فناوری اطلاعات در زمینه خوشه بندی