چطور این مقاله مهندسی کامپیوتر و IT را دانلود کنم؟
فایل انگلیسی این مقاله با شناسه 2005983 رایگان است. ترجمه چکیده این مقاله مهندسی کامپیوتر و IT در همین صفحه قابل مشاهده است. شما می توانید پس از بررسی این دو مورد نسبت به خرید و دانلود مقاله ترجمه شده اقدام نمایید
حجم فایل فارسی :
1 مگا بایت
نوع فایل های ضمیمه :
Pdf+Word
کلمه عبور همه فایلها :
www.daneshgahi.com
عنوان فارسي
طبقه بندی موضوعات متداول در توییتر
عنوان انگليسي
Twitter Trending Topic Classification
نویسنده/ناشر/نام مجله
11th IEEE International Conference on Data Mining Workshops
این مقاله چند صفحه است؟
این مقاله ترجمه شده مهندسی کامپیوتر و IT شامل 8 صفحه انگلیسی به صورت پی دی اف و 21 صفحه متن فارسی به صورت ورد تایپ شده است
چکیده
با افزایش محبوبیت سایت های میکروبلاگینگ، در عصر انفجار اطلاعات به سر می بریم. از ماه ژوئن 2011، حدود 200 میلیون توییت به صورت روزانه تولید می شوند. اگرچه توییتر لیستی از محبوب ترین موضوعاتی که افراد در مورد آن ها توییت می کنند را به عنوان موضوعات متداول به صورت بی درنگ ارائه می کند، تعیین حوزه این موضوعات متداول، اغلب امری دشوار است. بنابراین، طبقه بندی این اطلاعات با دقت بالا، در دسته هایی برای بازیابی بهتر اطلاعات، امری ضروری می باشد. به منظور بررسی این مسئله، ما موضوعات جاری در توییتر را به 18 دسته کلی مانند ورزشی، سیاسی، فناوری و غیره تقسیم می نماییم. ما با دو روش برای طبقه بندی موضوع آزمایش را انجام می دهیم؛ (1) روش معروف مجوعه کلمات برای طبقه بندی متن و (2) طبقه بندی مبتنی بر شبکه. در روش طبقه بندی مبتنی بر متن، ما بردارهایی از کلمات با تعریف موضوع متداول و توییت ها می سازیم و از وزن های tf-idf به منظور طبقه بندی موضوعات با استفاده از یک طبقه بند چندجمله ای بیز ساده استفاده می نماییم. در روش طبقه بندی مبتنی بر شبکه، پنج موضوع مشابه برای یک موضوع داده شده را بر اساس تعداد کاربران موثر مشترک، شناسایی می کنیم. این دسته ها، با استفاده از موضوعات مشابه و تعداد کاربران موثر مشترک بین موضوع فعلی و موضوعات مشابه با آن، برای طبقه بندی با استفاده از یادگیرنده درخت تصمیم C5.0 مورد استفاده قرار گرفته اند. آزمایش ها روی یک پایگاه داده که به صورت تصادفی 768 موضوع متداول را انتخاب نموده (حدود 18 کلاس) نشان می دهند که دقت طبقه بندی بیش از 65% و 70% به ترتیب با استفاده از روش های مبتنی بر متن و مدل سازی طبقه بندی مبتنی بر شبکه قابل دستیابی می باشد.
1-مقدمه
توییتر یک سایت میکروبلاگینگ بسیار محبوب است که کاربران به صورت دوره ای در جستجوی اطلاعات اجتماعی مانند اخبار فوری، پست هایی در مورد افراد مشهور و موضوعات جاری می باشند. کاربران پیام های متنی کوتاهی را ارسال می کنند که توییت نامیده می شوند و دارای محدودیت طول140 کاراکتری می باشند و می توانند توسط دنبال کنندگان کاربر مشاهده شوند. کسی که درخواست دیدن پست های توییت دیگری را دارد، دنبال کننده نامیده می شود...
شبکه های اجتماعی توییتر طبقه بندی موضوع
:کلمات کلیدی
Abstract
With the increasing popularity of microblogging sites, we are in the era of information explosion. As of June 2011, about 200 million tweets are being generated everyday. Although Twitter provides a list of most popular topics people tweet about known as Trending Topics in real time, it is often hard to understand what these trending topics are about. Therefore, it is important and necessary to classify these topics into general categories with high accuracy for better information retrieval. To address this problem, we classify Twitter Trending Topics into 18 general categories such as sports, politics, technology, etc. We experiment with 2 approaches for topic classification, (i) the well-known Bag-of-Words approach for text classification and (ii) network-based classification. In text-based classification method, we construct word vectors with trending topic definition and tweets, and the commonly used tf-idf weights are used to classify the topics using a Naive Bayes Multinomial classifier. In network-based classification method, we identify top 5 similar topics for a given topic based on the number of common influential users. The categories of the similar topics and the number of common influential users between the given topic and its similar topics are used to classify the given topic using a C5.0 decision tree learner. Experiments on a database of randomly selected 768 trending topics (over 18 classes) show that classification accuracy of up to 65% and 70% can be achieved using text-based and network-based classification modeling respectively
Keywords:
Social Networks Twitter Topic Classification
سایر منابع مهندسی کامپیوتر و IT-فناوری اطلاعات در زمینه توییتر