دانلود مقاله ترجمه شده SISC: یک روش طبقه بندی با استفاده از خوشه بندی زیرفضای شبه ناظر


چطور این مقاله مهندسی کامپیوتر و IT را دانلود کنم؟

فایل انگلیسی این مقاله با شناسه 2006627 رایگان است. ترجمه چکیده این مقاله مهندسی کامپیوتر و IT در همین صفحه قابل مشاهده است. شما می توانید پس از بررسی این دو مورد نسبت به خرید و دانلود مقاله ترجمه شده اقدام نمایید

قیمت :
800,000 ریال
شناسه محصول :
2006627
سال انتشار:
2009
حجم فایل انگلیسی :
323 Kb
حجم فایل فارسی :
655 کیلو بایت
نوع فایل های ضمیمه :
Pdf+Word
کلمه عبور همه فایلها :
www.daneshgahi.com

عنوان فارسي

SISC: یک روش طبقه بندی با استفاده از خوشه بندی زیرفضای شبه ناظر

عنوان انگليسي

SISC: A Text Classification Approach Using Semi Supervised Subspace Clustering

نویسنده/ناشر/نام مجله

IEEE International Conference on Data Mining Workshops

این مقاله چند صفحه است؟

این مقاله ترجمه شده مهندسی کامپیوتر و IT شامل 6 صفحه انگلیسی به صورت پی دی اف و 18 صفحه متن فارسی به صورت ورد تایپ شده است

چکیده فارسی

چکیده

طبقه بندی متن (Text classification)، چالش های ویژه ای دارد. یکی از این چالش ها، تعداد ابعاد زیاد آن است، که هر سندی (نقطه داده) تنها تعداد بسیار کمی از آن ها را شامل می شود. در این مقاله، ما یک روش ناخالصی نیمه نظارتی بر پایه روش خوشه بندی نیمه نظارتی (Semi-supervised Impurity based Subspace Clustering (SISC)) در زیرمجموعه فضای ترکیب شده با روش نزدیک ترین همسایه k ام (κ-Nearest Neighbor) ارائه کرده ایم. این روش برپایه خوشه بندی نیمه نظارتی زیرفضا می باشد که ابعاد بالا را به همان اندازه ماهیت پراکنده شان در داده های متنی مورد بررسی قرار می دهد. SISC، خوشه هایی را در زیرفضاهای داده های متنی چند بعدی پیدا می کند که در آن هر سندی عضوی از یک خوشه فازی (fuzzy) است. این خوشه بندی فازی، از دو عامل استفاده می کند. آمار مجذور چی (chi square statistic) ابعاد و اندازه ناخالصی درون هر خوشه ارزیابی تجربی این روش بر روی مجموعه داده های دنیای واقعی، موثر بودن روش ما را نشان داده است. این روش، کارایی بهتری نسبت به آخرین روش های دیگر طبقه بندی متن و الگوریتم های دیگر خوشه بندی زیر فضا دارد.

1-مقدمه

داده های متنی، یک تفاوت اساسی با داده های غیرمتنی دارند. این تفاوت در ابعاد یا در ویژگی هایی که در فرایند طبقه بندی شرکت دارند، می باشد. همچنین آنها ذاتا پراکنده هستند به گونه ای که ممکن است یک سند تنها شامل تعداد کمی از ابعاد انتخابی باشد. مفهوم خوشه بندی زیرفضا، ویژگی های داده های متنی را با یکدیگر ادغام می کند. در خوشه بندی زیرفضا، به هر بعد یک وزن اختصاص داده شده­ است که بر پایه توزیع آن در تفکیک اسناد از هر دسته در یک خوشه، می باشد. بر پایه این وزن ابعاد، خوشه بندی زیرفضا این امکان را فراهم می سازد تا خوشه ها را در ابرفضای سنگین (weighted hyperspace) بیابیم [1]، و می تواند ما را در یافتن اسنادی که خوشه ها را تنها در یک زیرفضای ابعاد فرم می دهند، یاری دهد...

SISC طبقه بندی متن روش خوشه بندی نیمه نظارتی خوشه بندی نیمه نظارتی :کلمات کلیدی

چکیده انگلیسی

Abstract

Text classification poses some specific challenges. One such challenge is its high dimensionality where each document (data point) contains only a small subset of them. In this paper, we propose Semi-supervised Impurity based Subspace Clustering (SISC) in conjunction with k-Nearest Neighbor approach, based on semi-supervised subspace clustering that considers the high dimensionality as well as the sparse nature of them in text data. SISC finds clusters in the subspaces of the high dimensional text data where each text document has fuzzy cluster membership. This fuzzy clustering exploits two factors - chi square statistic of the dimensions and the impurity measure within each cluster. Empirical evaluation on real world data sets reveals the effectiveness of our approach as it significantly outperforms other state-of-the-art text classification and subspace clustering algorithms.

Keywords: SISC Semi Supervised Subspace Clustering
کتابخانه الکترونیک
دانلود مقالات ترجمه شده
جستجوی مقالات
با انتخاب رشته مورد نظر خود می توانید مقالات ترجمه شده آن رو به صورت موضوع بندی شده مشاهده نمایید