پروژه داده کاوی: بررسی تاثیر نقاط اولیه بر نتایج نهایی حاصل از اجرای الگوریتم K-Means
پروژه داده کاوی با عنوان بررسی تاثیر نقاط اولیه بر نتایج نهایی حاصل از اجرای الگوریتم K-Means در قالب فایل Word برای دانلود از پورتال آموزش و پژوهش دانشگاهیان(پویان) ارائه شده است.
برای پاسخ گویی به این سوال مقالات مختلفی بررسی شد که اکثرا سعی در ارائه الگوریتمی برای تعیین نقاط اولیه مناسب جهت اعمال الگوریتم K-Means داشتند که معمولا روش های پیشنهادی نقاط اولیه را سعی داشتند با فاصله بیشتر از یکدیگر انتخاب کنند تا با اجرای الگوریتم K-Means که به سمت یافتن خوشه های متمرکز تمایل دارد، نتیجه نهایی بهتری تولید کنند.
همچنین در بسیاری از این مقالات توصیه شده بود که نقاط اولیه با تعداد بیشتری انتخاب شود تا نتایج نهایی خوشه بندی دقت کافی داشته باشد و تمامی خوشه های، ولو تو در تو، کشف شود. در بعضی از این مقالات رویکرد ترکیبی نیز استفاده شده بود به این معنی که مثلا از یک الگوریتم دیگر خوشه بندی برای تعیین تعداد و محل نقاط مرکزی اولیه استفاده شده بود و در نهایت پس از تعیین تعداد و نقاط اولیه مرکزی، الگوریتم K-Means جهت پیدا کردن خوشه های مختلف استفاده شده بود.
در نهایت یکی از بهترین مقالاتی را که در این زمینه ارائه شده و نتایج بسیار خوبی نیز بر روی مجموعه داده های مشهور مورد استفاده در داده کاوی داشته در این قسمت مورد بررسی قرار می دهیم.
اکثر مطالعات اخیر در حوزه خوشهبندي ترکیبی سعی میکنند ابتدا خوشهبندیهای اولیهی تا حد ممکن پراکنده تولید کنند، سپس با اعمال یک تابع توافقی همه این نتایج را با هم ترکیب کنند. در این مقاله مشخص می شود که لزوما معرفی تعداد نقاط اولیه بیشتر منجر به تولید نتایج بهتر در خوشه بندی نمی شود. حتی ممکن است گاهی نقاط بیشتر ارائه شده، علاوه بر افزایش هزینه الگوریتم منجر به تولید خوشه های نامناسب شود که در نهایت کارایی الگوریتم را کاهش می دهد.
در ادامه يک روش جديد خوشهبندي ترکيبي ارائه شده است که مبتني بر استفاده از زيرمجموعهاي از خوشههاي اوليه ميباشد. ايده اصلي در اين روش استفاده از خوشههاي پايدار در ترکيب نهايي است. براي ارزيابي خوشهها، از پايداري مبتني بر اطلاعات متقابل استفاده شده است.
براي استخراج خوشههاي نهايي از خوشههاي انتخابي، از تابع توافقي مبتني بر ماتريس همبستگي استفاده شده است. از آن جايي که ساخت ماتريس همبستگي با در دسترس بودن تنها تعدادي از خوشهها، با روشهاي موجود امکانپذير نميباشد، در اين مقاله يک روش جديد به نام خوشهبندي انباشت مدارک توسعه يافته، براي ساخت ماتريس همبستگي از زيرمجموعهاي از خوشهها پيشنهاد شده است.
نتايج تجربي روي چندين مجموعه داده استاندارد نشان ميدهد که روش پيشنهادي به طور موثري نتايج خوشهبنديهاي اوليه را بهبود ميدهد. همچنين، مقايسه نتايج در مقايسه با ساير روشهاي خوشهبندي ترکيبي نشان از کارايي بالاي روش پيشنهادي دارد.
نتايج تجربي روش پيشنهادي خوشهبندي ترکيبي بر روي پنج مجموعه داده مختلف و متنوع نشان ميدهد که اين روش نسبت به روشهاي متداول و همچنين ساير روشهاي ترکيبي برتري قابل ملاحظهاي دارد.
نتايج آزمايشها نشان ميدهند که استفاده از به طور متوسط 35% از خوشههاي اوليه ميتواند نتايج خوشهبندي ترکيبي را به طور موثري بهبود بخشد.
متن کامل این پروژه داده کاوی با عنوان بررسی تاثیر نقاط اولیه بر نتایج نهایی حاصل از اجرای الگوریتم K-Means را از همین صفحه دانلود نمایید.