پروژه یادگیری ماشین با عنوان رتبهبندی نیمهنظارتی ویژگیها با یادگیری گروهی
در این قسمت از پورتال آموزش و پژوهش دانشگاهیان(پویان) پروژه یادگیری ماشین با عنوان رتبهبندی نیمهنظارتی ویژگیها با یادگیری گروهی برای دانلود ارائه شده است. این پروژه در محیط متلب پیاده سازی شده است. دیتاست لازم برای پروژه، کدهای متلب پروژه به همراه توضیحات کامل Word برای دانلود ارائه شده است. این پروژه یادگیری ماشین بر اساس یک مقاله انگلیسی پیاده سازی شده است. این مقاله از به صورت فایل کمکی رایگان قابل دانلود است.
در این بخش به شرح پیادهسازی روش ارائه شده در مقاله میپردازیم. پیادهسازی در نرمافزار MATLABانجام شده است. فایلهای پیادهسازی شده به صورت خلاصه وظیفه زیر را بر عهده دارند که در ادامه کدهای پیادهسازی شده در مهمترین آنها را شرح خواهیم داد...
مقدمه
پیشگفتار
روشهایقبلی
روشهایانتخابویژگینیمهنظارتی
روشهاییادگیریگروهنیمهنظارتی
ساختارگزارش
روشپیشنهادی
نحوهساختدستهبندیکنندهها
معیاراطمینانبرایانتخابنمونههایبدونبرچسب
نحوهرتبهبندیبردارهایویژگی
پیادهسازی
فایل Do Experiments
تابع Evaluate Algorithm
تابع SEFR Algorithm
تابع Select Most Confident
آزمایشها
پایگاهداده
پارامترهاوشرایطآزمایش
نتایج
خلاصه ونتیجهگیری
مراجع
یکی از مباحث مطرح در یادگیری ماشین انتخاب ویژگی میباشد. در انتخاب ویژگی، سعی بر این است که از میان انبوهی از ویژگیهای موجود در یک پایگاه داده، زیرمجموعهای از آنها را انتخاب کنیم که ارتباط بیشتری با کلاس هر داده دارد. بدین ترتیب با انتخاب این ویژگیها میتوان یک دستهبندی کننده با دقت مناسب آموزش داد، ضمن آنکه میزان محاسبات و منابع موجود نیز به دلیل کاهش تعداد ویژگیها پایین خواهد بود.
روشهای موجود برای انتخاب ویژگی را میتوان به سه دسته کلی نظارتی، بدون نظارت و ترکیبی (نیمهنظارتی) تقسیم نمود. در روشهای نظارتی، با فرض اینکه کلاس مربوط به هر داده مشخص است، بازای زیرمجموعههای مختلف از ویژگیها، دستهبندیکنندههای مختلف آموزش داده میشود و در نهایت زیرمجموعهای انتخاب میشود که دستهبندیکننده آموزش داده شده با آن دقت بالاتری را داشته است. با این حال، در کاربردهای عملی ممکن است دسته تعدادی محدودی از دادهها مشخص باشد که همین امر حذف ویژگیهای غیرضروری و بعضاً تکراری را مخصوصاً در ابعاد بالا سخت خواهد کرد.
روشهای بدون نظارت روشهایی هستند که در پروسه انتخاب ویژگی به برچسب دادهها نیازی ندارند. این روشها در بین ویژگیها، آنهایی را انتخاب میکنند که منجر به یک گروهبندی شود، به طوری که دادههای شبیه به هم در نزدیکی هم قرار بگیرند. به عبارت دقیقتر، این روشها به دنبال زیرمجموعهای از ویژگیهای خواهند بود که خوشهبندی بهتری را منجر شود. از نقاط ضعف این روشها این است که از دادههایی که برچسب آنها مشخص است استفادهای نمیکنند.
در نهایت روشهای نیمهنظارتی سعی در ترکیب راهکارهای روشهای نظارتی و بدون نظارت دارند تا هم از دادههای برچسبدار و هم بدون برچسب به طور موثر استفاده کنند. در مقاله A semi-supervised feature ranking method with ensemble learning[1]نیز روشی نیمهنظارتی برای انتخاب ویژگی معرفی شده است. این روش مبتنی بر تکنیک تعیین اهمیت متغیر ارائه شده در روش جنگلهای تصادفی میباشد.
روش ارائه شده با عنوان رتبهبندی ویژگی هدایت شده با یادگیری نیمهنظارتی گروه یا SEFR میباشد. این روش مبتنی بر روشهای یادگیری نیمهنظارتی گروه است و برای آموزش دستهبندیکنندهها از تکنیک بازنمونهبرداری و زیرفضاهای تصادفی به صورت ترکیبی استفاده میکند. پس از آموزش دستهبندیکنندهها، هر ویژگی براساس اینکه روی دقت دستهبندیکنندهها چقدر تاثیر دارد رتبهبندی میشود. برای محاسبه این تاثیر، از معیار اهمیت جایگشت که در جنگلهای تصادفی ارائه شده است استفاده شده است.