چکیده
در این مقاله ، روشهای جدیدی برای پارامتریک کردن اتصالات شبکه های عصبی با استفاده از مجموع حاصلضرب مستقیم ارائه داده ایم.ما نشان می دهیم که پارامتریک کردن مرتبه پائین ماتریسهای وزن، زیرمجموعه ای از این مجموعه است و مزایای تئوری و عملی نمایش ماتریسهای وزن با استفاده از مجموع حاصلضرب کرونکر را بررسی می کنیم.نتایج ASR روی یک زیرمجموعه 50 ساعتی از مجموعه اخبار پخش شده انگلیسی نشان داد که این رویکرد نوید بخش است . بطور خاص نشان می دهیم که یک شبکه فاکتوریل در لایه پائینی با بیش از 150 برابر پارامترهای کمتر نسبت به همتاهای استاندارد بدون محدودیت آن از تخریب مینیمال WER رنج می برد . ما نشان می دهیم که با مجموع حاصاضرب کرونکر می توان همراه با حداقل کردن پارامترها ،گپ کارآیی WER را کم کرد. علاوه براین ،DBN مبتنی بر ضرب مستقیم برDBNاستاندارد با تعداد پارامتر یکسان ، برتری دارد . این نتایج تاثیرات مهمی بر تحقیقات شبکه های باور عمیق دارد . نتایج نشان می دهند که می توانیم شبکه های عصبی با هزاران نرون و حداقل محدودیت را خیلی سریعتر از روشهای فعلی آموزش دهیم . همچنین با استفاده از مجموع حاصلضرب مستقیم ،آموزش شبکه های عصبی با میلیونها نرون ممکن خواهد بود ( یک انتظار شگفت انگیز)
1-مقدمه
اخیراً اشتیاق زیادی در بکارگیری BDN برای وظایف یادگیری ماشین ایجاد شده است که از آن جمله می توان به ASR اشاره کرد [1,2] . این اشتیاق با الگوریتم های جدید ارائه شده برای آموزش DBN ،بیشتر شده است[3]. نتایج جدید، نشان دهنده بهبود قابل توجه کارآیی در کارهای عملی از جمله [1,2]ASR و وجود حجم زیادی از داده های آموزشی برای آن [4] بوده است . با وجود موفقیتهای اخیر که بدلیل افزایش روزافزون قابلیتهای محاسباتی ،آسان تر شده است ،DBN همچنان حتی برای آموزش شبکه های کوچک با تنها هزاران نرون (نود)،فوق العاده زمان بر بوده و ممکن است یادگیری آن مدتها به طول انجامد [4] . در نتیجه هم تعداد لایه هایی که می توان بکار گرفت و هم تعداد نرونها در لایه DBN به شدت با محدودیت مواجه می شود که به نوبه خود کارآیی بالقوه آنها را محدود می سازد. در حال حاضر اکثر DBNهایی که در عمل استفاده می شوند لایه به لایه آموزش دیده و محدودیت امکان اتصال بین نودها تنها در لایه های همسایه را دارند . مجموعه اتصالات بین لایه های مجاور (و ارزش آنها)،معمولاً با ماتریس وزن W نشان داده می شود . اگر لایه i از شبکه، m نود داشته باشد و لایه j ، n نود داشته باشد ، اتصال بین این دو لایه مجاور را می توان به صورت ماتریس M✕N به نام W نشان داد . این ماتریس وزن معمولاً یا بدون محدودیت (اتصالات M✕N ) یا به شدت محدود شده است (weight tying ) یا (weight zeroing).اخیراً محققان زیادی تلاش کرده اند که یادگیری ساختار ماتریس وزن بطور اتوماتیک صورت گیرد و در این کار از ایجاد محدودیتهایی نظیر ماتریس مرتبه پائین [2,6] یا اسپارس استفاده کرده اند ….