چطور این مقاله مهندسی کامپیوتر و IT را دانلود کنم؟
فایل انگلیسی این مقاله با شناسه 2005316 رایگان است. ترجمه چکیده این مقاله مهندسی کامپیوتر و IT در همین صفحه قابل مشاهده است. شما می توانید پس از بررسی این دو مورد نسبت به خرید و دانلود مقاله ترجمه شده اقدام نمایید
حجم فایل انگلیسی :
124 Kb
حجم فایل فارسی :
434 کیلو بایت
نوع فایل های ضمیمه :
Pdf+Word
کلمه عبور همه فایلها :
www.daneshgahi.com
عنوان فارسي
یک روش فشرده سازی برای اندکس وارونه و یک راهکار برای خروج آن از حالت فشرده براساس FPGA (آرایه دریچه برنامه پذیرِ میدانی)
عنوان انگليسي
A compression method for inverted index and its FPGA-based decompression solution
نویسنده/ناشر/نام مجله
Field-Programmable Technology (FPT), International Conference
این مقاله چند صفحه است؟
این مقاله ترجمه شده مهندسی کامپیوتر و IT شامل 4 صفحه انگلیسی به صورت پی دی اف و 11 صفحه متن فارسی به صورت ورد تایپ شده است
چکیده
محاسبۀ قابل پیکربندی مجدد براساس FPGA راهکاری نویدبخش جهت سرعت بخشیدن به موارد کاربردی برای موتور جستجو های محیط وب می باشد. بدلیل چالش های موجود در این کاربردهای متمرکز برداده، فشرده سازی داده ها دارای اهمیت دوچندانی شده است. این مقاله، یک روش فشرده سازی داده را برای اندکس های وارونه مطرح می کند که روش فشرده سازیِ سطح بیت – کدگذاریِ هافمن و روش فشرده سازی درشت دانه ، را برای دستیابی به عملکرد متعادل در نسبت فشرده سازی و سرعت وافشرده سازی (مترجم: خارج کردن از حالت فشرده) مطرح می کند. بدلیل آنکه اندکس وارونه تنها یکبار فشرده سازی می شود، سرعت فشرده سازی معیار اصلی برای روش فشرده سازی نیست. روش پیشنهادی با نسبت فشردگیِ 21.61% برای اندکس های وارونه حاصل از یکموتور جستجوی تجاری، مناسب جلوه می کند. این نسبت فشردگی بهتر از نتایج حاصل از دیگر روش های فشرده سازی موجود می باشد. همچنین ما یک ماژول کارآمد برای وافشرده سازیِ سخت افزاریِ مبتنی بر FPGA ایجاد می کنیم که می تواند یک پهنای بندی ورودی تا 996MBps را برای سیستم شتاب دهنده فراهم آورد.
1-مقدمه
سیستم های بازیابی اطلاعات بخشی حیاتی از زیرساخت های اطلاعاتی امروزی و سرویس های آنلاینِ بزرگ هستند. اندکس وارونه معمولاً جهت تامین دسترسیِ موثر به محتوای این سیستم ها در موتور جستجو های مدرن بکار گرفته می شود، و این سرویس بکارگیریِ اندکس نامیده می شود. معمولاً ، موتور جستجو اندکس وارونه را برای فایل های نوشتاریِ حاصل از اینترنت ایجاد می کند. اندکس عبارت (کلمه) ای است که در موتور جستجو مورد پرس و جو قرار می گیرد و محتوا، ID های نوشتار می باشند (DocIDs) که این کلمه در آنها ظاهر می شوند. غالباً، فراوانی و موقعیتِ این عبارت در فایل های نوشتاری نیز ثبت می شود. در این مقاله، ما تنها DocID ها را در فهرست ورودی درنظر می گیریم و فراوانی و موقعیت را درنظر نمی گیریم. دسترسی به اندکس وارونه عمل اساسی برای پردازش یک جستار می باشد. با رشد سریعِ صفحات وب، نیاز به دسترسیِ سریع تر به اندکس وارونه و توان عملیاتیِ بالاتر برای پردازش جستار در موتور های جستجو حس می شود. ازینرو ، تکنیک های مختلفِ فشرده سازی برای کاهش سایز اندکس و افزایش کاراییِ I/O برای کل سیستم توسعه یافته اند…
فشرده سازی داده اندکس وارونه FPGA بازیابی اطلاعات DocIDs
:کلمات کلیدی
Abstract
Reconfigurable computing based on FPGA is a promising solution to accelerate applications for web search engines. Due to the challenge of such data-intensive applications, data compression has become much more important. This paper proposes a data compression method for inverted indices, which combines the bit-level compression method - Huffman coding and a coarse-grained compression method, to achieve a balanced performance in compression ratio and decompression speed. Because an inverted index is only compressed once, the compression speed is not the major measurement for a compression method. The proposed method shows good to 21.61% compression ratio on inverted indices from a commercial search engine. This compression ratio is better than results by other existing compression methods. We also develop an efficient FPGA-based hardware decompression module, which could provide up to 996 MBps input bandwidth for the accelerator system
Keywords:
Data Compression Inverted Index FPGA Information retrieval DocIDs
سایر منابع مهندسی کامپیوتر و IT-سخت افزار در زمینه FPGA