چطور این مقاله مهندسی کامپیوتر و IT را دانلود کنم؟
فایل انگلیسی این مقاله با شناسه 2008235 رایگان است. ترجمه چکیده این مقاله مهندسی کامپیوتر و IT در همین صفحه قابل مشاهده است. شما می توانید پس از بررسی این دو مورد نسبت به خرید و دانلود مقاله ترجمه شده اقدام نمایید
حجم فایل انگلیسی :
203 Kb
حجم فایل فارسی :
162 کیلو بایت
نوع فایل های ضمیمه :
Pdf+Word
کلمه عبور همه فایلها :
www.daneshgahi.com
عنوان فارسي
بارگذاری دادههای حجیم بر سیستمهای پایگاه داده توزیع شده روی اچبیس
عنوان انگليسي
Massive Data Load on Distributed Database Systems over HBase
نویسنده/ناشر/نام مجله
17th IEEE/ACM International Symposium on Cluster, Cloud and Grid Computing
این مقاله چند صفحه است؟
این مقاله ترجمه شده مهندسی کامپیوتر و IT شامل 4 صفحه انگلیسی به صورت پی دی اف و 12 صفحه متن فارسی به صورت ورد تایپ شده است
چکیده
کلان دادهها به یک فناوری فراگیر برای مدیریت حجم همیشه رو به افزایش دادهها شده است. در میان راهحلهای کلان دادهها، ذخیرهسازی دادههای مقیاسپذیر به خصوص ذخیرهسازی دادههای مقادیر کلیدی به دلیل مقیاسپذیری بزرگ آنها (که متشکل از هزاران گره هستند) نقشی مهم را ایفا میکند. جریانکاری رایج برای برنامههای کاربردی کلاندادهها شامل دو مرحله است. مرحله نخست بارگذاری دادهها درون مخزن دادهها به عنوان بخشی از یک فرآیند ETL (استخراج-تبدیل- بارگذاری) است. دومین مرحله پردازش خود دادهها است. بیگتیبل و اچبیس راهحلهای مقادیر کلیدی ایدهآل مبتنی بر مخازن دادههایی هستند که به شکل محدودهای قسمتبندی شدهاند. با این حال، مرحله بارگذاری ناکارآمد است و یک تنگنای گره تکی را ایجاد میکند. در این مقاله ما این تنگنا را شناسایی و کمیت سنجی میکنیم و ابزاری برای بارگذاری دادههای حجیم موازی را پیشنهاد میدهیم که این ابزار هم به شکل رضایت بخشی قادر به حل تنگنا است و هم تمامی موازیسازی و بهره وری از مخزن دادهها مقادیر کلیدی زیرلایهای را در طی مرحله بارگذاری فراهم میکند. راهحل پیشنهادی به عنوان ابزاری برای بارگذاری دادههای حجیم موازی روی اچبیس پیادهسازی شده است که مخزن داده مقادیر کلیدی از اکوسیستم هادوپ است.
1-مقدمه
هر روز میلیونها پتابایت دادهها از منابع مختلف تولید میشوند. زیرساختهای کلاندادهها، مانند دریاچه دادههای هادوپ به منظور ارائه یک زیرساخت مقیاسپذیر برای مقابله با حجم زیاد دادههای غیرقابل مدیریت با تکنولوژیهای پایگاهدادههای سنتی ایجاد شده است. بسیاری از مخزن دادههای توزیعشده مقیاسپذیر در دهه گذشته ایجاد شدهاند تا قادر به پردازش مقادیر زیادی از دادهها باشند که اکثر آنها در حقیقت گسترشیافته مخزن دادههای مقادیر کلیدی مانند بیگتیبل [3]، اچبیس [1]، داینامو [6] و سایر موارد بودهاند. مخزن دادههای مقدار کلیدی اکوسیستم هادوپ، اچبیس نام دارد…
اچبیس کاهش نگاشت HDFS
:کلمات کلیدی
Abstract
Big Data has become a pervasive technology to manage the ever-increasing volumes of data. Among Big Data solutions, scalable data stores play an important role, especially,key-value data stores due to their large scalability (thousands of nodes). The typical workflow for Big Data applications include two phases. The first one is to load the data into the data store typically as part of an ETL (Extract-Transform-Load) process.The second one is the processing of the data itself. Big Table and HBase are the preferred key-value solutions based on range-partitioned data stores. However, the loading phase is inefficient and creates a single node bottleneck. In this paper, we identify and quantify this bottleneck and propose a tool for parallel massive data loading that solves satisfactorily the bottleneck enabling all the parallelism and throughput of the underlying key-value data store during the loading phase as well. The proposed solution has been implemented as a tool for parallel massive data loading over HBase, the key-value data store of the Hadoop ecosystem.
Keywords:
HBase MapReduce HDFS
سایر منابع مهندسی کامپیوتر و IT-نرم افزار در زمینه داده بزرگ