چطور این مقاله مهندسی کامپیوتر و IT را دانلود کنم؟
فایل انگلیسی این مقاله با شناسه 2008212 رایگان است. ترجمه چکیده این مقاله مهندسی کامپیوتر و IT در همین صفحه قابل مشاهده است. شما می توانید پس از بررسی این دو مورد نسبت به خرید و دانلود مقاله ترجمه شده اقدام نمایید
حجم فایل انگلیسی :
727 Kb
حجم فایل فارسی :
795 کیلو بایت
نوع فایل های ضمیمه :
Pdf+Word
کلمه عبور همه فایلها :
www.daneshgahi.com
عنوان فارسي
نرمالسازی داده های بزرگ برای پایگاه داده هایی که به پردازش موازی داده های انبوه می پردازند
عنوان انگليسي
Big Data Normalization for Massively Parallel Processing Databases
نویسنده/ناشر/نام مجله
Computer Standards & Interfaces
این مقاله چند صفحه است؟
این مقاله ترجمه شده مهندسی کامپیوتر و IT شامل 13 صفحه انگلیسی به صورت پی دی اف و 34 صفحه متن فارسی به صورت ورد تایپ شده است
چکیده
در پایگاه داده هایی که به پردازش موازی داده های انبوه یا به اختصار MPP میپردازند، معمولاً پرس و جو با عملکرد بالا و پرس و جوی اَدهاک به عنوان هدف های دو به دو ناسازگار در نظر گرفته میشوند. همچنین در این نوع از پایگاه دادده ها، میان سهولت توسعه ی مدل داده و سهولت تجزیه و تحلیل نیز تضاد وجود دارد. رویکرد جدیدی که "دریاچه داده" نام دارد، اینگونه وعده میدهد که با افزودن داده های جدید به مدل، توسعه ی مدل داده ساده تر خواهد شد، در حالیکه این دریاچه بسیار مستعد است که در نهایت تبدیل به باتلاقی بدون ساختار از داده ها شود؛ با توجه به عدم رعایت موازین و استانداردها، دریاچه ی داده از کنترل خارج میشود، یافتن داده ها و همچنین استفاده از داده ها، دشوار خواهد شد و بدین ترتیب دیگر داده ها قابل استفاده نخواهند بود. در این مقاله، تکنیک جدیدی معرفی میشود که با استفاده از مدلسازی لنگر داده های بزرگ را بسیار نرمال میکند؛ با استفاده از این تکنیک برای ذخیره ی اطلاعات و استفاده از منابع، روش بسیار مؤثری ارائه میشود، در نتیجه برای اولین بار در پایگاه داده هایی که به پردازش موازی داده های انبوه میپردازند، پرس و جوی اَدهاک با کارایی بالا ارائه میشود (در این متن، منظور از پرس و جو، کوئری میباشد). این تکنیک برای توسعه ی مدل داده و تبدیل آن به دریاچه ی داده، روش تقریباً مناسبی است، این در حالی است که مدل، به صورت داخلی در برابر تبدیل شدن به دریاچه داده محافظت میشود. در اینجا یک مطالعه ی موردی نیز انجام شده است، این مطالعه به این مسأله میپردازد که چگونه این روش به مدت بیش از سه سال از انباردادهای موجود در آویتو استفاده کرده است (آویتو یک وبسایت روسی است)؛ همچنین نتایج آزمایشاتی که با استفاده از داده های واقعی در HP Vertica انجام شده اند، نیز ارائه میشود. این مقاله براساس نتایج بدست آمده از یک پایان نامه گردآوری شده و در 34 اُمین کنفرانس بین المللی مدلسازی مفهومی در سال 2015 ارائه شده است ]1[؛ این مقاله با استفاده از نتایج عددی که در طی چندین سال (1 تا 3 سال) از نرمال سازی داده های بزرگ موجود در نواحی کلیدی انبار داده، بدست آمده است، تکمیل میشود. همچنین در اینجا به توصیف محدودیتها نیز پرداخته می شود؛ این محدودیتها به علت استفاده از تنها یک خوشه از پایگاه داده ی MPP ایجاد میشوند.
1-مقدمه
تحلیل داده های بزرگ در بسیاری از شرکتها، به سرعت، به یک امر عادی تبدیل شده است. برای مثال بانکها، شرکت های مخابراتی، شرکت های بزرگ تحت وب مانند گوگل، فیسبوک و توئیتر، داده ها بسیار زیادی را تولید میکنند. حتی امروزه کاربران تجاری نیز میدانند که چگونه از طریق این داده ها کسب درآمد نمایند. برای مثال، تکنیک های بازاریابی با پیشبینی های مختلف، میتوانند اطلاعاتی که درباره رفتار مشتری کسب نموده اند را به ارزش های مالی بزرگی تبدیل نمایند....
داده های بزرگ پایگاه داده اَدهاک
:کلمات کلیدی
Abstract
High performance querying and ad-hoc querying are commonly viewed as mutually exclusive goals in massively parallel processing databases. Also there is contradiction between ease of extending the data model and ease of analysis. Modern approach, called Data Lake, promises extreme ease of adding new data to a data model, while it is prone to eventually converting to Data Swamp- unstructured, ungoverned, and out of control Data Lake where due to a lack of process, standards and governance, data is hard to find, hard to use and is consumed out of context. This paper introduces a novel technique, highly normalized Big Data using Anchor modeling, that provides a very efficient way to store information and utilize resources, thereby providing ad-hoc querying with high performance for the first time in massively parallel processing databases. This technique is almost as convenient for expanding data model as a Data Lake, while it is internally protected from transforming to Data Swamp. A case study of how this approach is used for a Data Warehouse at Avito over three years time, with estimates for and results of real data experiments carried out in HP Vertica, an MPP RDBMS, are also presented. This paper is an extension of theses from The 34th International Conference on Conceptual Modeling (ER 2015) [1], it is complemented with numerical results about key operating areas of highly normalized big data warehouse, collected over several (1-3) years of commercial operation. Also, the limitations, imposed by using a single MPP database cluster, are described, and cluster fragmentation approach is proposed.
Keywords:
Big Data MPP database normalization analytics ad-hoc querying
سایر منابع مهندسی کامپیوتر و IT در زمینه داده بزرگ