دانلود مقاله ترجمه شده نرمالسازی داده های بزرگ برای پایگاه داده هایی که به پردازش موازی داده های انبوه می پردازند


چطور این مقاله مهندسی کامپیوتر و IT را دانلود کنم؟

فایل انگلیسی این مقاله با شناسه 2008212 رایگان است. ترجمه چکیده این مقاله مهندسی کامپیوتر و IT در همین صفحه قابل مشاهده است. شما می توانید پس از بررسی این دو مورد نسبت به خرید و دانلود مقاله ترجمه شده اقدام نمایید

قیمت :
1,150,000 ریال
شناسه محصول :
2008212
سال انتشار:
2017
حجم فایل انگلیسی :
727 Kb
حجم فایل فارسی :
795 کیلو بایت
نوع فایل های ضمیمه :
Pdf+Word
کلمه عبور همه فایلها :
www.daneshgahi.com

عنوان فارسي

نرمالسازی داده های بزرگ برای پایگاه داده هایی که به پردازش موازی داده های انبوه می پردازند

عنوان انگليسي

Big Data Normalization for Massively Parallel Processing Databases

نویسنده/ناشر/نام مجله

Computer Standards & Interfaces

این مقاله چند صفحه است؟

این مقاله ترجمه شده مهندسی کامپیوتر و IT شامل 13 صفحه انگلیسی به صورت پی دی اف و 34 صفحه متن فارسی به صورت ورد تایپ شده است

چکیده فارسی

چکیده

در پایگاه ­داده ­هایی که به پردازش موازی داده­ های انبوه یا به اختصار MPP می­پردازند، معمولاً پرس­ و­ جو با عملکرد بالا و پرس­ و جوی اَدهاک به­ عنوان هدف­ های دو به دو ناسازگار در نظر گرفته می­شوند. همچنین در این نوع از پایگاه ­دادده ­ها، میان سهولت توسعه­ ی مدل داده و سهولت تجزیه و تحلیل نیز تضاد وجود دارد. رویکرد جدیدی که "دریاچه داده" نام دارد، اینگونه وعده می­دهد که با افزودن داده­ های جدید به مدل، توسعه­ ی مدل داده ساده ­تر خواهد شد، در حالیکه این دریاچه بسیار مستعد است که در نهایت تبدیل به باتلاقی بدون ساختار از داده ­ها شود؛ با توجه به عدم رعایت موازین و استانداردها، دریاچه­ ی داده از کنترل خارج می­شود، یافتن داده ­ها و همچنین استفاده از داده ­ها، دشوار خواهد شد و بدین ترتیب دیگر داده­ ها قابل استفاده نخواهند بود. در این مقاله، تکنیک جدیدی معرفی می­شود که با استفاده از مدلسازی لنگر داده­ های بزرگ را بسیار نرمال می­کند؛ با استفاده از این تکنیک برای ذخیره­ ی اطلاعات و استفاده از منابع، روش بسیار مؤثری ارائه می­شود، در نتیجه برای اولین بار در پایگاه ­داده ­هایی که به پردازش موازی داده ­های انبوه می­پردازند، پرس ­و جوی اَدهاک با کارایی بالا ارائه می­شود (در این متن، منظور از پرس و جو، کوئری می­باشد). این تکنیک برای توسعه­ ی مدل داده و تبدیل آن به دریاچه ­ی داده، روش تقریباً مناسبی است، این در حالی است که مدل، به­ صورت داخلی در برابر تبدیل شدن به دریاچه داده محافظت می­شود. در اینجا یک مطالعه­ ی موردی نیز انجام شده است، این مطالعه به این مسأله می­پردازد که چگونه این روش به مدت بیش از سه سال از انبارداده­ا­ی موجود در آویتو استفاده کرده است (آویتو یک وب­سایت روسی است)؛ همچنین نتایج آزمایشاتی که با استفاده از داده ­های واقعی در HP Vertica  انجام شده ­اند، نیز ارائه می­شود. این مقاله براساس نتایج بدست آمده از یک پایان­ نامه گردآوری شده و در 34 اُمین کنفرانس بین­ المللی مدلسازی مفهومی در سال 2015 ارائه شده است ]1[؛ این مقاله با استفاده از نتایج عددی که در طی چندین سال (1 تا 3 سال) از نرمال سازی داده­ های بزرگ موجود در نواحی کلیدی انبار داده، بدست آمده است، تکمیل می­شود. همچنین در اینجا به توصیف محدودیت­ها نیز پرداخته می­ شود؛ این محدودیت­ها به علت استفاده از تنها یک خوشه از پایگاه داده ­ی MPP ایجاد می­شوند.

1-مقدمه

تحلیل داده­ های بزرگ در بسیاری از شرکت­ها، به سرعت، به یک امر عادی تبدیل شده است. برای مثال بانک­ها، شرکت­ های مخابراتی، شرکت­ های بزرگ تحت وب مانند گوگل، فیس­بوک و توئیتر، داده ها بسیار زیادی را تولید می­کنند. حتی امروزه کاربران تجاری نیز می­دانند که چگونه از طریق این داده ­ها کسب درآمد نمایند. برای مثال، تکنیک ­های بازاریابی با پیش­بینی­ های مختلف، می­توانند اطلاعاتی که درباره رفتار مشتری کسب نموده ­اند را به ارزش ­های مالی بزرگی تبدیل نمایند....

 

داده های بزرگ پایگاه داده اَدهاک :کلمات کلیدی

چکیده انگلیسی

Abstract

High performance querying and ad-hoc querying are commonly viewed as mutually exclusive goals in massively parallel processing databases.  Also there is contradiction between ease of extending the data model and ease of analysis.  Modern approach, called Data Lake, promises extreme ease of adding new data to a data model, while it is prone to eventually converting to Data Swamp- unstructured, ungoverned, and out of control Data Lake where due to a lack of process, standards and governance, data is hard to find, hard to use and is consumed out of context.  This paper introduces a novel technique, highly normalized Big Data using Anchor modeling, that provides a very efficient way to store information and utilize resources, thereby providing ad-hoc querying with high performance for the first time in massively parallel processing databases.  This technique is almost as convenient for expanding data model as a Data Lake, while it is internally protected from transforming to Data Swamp.  A case study of how this approach is used for a Data Warehouse at Avito over three years time, with estimates for and results of real data experiments carried out in HP Vertica, an MPP RDBMS, are also presented.  This paper is an extension of theses from The 34th International Conference on Conceptual Modeling (ER 2015) [1], it is complemented with numerical results about key operating areas of highly normalized big data warehouse, collected over several (1-3) years of commercial operation. Also, the limitations, imposed by using a single MPP database cluster, are described, and cluster fragmentation approach is proposed.

Keywords: Big Data MPP database normalization analytics ad-hoc querying
Skip Navigation Linksصفحه اصلی > دپارتمان ها > دپارتمان فنی و مهندسی > مهندسی کامپیوتر و IT > مقاله های مهندسی کامپیوتر و IT و ترجمه فارسی آنها > نرمالسازی داده های بزرگ برای پایگاه داده هایی که به پردازش موازی داده های انبوه می پردازند
کتابخانه الکترونیک
دانلود مقالات ترجمه شده
جستجوی مقالات
با انتخاب رشته مورد نظر خود می توانید مقالات ترجمه شده آن رو به صورت موضوع بندی شده مشاهده نمایید