دانلود مقاله ترجمه شده مطالعه ای بر استخراج محتوا از صفحات وب مبتنی بر پیوندها

چطور این مقاله مهندسی کامپیوتر و IT را دانلود کنم؟

فایل انگلیسی این مقاله با شناسه 2005251 رایگان است. ترجمه چکیده این مقاله مهندسی کامپیوتر و IT در همین صفحه قابل مشاهده است. شما می توانید پس از بررسی این دو مورد نسبت به خرید و دانلود مقاله ترجمه شده اقدام نمایید برای دریافت لینک دانلود مقاله آدرس ایمیل خود را درج نمایید

مایل به دریافت ترجمه فارسی هستید؟

قیمت :

920,000 ریال

شناسه محصول :

2005251

سال انتشار:

2012

حجم فایل انگلیسی :

443 Kb

حجم فایل فارسی :

810 کیلو بایت

نوع فایل های ضمیمه :

Pdf+Word

کلمه عبور همه فایلها :

www.daneshgahi.com

عنوان فارسي

مطالعه ای بر استخراج محتوا از صفحات وب مبتنی بر پیوندها

عنوان انگليسي

A Study of Content Extraction From Web Pages Based on Links

نویسنده/ناشر/نام مجله

International Journal of Data Mining & Knowledge Management Process

این مقاله چند صفحه است؟

این مقاله ترجمه شده مهندسی کامپیوتر و IT شامل 8 صفحه انگلیسی به صورت پی دی اف و 8 صفحه متن فارسی به صورت ورد تایپ شده است

چکیده فارسی

چکیده

استخراج محتوای اصلی از صفحات وب پیش پردازش سیستم اطلاعاتی وب است. رویهی استخراج محتوای بر مبنای wrapper محدود به یک منبع اطلاعاتی خاص بوده و به میزان زیادی به ساختار صفحهی وب بستگی دارد. این رویه در عمل به ندرت به کار گرفته شده است. بنابراین یک روش استخراج محتوا در این مقاله پیشنهاد شده است، که می تواند محتوای صفحه ی وب را با توجه به تعداد نشان گذاری ها و نسبت تعداد کاراکتر های غیر ابرپیوند به کاراکتر های شامل ابرپیوند کشف نماید. این روش می تواند نویز و حذف نموده و محتوای اصلی صفحه وب را به خوبی از آن استخراج نمود نتایج آزمایشی نشان می دهند که این روش دقیق بوده و برای بسیاری از سایت های وب مناسب است.

1-مقدمه

جهش اینترنت باعث موفقیت بسیاری از برنامههای کاربردی از قبیل بازیابی اطلاعات، به اشتراک گذاری دانش و ... شده و باعث سربار اطلاعات در همان زمان شده است. بنابراین به دست آورد اطلاعات دقیق و دانش از اینترنت به مشکل بغرنجی تبدیل شده است. استخراج اطلاعات صفحه ی وب محتوای صفحات نیمه ساخت یافته ی وب را به متن ساختار یافته تبدیل می کند، که می تواند به سادگی توسط کاربران مورد پرس و جو قرار گیرد. این روزها، استخراج محتوا از صفحه ی وب یک گام کلیدی برای کسب دانش و پیش پردازش و طرح یک بنیان خوب برای پردازش متن های آتی است...

استخراج محتوا Wrapper درخت HTML نویز صفحه¬ی وب :کلمات کلیدی

چکیده انگلیسی

Abstract

Extracting main content from web page is the preprocessing of web information system. The content extraction approach based on wrapper is limited to one specific information source, and greatly depends on web page structure. It is seldom employed in practice. A new content extraction method is thus proposed in this paper, which can discover web page content according to the number of punctuations and the ratio of non-hyperlink character number to character number that hyperlinks contain. It can eliminate noise and extract main content blocks from web page effectively. Experimental results show that this approach is accurate and suitable for most web sites

Keywords: content extraction wrapper HTML tree web pagenoise

این مقاله ترجمه شده مهندسی کامپیوتر و IT برای گرایش های: فناوری اطلاعات، کاربرد دارد. سایر مقالات ترجمه شده فناوری اطلاعات، را ببینید. [ برچسب: مقاله ترجمه شده فناوری اطلاعات در زمینه وب کاوی]

سایر منابع مهندسی کامپیوتر و IT-فناوری اطلاعات در زمینه وب کاوی

گزارش کارای وب کاوی و پیش بینی الگوی هدایتگر آنلاین [مقالات ترجمه شده]
وب کاوی : حال و آینده [مقالات ترجمه شده]
روش های خوشه بندی لاگ های وب سرور- یک بررسی [مقالات ترجمه شده]
استخراج دانش از گزارش های وب سرور با استفاده از کاربرد وب کاوی [مقالات ترجمه شده]
تحقیقات داده کاوی وب: برآورد [مقالات ترجمه شده]
الگوریتم های رتبه بندی صفحه در وب کاوی، محدودیت های روش های موجود و یک روش جدید برای نمایه سازی صفحات وب [مقالات ترجمه شده]

گزارش کارای وب کاوی و پیش بینی الگوی هدایتگر آنلاین [مقالات ترجمه شده]

وب کاوی : حال و آینده [مقالات ترجمه شده]

روش های خوشه بندی لاگ های وب سرور- یک بررسی [مقالات ترجمه شده]

استخراج دانش از گزارش های وب سرور با استفاده از کاربرد وب کاوی [مقالات ترجمه شده]

تحقیقات داده کاوی وب: برآورد [مقالات ترجمه شده]

الگوریتم های رتبه بندی صفحه در وب کاوی، محدودیت های روش های موجود و یک روش جدید برای نمایه سازی صفحات وب [مقالات ترجمه شده]