دانلود رایگان ترجمه مقاله Cost-effective Big Data Mining in the Cloud: A Case Study with K-means

ترجمه مقاله با عنوان  داده کاوی بزرگ مقرون به صرفه در زمینه ابر: یک مطالعه موردی با K-means

پشتیبانی : دارد. در صورت هر گونه بروز مشکل با شماره تلفن 09367938018 (مقیمی) یا آی دی تلگرام research_moghimi@ تماس حاصل فرمایید.

ار اینجا مقاله اصلی را دانلود کنید

ترجمه مقاله :

چکیده :

کاوش داده ی بزرگ , اغلب نیازمند منابع محاسباتی فوق العاده می باشد. این امر به یک مانع عمده در رابطه با استفاده ی وسیع از تجزیه و تحليل داده های بزرگ تبدیل شده است. محاسبات ابری به محققانی که در زمینه ی داده فعالیت می کنند و اجازه ی دسترسی به منابع محاسباتی و بر اساس تقاضای ساخت راه حل های تحلیلی داده ای بزرگ در ابر را می دهد. هر چند , هزینه ی پولی کاوش داده ی بزرگ در ابر , هنوز هم می تواند بر خلاف انتظار مان , بالا باشد. برای مثال , اجرای مثال های  m4 – xlarge Amazon EC2 100 به مدت یک ماه هزینه ای در حدود $ 17 , 495 , 00 را به دنبال دارد. در این زمینه , مسئله ی حیاتی به منظور تجزیه و تحلیل هزینه ی بهره وری هزینه ی مقرون به صرفه ) داده کاوی بزرگ در ابر , چگونگی دستیابی به یک نتیجه ی رضایت بخش کافی با حداقل هزینه ی محاسباتی ممکن است. در سناریو های داده کاوی بزرگ حقیقی , دقت %100 غیر ضروری است. در عوض , اغلب , دستیابی به یک دقت کافی برای مثال %99 , یا هزینه ی کمتر مانند %10 نسبت به هزینه ی دستیابی با دقت %100 , ترجیح داده می شود. در این مقاله , ما به کشف و نمایش داده کاوی بزرگ مقرون به صرفه به همراه یک مطالعه ی موردی و با استفاده از K – means اقدام می کنیم. با استفاده از مطالعه ی موردی , در می یابیم که دست یابی به دقت %99 تنها نیاز به هزینه ی محاسبتی % 46 . 17 -% 0 . 32 مربوط به دقت %100 دارد. این یافته , سنگ بنای لازم را برای  داده کاوی مقرون به صرفه در انواع دامنه ها قرار می دهد.

کلمات کلیدی : محاسبات ابری ؛ داده کاوی ؛ مقرون به صرفه ; داده بزرگ ; K- means

I . مقدمه 
دوران داده های بزرگ آغاز شده است. امروزه , نود درصد از داده ها در طی دو سال اخیر تولید شده و 2.5 کوانتیلین از داده های جدید هر روزه تولید می شوند. برای مثال , هر ماهه در حدود 6 میلیارد عکس جدید به وسیله ی فیسبوک گزارش شده و در هر دقیقه 72 ساعت ویدئو به یوتیوب آپلود می شود. این رشد انفجاری داده , داده کاوی بزرگ را در رنج وسیعی از زمینه ها همانند تجارت , حکومت , مراقبت های بهداشتی و غیره فعال ساخته است.
بسیاری از الگوریتم های داده کاوی در پیچیدگی محاسباتی , نمایان هستند. در سناریو های داده ای بزرگ , به طول انجامیدن فرایند داده کاوی برای ساعت ها و یا حتی روز ها به منظور تکمیل , پدیده ی نادری نیست. از این رو , داده کاوی بزرگ اغلب نیازمند منابع محاسباتی عظیم است. بسیاری از کسب و کار ها و سازمان ها از عهده ی هزینه های زیر ساختی داخلی برای داده کاوی بزرگ , بخصوص کسب کار های با اندازه ی کوچک و متوسط , بر نمی آیند. محاسبات ابری راه حلی کاملی برای این سازمان ها و کسب و کار ها به حساب می آید. مدل ” pay-as-you-go ” که به و سیله ی محاسبات ابری رواج یافته است , دسترسی منعطف و مورد تقاضا برای منابع محاسباتی غیر محدود مجازی را فراهم می کند. این امر اجازه ی اجرای داده کاوی بزرگ را تنها با استفاده از منابع محاسباتی ضروری برای مدت زمان لازم می دهد. در حقیقت , بسیاری از کسب و کار ها و سازمان ها در حال حاضر , دارای داده های ذخیره شده در ابر هستند.
برای چنین کسب و کار ها و سازمان هایی , انجام داده کاوی در ابر , یک انتخاب طبیعی است. هر چند , هزینه ی پولی استفاده از منابع منابع محاسباتی در ابر ( با عنوان هزینه ی محاسبات به آن اشاره شده است) در صورتی که به صورت مناسبی مدیریت نشوند , برای داده کاوی بزرگ , به صورت غیر منتظره ای بالا خواهد بود.
برای مثال , اجرای ماشین مجازی ( VM) 100 m4-xlarge Amazon EC2 , هر روزه هزینه ای در حدود $583,00 را در پی دارد. بنابراین , هزینه ی بهره وری ( هزینه ی مقرون به صرفه ) در ابر , تبدیل به مانعی عمده برای کاربرد های وسیع داده کاوی بزرگ شده است. در این زمینه , مسئله ی حیاتی به منظور تجزیه و تحلیل هزینه ی بهره وری داده کاوی بزرگ در ابر , چگونگی دستیابی به یک نتیجه ی رضایت بخش کافی در حداقل هزینه ی محاسباتی ممکن است. در بسیاری از سناریو های داده کاوی , دستیابی به نتیجه ی مطلوب , همانند دقت 100% ضروری نیست. برای مثال , در رابطه با بازاریابی می توان گفت که داده کاوی معمولا بر روی تعداد زیادی از مشتریان اجرا می شود. حاشیه ی معقولی از بی دقتی قابل قبول است. برای مثال , بازاریابان نیاز ندارند تا مشتریانشان در دسته بندی دقت 100% قرار گیرند. تا زمانی که آنان بتوانند تصویری عمومی را بدست آورند , قادر به تصمیم گیری خواهند بود. در حقیقت , در برخی از سناریو های داده کاوی , آنان دارای دقت 100% نخواهند بود. برای مثال , در پیش بینی آ ب و هوا و پیش بینی ترافیک , این قضیه صادق است.
دست یابی به هزینه ی بهره وری با استفاده از متوقف ساختن فرایند داده کاوی امکان پذیر است, چرا که اغلب دست یابی به یک دقت کافی همانند 99% یا 99.9% , در هزینه های پایین همانند 10% یا 20% نسبت به هزینه ی دستیابی به دقت , 100% از ارجحیت بالاتری برخوردار است.
هزینه ی بهره وری داده کاوی , به تحلیل داده های بزرگ اجازه کمک کرده و اجازه می دهد تا رنجی وسیعی از زمینه ها , به وسیله ی کسب و کار ها و سازمان ها, به ویژه سازمان هایی با اندازه ی کوچک و متوسط تحت پوشش این امر قرار گیرند. هر چند که این مورد به خوبی توسط جامعه ی پژوهشی کشف نشده است. در این مقاله , ما به مطالعه ی k-means , یکی از 10 الگوریتم داده کاوی برتر , به کشف و نمایش هزینه ی بهره وری داده کاوی در ابر می پردازیم.
بخش های باقی مانده ی مقاله به شکل زیر سازماندهی شده اند.
بخش II به توضیح آثار مربوطه می پردازد , بخش III به معرفی روش شناسی اتخاذ شده در این مطالعه می پردازد. بخش IV به ارائه و تحلیل نتایج تجربی, بخش V بیشتر به توضیح یافته های این مطالعه , بخش VI به تحلیل و بررسی تهدید های اعتبار آزمایشات ما و بالاخره, بخش VII به نتیجه گیری این مقاله و به توضیح کار های آینده می پردازد.

II. آثار مرتبط
مدل pay – as – you – go که به وسیله ی محاسبات ابری معرفی و ترویج داده شده است و به صورت قابل توجهی مسیر زیرساخت IT را تغییر داده و مورد استفاده قرار می گیرد. از آن جایی که بسیاری از مزیت های عمده ی ارائه شده توسط محاسبات ابری , پیرامون قابلیت انعطاف این مدل هزینه ای به وجود آمده اند. بهره وری هزینه توجه بسیاری از محققان را به عنوان یک مسئله ی اصلی تحقیق در محاسبات ابری به خود جذب کرده است.
مطالعات بسیاری در رابطه با محاسبات بهره وری هزینه در ابر صورت گرفته است. Ostermann et al , تاثیر و هزینه ی بهره وری EC2 أمازون را با استفاده از micro – obenchmark و kernel ها مورد تجزیه و تحلیل قرار داد. دو مطالعه ی مشابه , که یکی از آن ها توسط Mehrotra et al به همراه بار های کاری NASA HPC انجام شده و دیگری به وسیله ی losub et al , به همراه بار های کاری Many – Task Computing ( MTC ) انجام شده , و هر دو تحقیق به چنین نتیجه ی مشترکی رسیدند که کارایی سرویس های ابری عمومی برای برنامه های HPC کافی نیست. همان طور که vendor های ابری در طی چند سال اخیر و سرویس های ابری خود را به صورت پیوسته بهبود بخشیده اند و مطالعات بسیاری پیرامون کارایی و همچنین بهره وری هزینه و سرویس های ابری عمومی انجام گرفته و نتایج رضایت بخشی به دست آمده است. Berriman et al , به مطالعه ی بهره وری هزینه ی برنامه های محاسباتی علمی در EC2 آمازون و از طریق انجام یک مقایسه بین EC2 أمازون و Cluster کارای Abe در مرکز ملی محاسبات ممتاز در ایالات متحده پرداخت. مطالعات وی نشان داد که ابر EC2 آمازون کارایی بهتری را ارائه کرده و مقدار پردازنده و برنامه های حافظه ی محدود نسبت به برنامه های Bound- ۱ / 0 بیشتر است.
Carlyle et al , مطالعه ی مشابهی را انجام داد که با استفاده از برنامه ی ” HPC ” community cluster دانشگاه پورودا , به مقایسه ی هزینه های محاسبات کارا در محیط های سنتی HPC و محیط های EC2 آمازون پرداخت. مطالعات وی نشان داد و زمانی که سازمان 3 شرط زیر را برآورده می سازد , یک کلاستر (خوشه ) -in house بهره وری هزینه می بالاتری را نشان خواهد داد

1) دارا بودن تقاضای کافی که به طور کامل از cluster بهره ببرد

2) دارا بودن بخش فناوری اطلاعات که قادر به حفظ زیر ساخت های IT باشد

3) دارا بودن تحقیقاتی فعال در زمینه ی سایبر به عنوان یک اولویت .

این محدودیت ها و در حقیقت به تثبیت قابلیت انعطاف و بهره وری هزینه می اجرای برنامه های – Computation intensive در ابر های تجاری کمک می کند. Deelman et al , مصالحه ی بین هزینه ی اجرای برنامه های e Computation – intensiv و برنامه های data – intensive و کارایی آن ها در ابر را انجام داد. یافته ی اصلی آنان بدین صورت بود که اجرای برنامه های Computation – intensive دارای بهره وری هزینه ی بالاتری نسبت به برنامه های data – intensive در ابر داراست. Gupta et al , به ارزیابی و بررسی کارایی برنامه های HPC | در ابر پرداخت. آزمایشات وی نشان داد که سرویس های ابری موجود نمی توانند جایگزین Super کامپیوتر هاثوند اما می توانند به صورت موثری مکمل آنان گردند. Wang et al , به ارائه ی یک چارچوب multi – tanent تصادفی برای بررسی زمان پاسخ سرویس های ابری به  عنوان یک اندازه ی تصادفی به همراه یک توزیع احتمالی عمومی پرداخت. Hwang et al , به امتحان کارایی سرویس های ابری آمازون به همراه 5 برنامه , با تمرکز بر روی مقایسه می بین استراتژی های scaling out و scaling up پرداخت. تحقیق موجود , رشد سریع محبوبیت اجرای برنامه های Computation – intensive در ابر را نشان داده و به ارائه ی تصویری کلی در رابطه با بهره وری هزینه ی داده کاوی بزرگ در ابر از طریق مقایسه بین محیط ابری و یک محبط کلاستر سنتی اقدام می کند. در این مطالعه , ما به موضوع بهره وری هزینه از دیدگاهی مهم و مختلف با هدف دستیابی به دقتی رضایتبخش در نسبت نسبتا کوچکی از هزینه ی کلی دستیابی به دقت %100 با متوقف ساختن فرایند داده کاوی در برخی از مراحل قبل از تکمیل خواهیم پرداخت.

II. مطالعه موردی

ما در مطالعه ی خود و به اندازه گیری هزینه ی محاسباتی وارد آمده در طی فرایند Clustering , تا زمان تکمیل آن می پردازیم. Vendor های ابری مختلف , مدل های هزینه ای مختلفی را به منظور نیاز های مختلف کاربران ارائه می دهند. برای مثال , امازون را در نظر بگیرید که 3 مدل هزینه ای EC2 را به شرح زیر ارائه می دهد:
. بر اساس تقاضا . این مدل به کاربران اجازه می دهد که هزینه را به صورت بساعتی و بدون هر گونه تعهد طولانی مدت یا پیشاپیش انجام دهند.
. حالت نقطه . این مدل به کاربران اجازه می دهد تا به پیشنهاد پیرامون منابع EC2 ذخیره شده بپردازند.
موارد رزرو شده : این مدل به کاربران اجازه می دهد تا هزینه ها را به همراه تعهدی طولانی مدت پرداخت نمایند (1 تا 3 سال ). مدل هزینه ای بر پایه ی تقاضا . یک مدل هزینه ای پایه و قابل انعطاف می باشد که از طریق Vendor های ابری مختلف که شامل میکروسافت , گوگل و غیره است , در دسترس قرار می گیرند.

بنابراین ما در این مدل ما از مدل هزینه ای مورد تقاضا به منظور اندازه گیری هزینه ی  حاسباتی وارد آمده را در طی فرایند k – means استفاده می کنیم. زمان محاسبه , مدت زمان به طول انجامیدن فرایند k – means را نشان می دهد که می تواند به آسانی مورد محاسبه قرار گیرد. هر چند و هزینه ی واحد بسته به منبع محاسباتی به کار برده شده به منظور اجرای الگوریتم , به صورت قابل توجهی متفاوت می باشد. برای مثال , آمازون EC2 را در نظر بگیرید. 6 دسته بندی عمده از نمونه های EC2 VM وجود دارد: لينوکس , SUSE Linux ) SLES , ( Red Hat Enterprice Linux ) RHEL | Enterprice Server ) , ویندوز ویندوز با استاندارد SQL , ویندوز با استاندارد SQL Web. در هر یک از این دسته بندی ها , انواع مختلفی از نمونه های EC2 VM در قیمت های واحد مختلف قابل دسترس است. تنها در دسته بندی لینوکس , EC2 VM 45 نمونه از 5 نوع وجود دارد : هدف کلی , محاسبه ی بهینه, دست یابی به نمونه های GPU , حافظه ی بهینه و ذخیره سازی بهینه می باشد. قیمت واحد این نمونه های EC2 VM از محدوده ی 0 . 0065$ تا 16 . 006 $ در هر ساعت می باشد. علاوه بر این , این قیمت ها در مراکز داده ای آمازون در 12 منطقه ی مختلف متعلق به آمازون در سراسر جهان متفاوت است. برای مثال , نمونه ی x1 . 32xarge EC2 VM , هزینه ی 19 . 341 $ را در هر ساعت , در منطقه ی سنگاپور را داراست اما هزینه ی یک ساعت این نمونه در منطقه ی ویرجینیای شمالی تنها 13 . 338 $ بر آورد می شود.
D. پروسه ی مطالعه ی موردی
پروسه ی مطالعه ی موردی ما شامل 7 مرحله می باشد
1. آماده سازی مجموعه داده و مجموعه ی داده به منظور پارتیشن بندی در آزمایشات , آماده می شوند.

2 پارتیشن مجموعه داده ها. مجموعه داده ها با استفاده از الگوریتم K – means متعلق به Lloyd که در بخش III . A به آن اشاره شد و به همراه K متفاوت در آزمایشاتی متفاوت و پارتیشن بندی می شوند. در طی پارتیشن بندی یک مجموعه داده و پارتیشن متوسط و زمان  محاسبات در هر تکرار الگوریتم ضبط می شود.

3 محاسبه ی دقت . برای هر دسته از آزمایشات , شباهت بین پارتیشن های متوسط و پارتیشن نهایی با استفاده از فرمول (2) در بخش I | I . B| به منظور به دست آوردن دقت پارتیشن های متوسط , محاسبه می شود. 4. مقایسه ی زمان دقیق. برای هر دسته از آزمایشات , دقت پارتیشن های متوسط حاصل از الگوریتم در هر فعل و انفعال , برخلاف زمان محاسباتی که به وسیله ی الگوریتم و توسط انتهای هر فعل و انفعال مبتنی بر مدل نقاضای توضیح داده شده در بخش

III . C , نشان داده شده است.
. تهدید اعتبار
در این بخش و ما در رابطه با تهدیدات اصلی اعتبار مطالعه ی موردی خود بحث می کنیم . تهدید نسبت به اعتبار ساخت. تهدید اصلی نسبت به اعتبار ساخت مطالعه ی موردی ما , یک روش اندازه گیری پذیرفته شده به منظور ارزیابی دقت یک پارتیشن متوسط در طی فرایند K – means , همانند شاخص Rand می باشد. همان طور که در بخش III . B ارائه شد , محاسبه ی شاخص Rand بر اساس پارتیشن نهایی انجام می پذیرد. بنابراین , این شاخص یک شاخص خارجی به حساب می آید. در بسیاری از سناریو های داده کاوی دنیای واقعی , بخصوص در سناریو های داده کاوی بدون نظارت , آن دسته از شاخص های داخلی که بر دانش پیشین از مجموعه داده ها و همانند پارتیشن نهایی تکیه نکرده اند و مورد پذیرش قرار گرفته اند. معیار های ( اندازه های ) داخلی مشهور شامل شاخص C alinski – Harabasz ) CH ) , شاخص Dvies Bouldin ) DB ) , شاخص Silhouette , شاخص Dunn و غیره می باشد. این شاخص های داخلی ممکن است که دامنه های مختلفی از شاخص Rand را دارا باشند.

جدید ترین ها

جدید ترین محصولات ما

محصولات بیشتر
ترجمه مقاله A review of natural polysaccharides for drug delivery applications Special focus on cellulose starch and glycogen ( ترجمه مقاله : مروری بر پلی ساکاریدهای طبیعی برای کاربردهای دارویی: تمرکز ویژه سلولز ، نشاسته و گلیکوژن )

ترجمه مقاله A review of natural polysaccharides for drug delivery applications Special focus on...

10000 تومان

ترجمه مقاله An Analytical Investigation on the Charge Distribution and Gate Control in the Normally Off GaN Double Channel MOS HEMT ( ترجمه مقاله : یک بررسی کامل در مورد توزیع بار و کنترل دریچه در MOS HEMT دارای دو کانال GaN به طور معمول خاموش )

ترجمه مقاله An Analytical Investigation on the Charge Distribution and Gate Control in the...

10000 تومان

ترجمه مقاله Differential Permittivity Sensor Using Microstrip Terminated Cross Shaped Resonator Structure for Material Characterization  ( ترجمه مقاله : سنسور مجاز دیفرانسیل  با استفاده از ساختار تشدید کننده متقاطع خط میکرواستریپ خاتمه یافته برای خصوصیات مواد )

ترجمه مقاله Differential Permittivity Sensor Using Microstrip Terminated Cross Shaped Resonator Structure for Material...

10000 تومان

ترجمه مقاله Review of Analog To Digital Conversion Characteristics and Design Considerations for the Creation of Power Efficient Hybrid Data Converters ( ترجمه مقاله: بررسی خصوصیات تبدیل آنالوگ به دیجیتال و ملاحظات طراحی برای ایجاد مبدلهای داده هیبریدی با قدرت کارآمد )

ترجمه مقاله Review of Analog To Digital Conversion Characteristics and Design Considerations for the...

10000 تومان

ترجمه مقاله Soil and its types ( ترجمه مقاله : خاک شناسی و انواع آن )

ترجمه مقاله Soil and its types ( ترجمه مقاله : خاک شناسی و انواع...

10000 تومان

ترجمه مقاله THE CARBON CYCLE ISOTOPES AND CLIMATE (ترجمه مقاله : چرخه کربن ، ایزوتوپ ها و آب و هوا )

ترجمه مقاله THE CARBON CYCLE ISOTOPES AND CLIMATE (ترجمه مقاله : چرخه کربن ،...

10000 تومان

ترجمه مقاله Eficiency thresholds and cost structure in senegal airports ( ترجمه مقاله : آستانه های کارآیی و ساختار هزینه در فرودگاه های سنگال )

ترجمه مقاله Eficiency thresholds and cost structure in senegal airports ( ترجمه مقاله :...

10000 تومان

تر جمه مقاله  Fair Markets Revisited ( ترجمه مقاله : بازپرداخت بازارهای عادلانه )

تر جمه مقاله Fair Markets Revisited ( ترجمه مقاله : بازپرداخت بازارهای عادلانه )

10000 تومان

error: شما فقط اجازه مطالعه دارید
قیمت می خواهید؟ ما ارزانترین قیمت را ارائه می کنیم. کافیست فایل خود را یا از طریق منوی خدمات و سرویس ها => سفارش ترجمه ارسال کنید یا برای ما به آدرس research.moghimi@gmail.com ایمیل کنید یا در تلگرام و واتس آپ با شماره تلفن 09191732587 ارتباط بگیرید و ارزانترین قیمت ترجمه را از ما بخواهید
+