دانلود رایگان ترجمه مقاله Cost-effective Big Data Mining in the Cloud: A Case Study with K-means

ترجمه مقاله با عنوان  داده کاوی بزرگ مقرون به صرفه در زمینه ابر: یک مطالعه موردی با K-means

پشتیبانی : دارد. در صورت هر گونه بروز مشکل با شماره تلفن 09367938018 (مقیمی) یا آی دی تلگرام research_moghimi@ تماس حاصل فرمایید.

ار اینجا مقاله اصلی را دانلود کنید

ترجمه مقاله :

چکیده :

کاوش داده ی بزرگ , اغلب نیازمند منابع محاسباتی فوق العاده می باشد. این امر به یک مانع عمده در رابطه با استفاده ی وسیع از تجزیه و تحليل داده های بزرگ تبدیل شده است. محاسبات ابری به محققانی که در زمینه ی داده فعالیت می کنند و اجازه ی دسترسی به منابع محاسباتی و بر اساس تقاضای ساخت راه حل های تحلیلی داده ای بزرگ در ابر را می دهد. هر چند , هزینه ی پولی کاوش داده ی بزرگ در ابر , هنوز هم می تواند بر خلاف انتظار مان , بالا باشد. برای مثال , اجرای مثال های  m4 – xlarge Amazon EC2 100 به مدت یک ماه هزینه ای در حدود $ 17 , 495 , 00 را به دنبال دارد. در این زمینه , مسئله ی حیاتی به منظور تجزیه و تحلیل هزینه ی بهره وری هزینه ی مقرون به صرفه ) داده کاوی بزرگ در ابر , چگونگی دستیابی به یک نتیجه ی رضایت بخش کافی با حداقل هزینه ی محاسباتی ممکن است. در سناریو های داده کاوی بزرگ حقیقی , دقت %100 غیر ضروری است. در عوض , اغلب , دستیابی به یک دقت کافی برای مثال %99 , یا هزینه ی کمتر مانند %10 نسبت به هزینه ی دستیابی با دقت %100 , ترجیح داده می شود. در این مقاله , ما به کشف و نمایش داده کاوی بزرگ مقرون به صرفه به همراه یک مطالعه ی موردی و با استفاده از K – means اقدام می کنیم. با استفاده از مطالعه ی موردی , در می یابیم که دست یابی به دقت %99 تنها نیاز به هزینه ی محاسبتی % 46 . 17 -% 0 . 32 مربوط به دقت %100 دارد. این یافته , سنگ بنای لازم را برای  داده کاوی مقرون به صرفه در انواع دامنه ها قرار می دهد.

کلمات کلیدی : محاسبات ابری ؛ داده کاوی ؛ مقرون به صرفه ; داده بزرگ ; K- means

I . مقدمه 
دوران داده های بزرگ آغاز شده است. امروزه , نود درصد از داده ها در طی دو سال اخیر تولید شده و 2.5 کوانتیلین از داده های جدید هر روزه تولید می شوند. برای مثال , هر ماهه در حدود 6 میلیارد عکس جدید به وسیله ی فیسبوک گزارش شده و در هر دقیقه 72 ساعت ویدئو به یوتیوب آپلود می شود. این رشد انفجاری داده , داده کاوی بزرگ را در رنج وسیعی از زمینه ها همانند تجارت , حکومت , مراقبت های بهداشتی و غیره فعال ساخته است.
بسیاری از الگوریتم های داده کاوی در پیچیدگی محاسباتی , نمایان هستند. در سناریو های داده ای بزرگ , به طول انجامیدن فرایند داده کاوی برای ساعت ها و یا حتی روز ها به منظور تکمیل , پدیده ی نادری نیست. از این رو , داده کاوی بزرگ اغلب نیازمند منابع محاسباتی عظیم است. بسیاری از کسب و کار ها و سازمان ها از عهده ی هزینه های زیر ساختی داخلی برای داده کاوی بزرگ , بخصوص کسب کار های با اندازه ی کوچک و متوسط , بر نمی آیند. محاسبات ابری راه حلی کاملی برای این سازمان ها و کسب و کار ها به حساب می آید. مدل ” pay-as-you-go ” که به و سیله ی محاسبات ابری رواج یافته است , دسترسی منعطف و مورد تقاضا برای منابع محاسباتی غیر محدود مجازی را فراهم می کند. این امر اجازه ی اجرای داده کاوی بزرگ را تنها با استفاده از منابع محاسباتی ضروری برای مدت زمان لازم می دهد. در حقیقت , بسیاری از کسب و کار ها و سازمان ها در حال حاضر , دارای داده های ذخیره شده در ابر هستند.
برای چنین کسب و کار ها و سازمان هایی , انجام داده کاوی در ابر , یک انتخاب طبیعی است. هر چند , هزینه ی پولی استفاده از منابع منابع محاسباتی در ابر ( با عنوان هزینه ی محاسبات به آن اشاره شده است) در صورتی که به صورت مناسبی مدیریت نشوند , برای داده کاوی بزرگ , به صورت غیر منتظره ای بالا خواهد بود.
برای مثال , اجرای ماشین مجازی ( VM) 100 m4-xlarge Amazon EC2 , هر روزه هزینه ای در حدود $583,00 را در پی دارد. بنابراین , هزینه ی بهره وری ( هزینه ی مقرون به صرفه ) در ابر , تبدیل به مانعی عمده برای کاربرد های وسیع داده کاوی بزرگ شده است. در این زمینه , مسئله ی حیاتی به منظور تجزیه و تحلیل هزینه ی بهره وری داده کاوی بزرگ در ابر , چگونگی دستیابی به یک نتیجه ی رضایت بخش کافی در حداقل هزینه ی محاسباتی ممکن است. در بسیاری از سناریو های داده کاوی , دستیابی به نتیجه ی مطلوب , همانند دقت 100% ضروری نیست. برای مثال , در رابطه با بازاریابی می توان گفت که داده کاوی معمولا بر روی تعداد زیادی از مشتریان اجرا می شود. حاشیه ی معقولی از بی دقتی قابل قبول است. برای مثال , بازاریابان نیاز ندارند تا مشتریانشان در دسته بندی دقت 100% قرار گیرند. تا زمانی که آنان بتوانند تصویری عمومی را بدست آورند , قادر به تصمیم گیری خواهند بود. در حقیقت , در برخی از سناریو های داده کاوی , آنان دارای دقت 100% نخواهند بود. برای مثال , در پیش بینی آ ب و هوا و پیش بینی ترافیک , این قضیه صادق است.
دست یابی به هزینه ی بهره وری با استفاده از متوقف ساختن فرایند داده کاوی امکان پذیر است, چرا که اغلب دست یابی به یک دقت کافی همانند 99% یا 99.9% , در هزینه های پایین همانند 10% یا 20% نسبت به هزینه ی دستیابی به دقت , 100% از ارجحیت بالاتری برخوردار است.
هزینه ی بهره وری داده کاوی , به تحلیل داده های بزرگ اجازه کمک کرده و اجازه می دهد تا رنجی وسیعی از زمینه ها , به وسیله ی کسب و کار ها و سازمان ها, به ویژه سازمان هایی با اندازه ی کوچک و متوسط تحت پوشش این امر قرار گیرند. هر چند که این مورد به خوبی توسط جامعه ی پژوهشی کشف نشده است. در این مقاله , ما به مطالعه ی k-means , یکی از 10 الگوریتم داده کاوی برتر , به کشف و نمایش هزینه ی بهره وری داده کاوی در ابر می پردازیم.
بخش های باقی مانده ی مقاله به شکل زیر سازماندهی شده اند.
بخش II به توضیح آثار مربوطه می پردازد , بخش III به معرفی روش شناسی اتخاذ شده در این مطالعه می پردازد. بخش IV به ارائه و تحلیل نتایج تجربی, بخش V بیشتر به توضیح یافته های این مطالعه , بخش VI به تحلیل و بررسی تهدید های اعتبار آزمایشات ما و بالاخره, بخش VII به نتیجه گیری این مقاله و به توضیح کار های آینده می پردازد.

II. آثار مرتبط
مدل pay – as – you – go که به وسیله ی محاسبات ابری معرفی و ترویج داده شده است و به صورت قابل توجهی مسیر زیرساخت IT را تغییر داده و مورد استفاده قرار می گیرد. از آن جایی که بسیاری از مزیت های عمده ی ارائه شده توسط محاسبات ابری , پیرامون قابلیت انعطاف این مدل هزینه ای به وجود آمده اند. بهره وری هزینه توجه بسیاری از محققان را به عنوان یک مسئله ی اصلی تحقیق در محاسبات ابری به خود جذب کرده است.
مطالعات بسیاری در رابطه با محاسبات بهره وری هزینه در ابر صورت گرفته است. Ostermann et al , تاثیر و هزینه ی بهره وری EC2 أمازون را با استفاده از micro – obenchmark و kernel ها مورد تجزیه و تحلیل قرار داد. دو مطالعه ی مشابه , که یکی از آن ها توسط Mehrotra et al به همراه بار های کاری NASA HPC انجام شده و دیگری به وسیله ی losub et al , به همراه بار های کاری Many – Task Computing ( MTC ) انجام شده , و هر دو تحقیق به چنین نتیجه ی مشترکی رسیدند که کارایی سرویس های ابری عمومی برای برنامه های HPC کافی نیست. همان طور که vendor های ابری در طی چند سال اخیر و سرویس های ابری خود را به صورت پیوسته بهبود بخشیده اند و مطالعات بسیاری پیرامون کارایی و همچنین بهره وری هزینه و سرویس های ابری عمومی انجام گرفته و نتایج رضایت بخشی به دست آمده است. Berriman et al , به مطالعه ی بهره وری هزینه ی برنامه های محاسباتی علمی در EC2 آمازون و از طریق انجام یک مقایسه بین EC2 أمازون و Cluster کارای Abe در مرکز ملی محاسبات ممتاز در ایالات متحده پرداخت. مطالعات وی نشان داد که ابر EC2 آمازون کارایی بهتری را ارائه کرده و مقدار پردازنده و برنامه های حافظه ی محدود نسبت به برنامه های Bound- ۱ / 0 بیشتر است.
Carlyle et al , مطالعه ی مشابهی را انجام داد که با استفاده از برنامه ی ” HPC ” community cluster دانشگاه پورودا , به مقایسه ی هزینه های محاسبات کارا در محیط های سنتی HPC و محیط های EC2 آمازون پرداخت. مطالعات وی نشان داد و زمانی که سازمان 3 شرط زیر را برآورده می سازد , یک کلاستر (خوشه ) -in house بهره وری هزینه می بالاتری را نشان خواهد داد

1) دارا بودن تقاضای کافی که به طور کامل از cluster بهره ببرد

2) دارا بودن بخش فناوری اطلاعات که قادر به حفظ زیر ساخت های IT باشد

3) دارا بودن تحقیقاتی فعال در زمینه ی سایبر به عنوان یک اولویت .

این محدودیت ها و در حقیقت به تثبیت قابلیت انعطاف و بهره وری هزینه می اجرای برنامه های – Computation intensive در ابر های تجاری کمک می کند. Deelman et al , مصالحه ی بین هزینه ی اجرای برنامه های e Computation – intensiv و برنامه های data – intensive و کارایی آن ها در ابر را انجام داد. یافته ی اصلی آنان بدین صورت بود که اجرای برنامه های Computation – intensive دارای بهره وری هزینه ی بالاتری نسبت به برنامه های data – intensive در ابر داراست. Gupta et al , به ارزیابی و بررسی کارایی برنامه های HPC | در ابر پرداخت. آزمایشات وی نشان داد که سرویس های ابری موجود نمی توانند جایگزین Super کامپیوتر هاثوند اما می توانند به صورت موثری مکمل آنان گردند. Wang et al , به ارائه ی یک چارچوب multi – tanent تصادفی برای بررسی زمان پاسخ سرویس های ابری به  عنوان یک اندازه ی تصادفی به همراه یک توزیع احتمالی عمومی پرداخت. Hwang et al , به امتحان کارایی سرویس های ابری آمازون به همراه 5 برنامه , با تمرکز بر روی مقایسه می بین استراتژی های scaling out و scaling up پرداخت. تحقیق موجود , رشد سریع محبوبیت اجرای برنامه های Computation – intensive در ابر را نشان داده و به ارائه ی تصویری کلی در رابطه با بهره وری هزینه ی داده کاوی بزرگ در ابر از طریق مقایسه بین محیط ابری و یک محبط کلاستر سنتی اقدام می کند. در این مطالعه , ما به موضوع بهره وری هزینه از دیدگاهی مهم و مختلف با هدف دستیابی به دقتی رضایتبخش در نسبت نسبتا کوچکی از هزینه ی کلی دستیابی به دقت %100 با متوقف ساختن فرایند داده کاوی در برخی از مراحل قبل از تکمیل خواهیم پرداخت.

II. مطالعه موردی

ما در مطالعه ی خود و به اندازه گیری هزینه ی محاسباتی وارد آمده در طی فرایند Clustering , تا زمان تکمیل آن می پردازیم. Vendor های ابری مختلف , مدل های هزینه ای مختلفی را به منظور نیاز های مختلف کاربران ارائه می دهند. برای مثال , امازون را در نظر بگیرید که 3 مدل هزینه ای EC2 را به شرح زیر ارائه می دهد:
. بر اساس تقاضا . این مدل به کاربران اجازه می دهد که هزینه را به صورت بساعتی و بدون هر گونه تعهد طولانی مدت یا پیشاپیش انجام دهند.
. حالت نقطه . این مدل به کاربران اجازه می دهد تا به پیشنهاد پیرامون منابع EC2 ذخیره شده بپردازند.
موارد رزرو شده : این مدل به کاربران اجازه می دهد تا هزینه ها را به همراه تعهدی طولانی مدت پرداخت نمایند (1 تا 3 سال ). مدل هزینه ای بر پایه ی تقاضا . یک مدل هزینه ای پایه و قابل انعطاف می باشد که از طریق Vendor های ابری مختلف که شامل میکروسافت , گوگل و غیره است , در دسترس قرار می گیرند.

بنابراین ما در این مدل ما از مدل هزینه ای مورد تقاضا به منظور اندازه گیری هزینه ی  حاسباتی وارد آمده را در طی فرایند k – means استفاده می کنیم. زمان محاسبه , مدت زمان به طول انجامیدن فرایند k – means را نشان می دهد که می تواند به آسانی مورد محاسبه قرار گیرد. هر چند و هزینه ی واحد بسته به منبع محاسباتی به کار برده شده به منظور اجرای الگوریتم , به صورت قابل توجهی متفاوت می باشد. برای مثال , آمازون EC2 را در نظر بگیرید. 6 دسته بندی عمده از نمونه های EC2 VM وجود دارد: لينوکس , SUSE Linux ) SLES , ( Red Hat Enterprice Linux ) RHEL | Enterprice Server ) , ویندوز ویندوز با استاندارد SQL , ویندوز با استاندارد SQL Web. در هر یک از این دسته بندی ها , انواع مختلفی از نمونه های EC2 VM در قیمت های واحد مختلف قابل دسترس است. تنها در دسته بندی لینوکس , EC2 VM 45 نمونه از 5 نوع وجود دارد : هدف کلی , محاسبه ی بهینه, دست یابی به نمونه های GPU , حافظه ی بهینه و ذخیره سازی بهینه می باشد. قیمت واحد این نمونه های EC2 VM از محدوده ی 0 . 0065$ تا 16 . 006 $ در هر ساعت می باشد. علاوه بر این , این قیمت ها در مراکز داده ای آمازون در 12 منطقه ی مختلف متعلق به آمازون در سراسر جهان متفاوت است. برای مثال , نمونه ی x1 . 32xarge EC2 VM , هزینه ی 19 . 341 $ را در هر ساعت , در منطقه ی سنگاپور را داراست اما هزینه ی یک ساعت این نمونه در منطقه ی ویرجینیای شمالی تنها 13 . 338 $ بر آورد می شود.
D. پروسه ی مطالعه ی موردی
پروسه ی مطالعه ی موردی ما شامل 7 مرحله می باشد
1. آماده سازی مجموعه داده و مجموعه ی داده به منظور پارتیشن بندی در آزمایشات , آماده می شوند.

2 پارتیشن مجموعه داده ها. مجموعه داده ها با استفاده از الگوریتم K – means متعلق به Lloyd که در بخش III . A به آن اشاره شد و به همراه K متفاوت در آزمایشاتی متفاوت و پارتیشن بندی می شوند. در طی پارتیشن بندی یک مجموعه داده و پارتیشن متوسط و زمان  محاسبات در هر تکرار الگوریتم ضبط می شود.

3 محاسبه ی دقت . برای هر دسته از آزمایشات , شباهت بین پارتیشن های متوسط و پارتیشن نهایی با استفاده از فرمول (2) در بخش I | I . B| به منظور به دست آوردن دقت پارتیشن های متوسط , محاسبه می شود. 4. مقایسه ی زمان دقیق. برای هر دسته از آزمایشات , دقت پارتیشن های متوسط حاصل از الگوریتم در هر فعل و انفعال , برخلاف زمان محاسباتی که به وسیله ی الگوریتم و توسط انتهای هر فعل و انفعال مبتنی بر مدل نقاضای توضیح داده شده در بخش

III . C , نشان داده شده است.
. تهدید اعتبار
در این بخش و ما در رابطه با تهدیدات اصلی اعتبار مطالعه ی موردی خود بحث می کنیم . تهدید نسبت به اعتبار ساخت. تهدید اصلی نسبت به اعتبار ساخت مطالعه ی موردی ما , یک روش اندازه گیری پذیرفته شده به منظور ارزیابی دقت یک پارتیشن متوسط در طی فرایند K – means , همانند شاخص Rand می باشد. همان طور که در بخش III . B ارائه شد , محاسبه ی شاخص Rand بر اساس پارتیشن نهایی انجام می پذیرد. بنابراین , این شاخص یک شاخص خارجی به حساب می آید. در بسیاری از سناریو های داده کاوی دنیای واقعی , بخصوص در سناریو های داده کاوی بدون نظارت , آن دسته از شاخص های داخلی که بر دانش پیشین از مجموعه داده ها و همانند پارتیشن نهایی تکیه نکرده اند و مورد پذیرش قرار گرفته اند. معیار های ( اندازه های ) داخلی مشهور شامل شاخص C alinski – Harabasz ) CH ) , شاخص Dvies Bouldin ) DB ) , شاخص Silhouette , شاخص Dunn و غیره می باشد. این شاخص های داخلی ممکن است که دامنه های مختلفی از شاخص Rand را دارا باشند.

جدید ترین ها

جدید ترین محصولات ما

محصولات بیشتر
ne) ترجمه مقاله Impact of News on the Trend of Stock Price Change: an Analysis based on the Deep LSTM Mode(تأثیر اخبار بر روند تغییر قیمت سهام: براساس مدل LSTM دو طرفه عمیق)

ne) ترجمه مقاله Impact of News on the Trend of Stock Price Change: an...

35000 تومان

ne) ترجمه مقالهThe impact of business and political news on the GCC stock markets(تأثیر اخبار تجاری و سیاسی در بورس سهام GCC)

ne) ترجمه مقالهThe impact of business and political news on the GCC stock markets(تأثیر...

35000 تومان

ne) ترجمه مقالهSOCIAL MEDIA, NEWS MEDIA AND THE STOCK MARKET(رسانه های اجتماعی ، اخبار رسانه ای و بازار سهام)

ne) ترجمه مقالهSOCIAL MEDIA, NEWS MEDIA AND THE STOCK MARKET(رسانه های اجتماعی ، اخبار...

35000 تومان

ne) ترجمه مقالهPredicting stock returns in the presence of COVID-19 pandemic: The role of health news(پیش بینی بازده سهام در حضور بیماری همه گیر COVID-19: نقش اخبار سلامت)

ne) ترجمه مقالهPredicting stock returns in the presence of COVID-19 pandemic: The role of...

35000 تومان

ne) ترجمه مقالهNews Sentiment And States of Stock Return Volatility: Evidence from Long Memory and Discrete Choice Models(احساس اخبار و وضعیت نوسانات بازگشت سهام: شواهدی از مدل های حافظه طولانی و گسسته)

ne) ترجمه مقالهNews Sentiment And States of Stock Return Volatility: Evidence from Long Memory...

35000 تومان

ne) ترجمه مقالهIncorporating stock prices and news sentiments for stock market prediction: A case of Hong Kong(درج قیمت های سهام و احساسات خبری برای پیش بینی بازار سهام: یک مورد از هنگ کنگ)

ne) ترجمه مقالهIncorporating stock prices and news sentiments for stock market prediction: A case...

35000 تومان

ne) ترجمه مقالهTrauma exposure relates to heightened stress, altered amygdala morphology and deficient extinction learning: implications for psychopathology(لمواجهه با صدمات ناشی از استرس , تغییر مورفولوژی بادامه و یادگیری در حال انقراض : مفاهیم مربوط به آسیب‌شناسی روانی)

ne) ترجمه مقالهTrauma exposure relates to heightened stress, altered amygdala morphology and deficient extinction...

35000 تومان

ne) ترجمه مقالهPrompting reflection and learning in career construction counseling(تفکر و یادگیری در مشاوره ساخت حرفه‌ای)

ne) ترجمه مقالهPrompting reflection and learning in career construction counseling(تفکر و یادگیری در مشاوره...

35000 تومان

error: شما فقط اجازه مطالعه دارید
قیمت می خواهید؟ ما ارزانترین قیمت را ارائه می کنیم. کافیست فایل خود را یا از طریق منوی خدمات و سرویس ها => سفارش ترجمه ارسال کنید یا برای ما به آدرس research.moghimi@gmail.com ایمیل کنید یا در تلگرام و واتس آپ با شماره تلفن 09191732587 ارتباط بگیرید و ارزانترین قیمت ترجمه را از ما بخواهید
+