خانه / آموزش / مه داده ها / چالش‌های مه‌داده‌ها

چالش‌های مه‌داده‌ها

در مسائل مرتبط با داده‌های بزرگ (مه‌داده‌ها)، ‌اندازه‌ی داده‌ها یک مفهوم نسبی است و بستگی به نقطه‌ی آغاز تحلیل داده‌ها و نحوه‌ی جمع‌آوری آن‌ها دارد. در نظرسنجی انجام شده توسط تک‌تارگت[۱]، حدود ۲۳ درصد از شرکت‌ها و سازمان‌های بزرگ، تحلیل‌هایی با حجمی‌ بیش از ۱۰ ترابایترا مدیریت کرده و یک سوم آن‌ها، امکان استفاده‌ی همزمان بیش از صد کاربر را از این مجموعه‌ی داده‌ها فراهم ‌می‌کنند. اما نکته‌ی مهم در این زمینه آن است که موارد بسیاری در توسعه‌ی روزافزون داده‌های این چنینی و چالش‌های مرتبط موثر هستند. در این پست در مورد چالش‌های مه‌داده‌ها صحبت می‌کنیم.

یکی از مهم ترین این مسائل، رشد سریع تعداد کاربران و نیاز روزافزون به خدمات‌رسانی همزمان به همه‌ی آن‌ها، بدون وقفه و با کمترین هزینه‌ی ممکن است. یکی دیگر از مشکلات پیش رو در زمینه مواجهه با داده‌های کلان، انجام تحلیل‌های مختلف و پردازش‌های مربوطه است که خود، ‌می‌تواند حجم بسیار زیادی از داده‌های موقت را تولید کند که مدیریت این نوع داده‌ها و نگهداری مناسب آن‌ها برای بهینه‌کردن سرعت محاسبات پی‌درپی و بسیار سنگین تحلیلی، امری چالش برانگیز است. در بیشتر موارد، پردازش‌های امروزی از روشی به نام نگاشت-کاهش[۲] استفاده ‌می‌کنند که نخستین بار توسط شرکت گوگل معرفی شد و یک مدل برنامه‌نویسی برای تولید یا پردازش مجموعه‌های بزرگ‌داده ای به صورت خودکار و موازی روی کلاستری از تعداد زیادی از سرورهاست. ما در سایت بیگ ماین در آینده به صورت مفصل این مدل را توضیح خواهیم داد.

همچنین با توجه به تغییرات شگرف در بازار سخت‌افزار و تحولات رخ داده در زمینه‌ی فضاهای ذخیره‌سازی، توان پردازشی، حافظه‌ی اصلی سرورها و معرفی سرورهای ارزان قیمت، تمایل سرویس دهندگان به استفاده از آن‌ها در مراکز داده افزایش یافته است. با این حال تا چند سال گذشته که تنها راه‌حل‌های ذخیره‌سازی داده‌ها، پایگاه‌داده‌های رابطه‌ای بودند، سیستم‌های نرم‌افزاری و پایگاه‌داده‌های سنتی معماری مناسبی برای بهره برداری مناسب از مجموعه ای از ماشین‌ها را نداشته و محدودیت‌های ساختاری، آن‌ها را در مواجهه با ابعاد مختلف داده‌های بزرگ(حجم، سرعت، تنوع و صحت) ناتوان و ناکارآمد ساخته بود. بر این اساس، تنها چند سالی است که راه‌حل‌های مناسبی برای مدیریت و تحلیل این نوع داده‌ها تحت عنوان NoSql مطرح شده است. امروزه تعداد زیادی از آن‌ها به بلوغ نسبی رسیده و پتانسیل بسیاری برای استفاده و توسعه در محیط‌های کلان دارند.

به‌طور خلاصه ‌می‌توان چالش‌های مرتبط به مبحث بزرگ‌داده‌ها را در دو دسته خلاصه کرد. چالش‌های مربوط به ذخیره‌سازی و چالش‌های مربوط به پردازش. هرچند، هر کدام از این دو دسته خود شامل زیردسته‌هایی ‌می‌شوند. به‌طور مثال در مبحث پردازش داده‌ها، گاهی اوقات ما با داده‌هایی به صورت جریانی از داده‌ها[۳] روبه‌رو هستیم و تمایل داریم پردازش را هم به همان صورت روی داده‌ها انجام دهیم. یعنی داده‌ها در حین ورود به سیستم و سپس خروج از آن باید مورد پردازش قرار بگیرند. در برخی موارد چنین نیست و ما با پردازش داده‌های دسته‌ای[۴] مواجه هستیم. دسته‌های دیگری هم از انواع پردازش وجود دارد. هر کدام از این موارد نیازمند به کارگیری ابزار مناسب است.

در بحث ذخیره‌ی داده‌ها نیز چنین چالش‌هایی برای زیربخش‌های آن وجود دارد. این زیربخش‌ها را ‌می‌توان به سیستم ذخیره‌سازی داده، نوع داده، منبع داده و موارد مشابه تقسیم بندی کرد. گاهی اوقات با داده‌های کلانی روبه رو هستیم که هرچند حجم زیادی را اشغال ‌می‌کنند ولی به صورت ساخت یافته هستند. در این موارد با توجه به پیشرفت‌های خوبی که در زمینه‌ی پایگاه‌داده‌های رابطه‌ای در چندسال اخیر انجام شده است شاید ما نیازی به استفاده از پایگاه‌داده‌های NoSQl نداشته باشیم. به‌طور مثال ‌می‌توان به تکنولوژی‌ای که شرکت مایکروسافت اخیرا در پایگاه‌داده‌ی MS SQL Server 2014 تحت عنوان In-memory OLTP مورد استفاده قرار داد اشاره کرد. پایگاه‌داده‌ی MS SQL Server 2014 با استفاده از این تکنولوژی در کنار تکنولوژی پایگاه‌داده‌های مبتنی بر جداول ستونی قادر است تا به حجم عظیمی ‌از پرس‌وجوها روی حجم عظیمی ‌از داده‌های ذخیره شده در زمان بسیار کوتاهی پاسخ دهد. از طرف دیگر اگر داده‌های ما به صورت توزیع‌شده باشند و چندان ساخت‌یافته نباشند و حجم بسیاری را اشغال کنند، شاید استفاده از روش‌های سنتی پاسخگوی نیاز ما نباشد.

چالش‌های مه‌داده‌ها
چالش‌های مه‌داده‌ها

مطابق توضیحاتی که ارائه شد علی رغم گستردگی چالش‌های موجود ‌می‌توان آن‌ها را به دو دسته‌ی کلی تقسیم کرد. چالش‌های ذخیره‌سازی بزرگ‌داده‌ها و چالش‌های مربوط به پردازش بزرگ‌دادها. همان‌طور که ذکر شد برای هر کدام از این چالش‌ها و هر کدام از زیربخش‌های مربوط به آن‌ها راه‌حل‌هایی وجود دارد. یکی از این راه‌حل‌ها نظام هادوپ[۵] است. این نظام که ‌می‌توان آن را به صورت مولفه‌هایی مستقل و در عین حال در کنارهم و همکار دید، برای دو دسته‌ی اصلی چالش‌های نامبرده راه‌حلی دارد. راه‌حل هادوپ برای پردازش بزرگ‌داده‌ها، مدل برنامه‌نویسی نگاشت-کاهش و برای بحث ذخیره‌سازی داده‌ها استفاده از سیستم‌فایل مخصوص به خود در کنار استفاده از پایگاه‌داده‌های NoSql ای نظیر Hbase و کاساندرا [۶] ‌می‌باشد.

[۱] TechTarget

[۲] Map-Reduce

[۳] Stream

[۴] Batch

[۵] Hadoop Ecosystem

[۶] Cassandra

Related Posts
domo-infograghic
به نام خدا. سلام. دنیایی که در آن و در کمتر از سی سال پیش حجم یک فلاپی دیسک برای ذخیره تمام داده های یک کاربر کافی بود، دنیایی که ...
READ MORE
معادل فارسی Big data
به نام خدا. سلام. عنوان مطلب گویای آنچه قرار است در موردش صحبت کنیم، هست. به کار بردن معادل فارسی Big Data هم برای خودش تبدیل به معضلی شده است! ...
READ MORE
مدل 4V شرکت IBM
به نام خدا. سلام. در این پست در مورد تعریف big data از دیدگاه شرکت IBM صحبت خواهیم کرد. همان طور که در این پست در مورد تعاریف مختلف بزرگ ...
READ MORE
نگاهی سیاسی اقتصادی به مه داده ها
سلام. بدون مقدمه چند سوال مطرح می کنم: آیا بزرگ داده ها و توانایی تحلیل آن ها برای هر سازمان، شرکت، ارگان، نهاد و یا یک دولت یک قدرت محسوب ...
READ MORE
big-data-mistakes
به نام خدا. سلام. هر پدیده ی جدید و نوظهوری اگر به خوبی معرفی نشود و ویژگی های و مشخصات آن به درستی تبیین نشود در معرض تفسیرها و برداشت ...
READ MORE
نگاهی به آمار در مِه داده ها
معادل فارسی Big Data چیست؟
مدل ۴V شرکت IBM برای توصیف مه داده
نگاهی سیاسی-اقتصادی به مِه داده ها
۵ اشتباه در مورد مِه داده ها

درباره ی songho

دانشجوی دکتری کامپیوتر گرایش نرم افزار دانشگاه آزاد کرمانشاه و علاقمند به مباحث مرتبط با برنامه نویسی توزیع شده، بزرگ داده ها و علوم داده ها، داده کاوی و یادگیری ماشین هستم.

پاسخ دهید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

شما می‌توانید از این دستورات HTML استفاده کنید: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>