خانه / آموزش / مه داده ها / معرفی / تعریف بزرگ داده ها (مه داده ها)

تعریف بزرگ داده ها (مه داده ها)

به نام خدا. سلام. هدف ما از ذخیره‌سازی داده‌ها نظم‌دادن به دانش‌ خودمان است. پیداکردن الگوهای مشابه در میان این مجموعه‌ی داده‌ها ، ‌می‌تواند قدرت پیش‌بینی ما را افزایش دهد. هرچه این داده‌ها بیشتر باشند و ارتباط آن‌ها دقیق‌تر باشد، یافتن این الگوها آسان‌تر خواهد شد. از طرفی دیگر در دنیای کنونی و با افزایش جمعیت، پیشرفت دانش، گسترده‌شدن وسایل ارتباطی و علاقه‌ به ارتباطات جدیدتر و پیچیده‌تر، باعث شده است که حجم، تنوع، گستردگی و سرعت داده‌هایی که در حال ذخیره‌ی آن‌ها هستیم به شدت افزایش یابد. این مساله تحت عنوان مه داده ها یا بزرگ‌داده‌ها[۱] شناخته ‌می‌شود. مساله جدیدی که در سال‌های گذشته به این شکل به صورت عمومی مطرح نشده و با آن روبه‌رو نبوده‌ایم. البته الان که در سال ۲۰۱۶ (۱۳۹۴) به سر می بریم شاید پدیده ی بزرگ داده ها (مه داده ها) در کشور ما (ایران) پدیده ی جدید و نسبتا نویی باشد ولی این مساله سال هاست که در خارج از کشور به آن پرداخته شده و در حال حاضر راه حل های زیادی هم برای حل چالش های مرتبط با آن ارائه شده است که در پست های آینده به آن خواهیم پرداخت. در ادامه تعریف بزرگ داده ها از چند جنبه ی مختلف را بررسی خواهیم کرد.

تعریف بزرگ داده ها از دیدگاه موسسه ی گارتنر و دوگ لینی

برای بزرگ داده ها تعاریف مختلفی وجود دارد. یکی از تعاریف اولیه در این باره را آقای دوگ لینی یکی از تحلیل گران موسسه ی گارتنر در سال ۲۰۰۱ ارائه داد: «مجموعه داده هایی با حجم[۲]، تنوع[۳] و سرعت[۴] بالا که ذخیره سازی و پردازش آن ها نیازمند ابزارهای جدید و مقرون به صرفه است» (منبع). متن کامل این مقاله را از اینجا می توانید دریافت کنید.

مدل 3V برای مه داده ها (بزرگ داده ها)
مدل ۳V برای مه داده ها

تعریف بزرگ داده ها از دیدگاه شرکت IBM

چند سال بعد شرکت IBM یک بُعد دیگر به سه بعد نام برده شده در تعریف گارتنر تحت عنوان صحت[۵] اضافه کرد (برای مشاهده ی اینفوگرافیک تهیه شده توسط IBM کلیک کنید). در برخی موارد از معکوس صحت یعنی عدم قطعیت[۶] به جای صحت استفاده می شود. واضح است که هرچه صحت داده ها بیشتر باشد عدم قطعیت کمتر و هرچه صحت داده ها کمتر باشد عدم قطعیت  علاوه بر این چهار بعد، ابعاد دیگری هم به مرور زمان توسط افراد مختلف ارائه شد. بعد پنجم را ارزش[۷] نام گذاری کرده اند. دلیل استفاده از این بعد هم این است که معتقدند بزرگ داده ها تا وقتی که نتوانیم از آن ها بهره ای ببریم ارزشی ندارند و مفید نیستند. حتی برنارد مار از متخصصین شرکت IBM معتقد است تنها بعدِ «ارزش» است که در بین ۵ بعد معرفی شده اهمیت دارد(منبع).

سایر تعاریف و تعریف NIST از بزرگ داده ها

چندی بعد، ابعاد دیگری مانند اعتبار[۸] و قابل مشاهده بودن[۹] نیز به عنوان ویژگی های بزرگ داده ها معرفی شدند اما خیلی مورد توجه قرار نگرفتند. علاوه بر این موارد در یک مقاله ۱۲ تعریف مختلف درباره ی بزرگ داده ها ارائه داده شده است که متن کامل آن را می توانید از اینجا دانلود کنید. اما شاید ساده ترین و در عین حال جامع ترین تعریف ممکن برای مساله ی بزرگ داده ها این تعریف باشد که توسط سازمان استاندارد بین المللی ایالات متحده امریکا (NIST) ارائه شده است: «عدم توانایی ساختارهای سنتی برای ذخیره سازی و پردازش موثر مجموعه داده های جدید» (منبع). ویژگی مهمی که این تعریف دارد این است که توسط یک سازمان استاندارد معتبر یعنی NIST ارائه شده و از سایر تعاریف قابل استنادتر است. پس اگر یک گزارش علمی تهیه می کنید و یا می خواهید مقاله ای علمی بنویسید و یا در پایان نامه می خواهید از بزرگ داده ها نامی ببرید شاید بهتر باشد که به این تعریف ارجاع دهید. سایر اطلاعات منتشر شده توسط کارگروه عمومی بزرگ داده ها در سازمان استاندارد NIST را می توانید در این لینک ببینید. تعاریف موجود برای بزرگ داده ها به همین موارد خلاصه نمی شود. به عنوان مثال در این لینک نیز می توانید ۷ تعریف جدید برای بزرگ داده ها ارائه شده است را مشاهده فرمایید.

[۱] Big data
[۲] Volume
[۳] Variety
[۴] Velocity
[۵] Veracity
[۶] Uncertainty
[۷] Value
[۸] Validity
[۹] Visibility

درباره ی songho

دانشجوی دکتری کامپیوتر گرایش نرم افزار دانشگاه آزاد کرمانشاه و علاقمند به مباحث مرتبط با برنامه نویسی توزیع شده، بزرگ داده ها و علوم داده ها، داده کاوی و یادگیری ماشین هستم.

همچنین ببینید

مدل 4V شرکت IBM

مدل ۴V شرکت IBM برای توصیف مه داده ها

به نام خدا. سلام. در این پست در مورد تعریف big data از دیدگاه شرکت …

پاسخ دهید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

شما می‌توانید از این دستورات HTML استفاده کنید: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>