خانه / آموزش / مه داده ها / معرفی / مدل ۴V شرکت IBM برای توصیف مه داده ها

مدل ۴V شرکت IBM برای توصیف مه داده ها

به نام خدا. سلام. در این پست در مورد تعریف big data از دیدگاه شرکت IBM صحبت خواهیم کرد. همان طور که در این پست در مورد تعاریف مختلف بزرگ داده ها (یا معادل رسمی آن مه داده ها که حالاحالاها زمان می برد تا جا بیفتد) صحبت شد یکی از تعاریفی که برای بزرگ داده ها ارائه شده است تعریف شرکت IBM از بزرگ داده هاست. در این تعریف چهار ویژگی برای بزرگ داده ها در نظر گرفته شده است که سه تای آن ها از تعریف ۳V موسسه ی گارنتر گرفته شده و بعد چهارم را خود IBM اضافه کرده است. این بعد اضافه شده صحت نام دارد. گاهی اوقات نیز از معکوس آن یعنی عدم قطعیت استفاده می شود. این چهار بعد با هم مدل ۴V شرکت IBM را توصیف می کنند. اینفوگرافیک زیر این چهار بعد را به خوبی نشان می دهد (منبع). ۴V از اول نام این چهار بعد گرفته شده است. برای دیدن عکس در اندازه ی واقعی روی آن کلیک کنید.

مدل 4V شرکت IBM
مدل ۴V برای توصیف بزرگ داده ها

در ادامه در مورد هر یک از این ابعاد توضیح مختصری خواهیم داد.

بعد اول در مدل ۴V شرکت IBM: حجم داده ها

واضح است که اولین مولفه برای این که مجموعه داده های ما بتوانند برچسب «بزرگ» به خودشان بگیرند این است که حجم بالایی داشته باشند. وقتی می گوییم حجم بالا اولا منظورمان حجمی است که فراتر از مقیاس ذخیره سازی یک سیستم کامپیوتری باشد. مثلا مقیاس هایی در حد چند صد ترابایت، چند پتابایت و بالاتر. ثانیا بالا و پایین و بزرگ و کوچک مفاهیمی نسبی هستند. ممکن است یک حجم داده ای برای یک مجموعه از سیستم های کامپیوتری بزرگ به حساب بیاید در حالی که در مجموعه ای دیگر اینگونه نباشد. نکته ی مهم دیگر درباره ی حجم داده ها این است که داده های ما پیوسته در حال افزایش هستند و این رشد داده ها به صورت نمایی است. شکل زیر این روند رشد نمایی را به خوبی نشان می دهد.

بعد دوم در مدل ۴V شرکت IBM: تنوع داده ها

مجموعه های داده می توانند از منابع مختلف و به شکل های متفاوت باشند. دو نکته در جمله ی قبل وجود دارد. یک منابع داده ای متفاوت و انواع داده های متفاوت. شاید این سوال برای شما هم پیش آمده باشد که منابع تولیدکننده ی بزرگ داده ها واقعا چیستند؟ داده های تولید شده در شبکه های اجتماعی مثل توییتر، فیس بوک، گوگل پلاس، ویدئوهای موجود در سرتاسر وب مانند سایت یوتیوب، فایل های موسیقی، سایت ها و وبلاگ ها، تصاویر منتشر شده ی دیجیتالی مانند سایت ایستاگرام و … همگی می توانند از منابع داده ای به شما بیایند. شاید به این فکر کنید که خوب ما چه نقشی در تولید این داده ها داریم!؟ این ها که همه اش مربوط به شرکت های بزرگ دنیاست. پاسخ این است که اکثر داده هایی که در حال حاضر تولید می شود توسط کاربران عادی است. از این گذشته اگر به روند داده هایی که در ۱۰ سال گذشته تولید و ذخیره کرده اید نگاهی بیندازید و آن را با زمان حال مقایسه کنید متوجه خواهید شد که پدیده ی بزرگ داده ها برای شما هم در مقیاس کوچک رخ داده است. یک زمانی آقای بیل گیتس می گفت ۶۴KB حافظه برای کامپیوتر کافی است اما الان صحبت از ترابایت برای هاردِ سیستم های شخصی به میان آمده است.

از منابع تولید کننده ی داده که بگذریم به انواع متفاوت داده می رسیم. در دنیای کنونی داده ها دیگر ما با مجموعه داده های ساخت یافته که در پایگاه داده های رابطه ای جا می گیرند سر و کار نداریم بلکه انواع جدیدی از داده ها تحت عنوان داده های غیرساخت یافته نیز وجود دارند که در قالب پایگاه داده های رابطه ای نمی گنجند. شکل زیر بیان گر همین موضوع است.

داده های ساخت یافته و داده های غیرساخت یافته
داده های ساخت یافته و داده های غیرساخت یافته

به بیان ساده تر داده های ساخت یافته قاعده و قانونی دارند. مثلا نوع داده ی پول در یک پایگاه داده همیشه عدد است که حالا ممکن است تعدادی اعشار هم داشته باشد. یا مثلا نام همیشه از نوع رشته ای از کاراکترهاست. اما در طرف مقابل داده های غیرساخت یافته هیچ قاعده و قانونی ندارند. مثلا یک عکس، یک فایل صوتی، یک توییت در یک شبکه ی اجتماعی، یک صفحه ی وب و … که همگی می توانند در زمان های مختلف متفاوت باشند. هنر فناوری های مرتبط با بزرگ داده ها این است که این نوع داده ها را نیز بتوانند مدیریت کنند.

بعد سوم در مدل ۴V شرکت IBM: سرعت داده ها

به طور ساده این بعد از داده ها را می توان این گونه تعریف کرد: فراوانی داده های ورودی که باید پردازش شوند. هرچه سرعت ورود داده ها به سیستم پردازشگر سریع تر باشد قطعا سرعت پردازش نیز باید متناسب با آن افزایش یابد تا بتوان به صورت بلادرنگ داده ها را پردازش کرده و نتیجه ی مناسب را تولید کنیم. در حال حاضر گرایش به سمت بسترها و برنامه های بلادرنگ  بسیار زیاد شده است.

بعد چهارم در مدل ۴V شرکت IBM: صحت داده ها

این همان بعدی است که شرکت IBM به سه بعد پیشین بزرگ داده ها اضافه کرد تا به توصیف دقیق تری از بزرگ داده ها برسد. به طور ساده می توان گفت صحت داده ها در مورد کیفیت داده ها صحبت می کند. به بیان دیگر در مورد این قضیه صحبت می کند که داده های ما که حجیم، متنوع و دارای سرعت ورودی بالا و نیازمند پردازش سریع هستند، واقعا چقدر معرف و بیان گر واقعیت هستند و چقدر صحیح هستند. همان طور که در اینوگرافیک بالا مشاهده کردید داده های بی کیفیت سالانه ۳٫۱ تریلیون دلار به اقتصاد امریکا ضربه می زند. این آمار اهمیت این بعد از داده ها را نشان می دهد. واضح است که هرچه صحت داده ها کمتر باشد یا برعکس عدم قطعیت داده ها بیشتر باشد قابلیت اعتماد بر نتایجی که از تحلیل آن داده ها به دست می آید کمتر خواهد شد.

Related Posts
domo-infograghic
به نام خدا. سلام. دنیایی که در آن و در کمتر از سی سال پیش حجم یک فلاپی دیسک برای ذخیره تمام داده های یک کاربر کافی بود، دنیایی که ...
READ MORE
معادل فارسی Big data
به نام خدا. سلام. عنوان مطلب گویای آنچه قرار است در موردش صحبت کنیم، هست. به کار بردن معادل فارسی Big Data هم برای خودش تبدیل به معضلی شده است! ...
READ MORE
نگاهی سیاسی اقتصادی به مه داده ها
سلام. بدون مقدمه چند سوال مطرح می کنم: آیا بزرگ داده ها و توانایی تحلیل آن ها برای هر سازمان، شرکت، ارگان، نهاد و یا یک دولت یک قدرت محسوب ...
READ MORE
big-data-mistakes
به نام خدا. سلام. هر پدیده ی جدید و نوظهوری اگر به خوبی معرفی نشود و ویژگی های و مشخصات آن به درستی تبیین نشود در معرض تفسیرها و برداشت ...
READ MORE
چالش‌های مه‌داده‌ها
در مسائل مرتبط با داده‌های بزرگ (مه‌داده‌ها)، ‌اندازه‌ی داده‌ها یک مفهوم نسبی است و بستگی به نقطه‌ی آغاز تحلیل داده‌ها و نحوه‌ی جمع‌آوری آن‌ها دارد. در نظرسنجی انجام شده توسط ...
READ MORE
نگاهی به آمار در مِه داده ها
معادل فارسی Big Data چیست؟
نگاهی سیاسی-اقتصادی به مِه داده ها
۵ اشتباه در مورد مِه داده ها
چالش‌های مه‌داده‌ها

درباره ی songho

دانشجوی دکتری کامپیوتر گرایش نرم افزار دانشگاه آزاد کرمانشاه و علاقمند به مباحث مرتبط با برنامه نویسی توزیع شده، بزرگ داده ها و علوم داده ها، داده کاوی و یادگیری ماشین هستم.

همچنین ببینید

بزرگ داده ها

تعریف بزرگ داده ها (مه داده ها)

به نام خدا. سلام. هدف ما از ذخیره‌سازی داده‌ها نظم‌دادن به دانش‌ خودمان است. پیداکردن …

پاسخ دهید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

شما می‌توانید از این دستورات HTML استفاده کنید: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>