خانه / آموزش / داده کاوی چیست؟

داده کاوی چیست؟

به نام خدا. سلام دوستان گرامی. در این پست که ان شاءالله به نوعی شروعی از مجموعه پست های سایت بیگ ماین در مورد داده کاوی خواهد بود در مورد تعریف دقیق داده کاوی، محورهای داده کاوی، دلیل نیاز به داده کاوی، نمونه هایی از استفاده از داده کاوی و عوامل موثر بر رشد داده کاوی مطالبی ارائه خواهیم کرد. با ما در ادامه ی مطلب همراه باشید.

داده کاوی چیست ؟

قطعا اولین سوال برای کسانی که قصد آشنایی با یک دنیای جدید را دارند دانستن چیستی آن دنیای جدید است. این قضیه در مورد دنیای کاوش داده هم صدق می کند. اگر بتوانیم به درستی تعریف داده کاوی را درک کنیم به خوبی خواهیم دانست که داده کاوی چه چیزی هست و چه چیزی نیست. چه کار می تواند برای ما انجام دهد و چه کار نمی تواند انجام بدهد. چه انتظاراتی باید از داده کاوی داشته باشیم و چه انتظاراتی نباید داشته باشیم. بر اساس تعریف موسسه ی گارتنر داده کاوی عبارت است از :

Data mining is the process of discovering meaningful new correlations, patterns and trends by sifting through large amounts of data stored in repositories, using pattern recognition technologies as well as statistical and mathematical techniques.

پس داده کاوی یعنی فرآیند کشف همبستگی ها، الگوها و روندهای جدید با غربال کردن حجم زیادی از داده های ذخیره شده در مخازن، با وسیله ی تکنولوژی های تشخیص الگو و همچنین تکنیک های آماری و ریاضی.

به کلماتی که در متن انگلیسی به صورت برجسته آورده شده خوب دقت کنید. داده کاوی یک فرآیند است (Process) نه یک محصول (Product). به عبارت دیگر یک سرویس است که می تواند به صورت خودکار یا نیمه خودکار انجام شود. پس این گونه نیست که ما فکر کنیم می توانیم داده کاوی را به عنوان یک محصول درنظر بگیریم. مثلا یک پکیج داده کاوی را به مشتری خودمان بدهیم و بگوییم این پکیج کار کاوش داده های شما را انجام می دهد! به هیچ وجه این گونه نیست و نمی تواند باشد.

کلمه ی برجسته شده ی بعدی «معنی دار» بودن اطلاعات و دانش کشف شده است. با توجه به رشد ابزارهای داده کاوی بسیار دیده می شود که مقالاتی با عنوان های عجیب و غریب نوشته می شود و اتفاقا مورد پذیرش هم قرار می گیرد! در واقع روند فعالیت علمی به درستی انجام شده چون یک سری ازمایش روی یک سری داده انجام شده و با استفاده از یک سری ابزار و تحلیل هایی نتایجی به دست آمده است. ولی آیا این نتایج معنی هم دارند؟! مثلا اگر نتیجه ی یک تحقیق این شد که : ۸۰ درصد مردمی که سرطان دارند همان هایی هستند که حیوان خانگی آن ها مسواک نمی زند! خوب پر واضح است که هرچند فرآیند طی شده برای به نتیجه رسیدن این تحقیق را شاید بتوان یک فرآیند علمی نامید ولی پر واضح است که هر چه هست داده کاوی نیست :) . اینجاست که لغت Data Monkey یا مقلدِ (تقلید کار) داده پدید می آید. در اصطلاح به کسی Data Monkey گفته می شود که بسیاری از زمان خود را صرف به دست آوردن نتایجی از داده های موجود می کند که این نتایج کاملا غیرمفید و بی فایده هستند.

مقلد داده
مقلد داده !

کلمات بعدی که در تعریف داده کاوی به آن ها برمی خوریم، «روابط یا همبستگی ها»، «الگوها» و «روندها» هستند. پس مشخص می شود که آنچه که قرار است از داده کاوی به دست ما برسد پیدا کردن ارتباط بین داده های موجود، کشف الگوهای خاصی که درون داده ها برقرار است و یا درک روندهای مهمی که با تحلیل داده های به دست می آید، است. پس در با انجام داده کاوی قرار نیست آپولو هوا کنیم:) . یک سری مجموعه ی داده در اختیار داریم که با انجام داده کاوی می توانیم از روی آن داده ها به اطلاعات خوبی برسیم و صد البته این اطلاعات می تواند به دانش تبدیل شده و در نهایت در تصمیم گیری های کلان به ما کمک کند.

داده کاوی فرآیند کشف همبستگی ها، الگوها و روندهاست
داده کاوی فرآیند کشف همبستگی ها، الگوها و روندهاست

کلمه ی مهم بعدی «حجم زیاد اطلاعات» است. شاید برای شما هم سوال پیش آمده باشد که زیاد یعنی چقدر زیاد ؟! پاسخ این است که اگر داده های ما به اندازه ای باشند که تحلیل آن ها از عهده ی کاربر انسانی خارج باشد در این صورت داده کاوی به فریاد ما خواهد رسید. پر واضح است که لغت زیاد نسبی است نه مطلق.

دو کلمه ی مهم و انتهایی تعریف داده کاوی نیز «تکنولوژی های تشخیص الگو» و «تکنیک های آماری» هستند. باز هم شاید برای شما سوالی پیش بیاید که مگر داده کاوی و یادگیری ماشین با بکدیگر تفاوت دارند؟! پاسخ قطعا مثبت است. یادگیری ماشین (که ان شاءالله در آینده مجموعه پست هایی هم در موردش خواهیم نوشت و اینجا فرصت پرداختن به تعریف علمی و دقیق یادگیری ماشین نیست) در مورد مطالعه، طراحی و توسعه ی الگوریتم هایی صحبت می کند که به کامپیوتر توانایی یادگیری می دهند بدون اینکه به طور صریح برای آن برنامه ای نوشته شده باشد. اما داده کاوی فرآیندی است که در طول انجام آن با هدف کشف دانش از مجموعه های داده ای خاص، از الگوریتم های یادگیری ماشین هم استفاده می کند. در پست های آتی این موضوع به طور کامل روشن خواهد شد.

چرا داده کاوی لازم است؟

خوب پس از تعریف داده کاوی باید به این سوال پاسخ دهیم که اساسا چه نیازی به داده کاوی است؟ هرچند پاسخ این سوال به نوعی در تعریف داده کاوی هم گنجانده شده ولی اگر بخواهیم به طور صریح بیان کنیم باید بگوییم که مشکل اینجاست که انسان های تحلیل گر آموزش دیده که مهارت تبدیل حجم عظیم داده ها به دانش را داشته باشند به اندازه ی کافی در دسترس نیستند پس باید بخشی از این فرآیند به طور خودکار انجام شود.

نکته ی قابل ذکر تعامل بین کاربر انسانی و نرم افزاری است که وظیفه ی تحلیل داده های ما را بر عهده دارد. وظیفه ی کاربر انسانی که تحت عنوان تحلیل گر از او یاد می شود در واقع کار کردن روی مراحل مختلف فرآیند داده کاوی است (در آینده که فرآیند CRISP DM شرح داده شود مشخص می شود) و نرم افزار مورد نظر صرفا کار تحلیل و آنالیز داده ها را بر عهده دارد.

کاربر انسانی در فرآیند داده کاوی دخالت دارد
کاربر انسانی در فرآیند داده کاوی دخالت دارد

هرچند بعضا در برخی تبلیغ های مربوط به داده کاوی دیده می شود که عنوان می شود همه چیز خودکار است! اما در واقع چنین نیست و در طول فرآیند داده کاوی کاربر انسانی یا تحلیل گر نقش بسیار موثری دارد. در غیر این صورت نتیجه می شود شبیه همان مثال سرطان و مسواک نزدن حیوان خانگی! به عبارت دیگر داده کاوی را خیلی راحت می شود «بد» انجام داد و دلیل این امر هم وجود نرم افزارهای آماده با رابط های گرافیکی کاربرپسند است که برای کاربر به صورت یک جعبه ی سربسته یا Black box هستند که کاربر هیچ چیز از پشت پرده ی کاری که در حال انجام است نمی داند! داده ها به این جعبه ی سربسته داده می شود و نتایج گرفته می شود و اگر فرضا در این بین، عملیات پیش پردازش داده ها انجام نشده باشد و یا مدل بر اساس فرضیات غلط پایه گذاری شده باشد، مشخص نیست اعتبار نتایجی که به دست می آید به چه میزان است.

برای درک بهتر مثال می زنم. یک دوربین عکاسی فوق پیشرفته را در نظر بگیرید. این دوربین عکاسی با تمام امکاناتش می تواند تنظیمات لازم برای گرفتن یک عکس خوب را به طور خودکار انجام دهد. این کار فرآیند عکاسی را برای متخصصان راحت تر و برای غیرمتخصصان در امکان پذیر می سازد. با این وجود این، تنها خودکارسازی بخشی از فرآیند عکاسی است چرا که انتخاب موضوع، زاویه دید، نور، انتخاب مکان و زمان مناسب و بسیاری جنبه های دیگر که برای گرفتن یک عکس خوب ضروری هستند کماکان توسط عکاس انجام می شود نه دوربین عکاسی.

تحلیل نادرست موجب زیان می شود
تحلیل نادرست موجب زیان می شود

اینجاست که نقش داده کاو برجسته می شود. در واقع داده کاو است که مانع رخداد تحلیل نادرست می شود. تحلیلی که می تواند در بععضی مواقع خطرات به مراتب بیشتری از عدم تحلیل داشته باشد! به طور مثال فرض کنید قبل از شروع انجام فرآیند داده کاوی در یک شرکت پلن یا طرح A برای تولید استفاده می شده که هرچند بهینه ترین طرح ممکن نبوده ولی فرضا میزان ۱۰۰ میلیون دلار سودآوری داشته است. اما بعد از انجام فرآیند داده کاوی ای که به درستی انجام نشده پلن یا طرح B برای تولید شرکت پیشنهاد می شود که بعد از مدتی از انجام آن شرکت متوجه می شود که میزان سودآوری آن ۷۰ میلیون دلار است! این وسط ۳۰ میلیون دلار به شرکت ضرر وارد می شود فقط و فقط به خاطر تحلیل نادرست و انجام فرآیند داده کاوی به شیوه ی نادرست. پس داده کاوی ابزاری است که تنها در صورت استفاده ی درست از آن می تواند مفید واقع شود و این تحلیل گران و داده کاوان برتر هستند که مانع ایجاد تحلیل های غلط می شوند.

عوامل موثر بر رشد داده کاوی

بعد از تعریف داده کاوی و توضیح در مورد چرایی نیاز به داده کاوی مختصری جالب است که در مورد علل گرایش های فراوان به داده کاوی در چند سال اخیر صحبت کنیم. قبل از هر چیز به شکل زیر با دقت نگاه کنید.

شغل های مورد نیاز در جهان
شغل های مورد نیاز در جهان در حوزه ی فناوری اطلاعات در سال ۲۰۱۵

این تصویر ۲۵ شغل حوزه ی فناوری اطلاعات که بیشترین تقاضا در سال ۲۰۱۵ برای آن ها بوده است را نشان می دهد. مبنای اطلاعات سایت لینکدین بوده و نکته ی جالب توجه جایگاه داده کاوی در این لیست است. جایگاه دوم! البته این جایگاه در سال سال ۲۰۱۴ اول بود که با یک رتبه تنزل در سال ۲۰۱۵ به رتبه ی دوم رسید هرچند هنوز هم در بسیاری از کشورها داده کاوی جایگاه اول را دارد و تصویر بالا آمار مربوط به کل جهان را نشان می دهد. اما چه عواملی باعث چنین تقاضایی شده است؟ به طور موردی می توان به عوامل زیر که تاثیر فراوانی در رشد قابل توجه داده کاوی داشته اند اشاره کرد:

۱) رشد انفجاری یا نمایی داده ها که در پست : «نگاهی به آمار در مبحث مه داده ها» در موردش مفصل صحبت کردیم.

۲) ذخیره ی داده ها در انبارهای داده (Data Warehouse).

۳) دسترسی بیشتر به داده ها در بستر وب.

۴) فشار رقابتی به شرکت ها در اقتصاد جهانی برای افزایش سهم بازار.

۵) وجود نرم افزارهای خوب برای داده کاوی.

۶) رشد قابل توجه در سخت افزار.

مجموعه ی این عوامل باعث شده تا داده کاوی اخیرا بسیار مورد توجه قرار بگیرد و یک مژده به دانشجویان و دانش آموختگان کامپیوتر و فناوری اطلاعات اینکه این موج به زودی به کشور ما نیز خواهد رسید. پس باید خودتان را برای آن آماده کنید. ما قصد داریم ان شاءالله در مورد مهارت های لازم برای تبدیل شدن به یک داده کاو برتر توضیحات مفصلی خدمت شما ارائه کنیم و به زودی نیز آموزش ها در این زمینه را تکمیل خواهیم کرد. پس با ما همراه باشید. 

درباره ی سید حمید ابوترابی

دانشجوی کارشناسی ارشد کامپیوتر گرایش نرم افزار دانشگاه صنعتی اصفهان و علاقمند به مباحث مرتبط با برنامه نویسی توزیع شده، بزرگ داده ها و علوم داده ها، داده کاوی و یادگیری ماشین هستم.

پاسخ دهید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

شما می‌توانید از این دستورات HTML استفاده کنید: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>