داده کاوی چیست؟

داده کاوی چیست؟

آکادمی داده

۱۳۹۶/۰۷/۱۳


  • 412 بازدید

تاریخچه داده کاوی به ده ها سال قبل باز می گردد. در سال های اولیه به دلیل توان محاسباتی پایین کامپیوترها استخراج دانش از داده سایت ها زمان می خواست برای مثال در اوایل دهه 1990 میلادی ایجاد یک مدل رگرسیون لجستیگ 27 ساعت زمان می خواست ولی با پیشرفت تکنولوژی به این مرحله رسیده ایم که این 27 ساعت در عرض چند دقیقه انجام می شود. پیشرفت سخت افزاری باعث شده است داده کاوی در زمان اندکی انجام شود ولی مراحل اصلی داده کاوی نسبت به آن سال ها تغییری نکرده است. همچنان برای یک داده کاوی باید مراحل پیش پردازش، استخراج ویژگی، ایجاد مدل و ارزیابی طی شود درواقع مراحل داده کاوی ثابت بوده است ولی قدرت محاسباتی و سرعت آن برای استخراج دانش بسیار رشد کرده است.

"داده کاوی به تکنیکی گفته می شود که ارتباط ناشناخته بین داده ها را کشف می کند"  این تعریف متعلق به شرکت اوراکل است .در تمام تعاریفی که برای داده کاوی ذکر شده حتما اشاره ای به کشف داده می شود .این حوزه سعی میکند مجموعه داده عظیمی را تحلیل کند و بر اساس آن الگو یا دانش پنهان در داده را کشف کند. به طور مثال در تمام منوهای مربوط به ورزش کلمات خاصی مثل سرمربی ، بازیکن و .... ذکر می شود .داده کاوی با استفاده از تحلیل مجموعه عظیمی از متون می تواند  الگوی استفاده شده در این خبرها را کشف کند . کسب این دانش هدف اصلی داده کاوی است به همین دلیل به  داده کاوی "کشف دانش داده" نیز می گویند . ادعا می شود که با استفاده از داده کاوی می توان به دانشی دست یافت که خود انسان قرن ها بعد این دانش را کسب خواهد کرد .  بنابرابن تمرکز اصلی داده کاوی بر روی کشف دانش پنهان داده است . یعنی پیدا کردن نظمهای پیچیده موجود در نهان داده های حجیم . تفاوت داده کاوی با سیستمهای ساده سوال جواب و پایگاه داده نیز در این است به دنبال پیدا کردن طلا در معدن و کشف روابط پیچیده بین داده هاست .  داده کاوی را می توان به فرایند کشف طلا از معدن تشبیه کرد . همانطور که میدانیم فرایند استخراج طلا از معدن حجم عظیمی از فلزاتی که از معادن استخراج می شوند دور ریخته می شوند و بعد از مراحل بسیار طلا از بین این فلزات استخراج می شود . در داده کاوی نیز چنین است ما برای استخراج دانش مورد نظر باید داده های نویز  بسیاری دور ریخته شود به صورت عادی 90% داده ها نویز و 10% داده قابل استفاده وجود دارد . کار داده کاوی نیز استخراج این 10% از 100% داده ها میباشد . 

اگر در حال پژوهش در حوزه داده کاوی هستید، سوالات و اشکالات خود را از طریق تلگرام با آکادمی داده در میان بگذارید. با عضو شدن در کانال تلگرام آکادمی داده از مقالات جدید و دیتاست های منتشر شده مطلع شوید.