جایگاه مجموعه داده(دیتاست) در داده کاوی

جایگاه مجموعه داده(دیتاست) در داده کاوی

آکادمی داده

۱۳۹۶/۱۲/۱۰


  • 526 بازدید

داده کاوی علم شناسایی الگو است. همان طور که از جمله مشخص است شناسایی الگوی داده ها. در این شرایط داده ها قلب داده کاوی را تشکیل می‌دهند. بدون وجود داده ها نمی‌توان اقدامی در جهت کشف دانش انجام داد. داده ها در دنیای علم به دیتاست یا مجموعه داده مشهورند. یک مجموعه داده از چندین رکورد با مشخصات مختلف تشکیل شده است که دارای مقادیر می‌باشد. به طور مثال مجموعه داده  ایریس یکی از مشهورترین مجموعه داده  ها در دنیای داده کاوی است. 
 مجموعه داده ایریس یکی از معتبرترین و معروفترین دیتاست های داده کاوی است تاریخچه این مجموعه داده به 70-80 سال قبل بر می گردد. در این دیتاست سه الگو نهفته است که مربوط به سه نوع گیاه می باشد. در این دیتاست سعی می شود با استفاده از قطر گیاه، طول، ضخامت و عرض آن نوع گیاه شناسایی شود. این دیتاست در آموزش داده کاوی و روش های و الگوریتم های آن بسیار به کار می رود. شایسته است کسانی که در داده کاوی تازه کار هستند از این دیتاست برای فهمیدن مفاهیم استفاده کنند.
با این مقدمه می توان نتیجه گرفت که هر روش داده کاوی نیاز به مجموعه داده دارد تا مدلی از آن استخراج شود این مدل ها با استفاده از روش ها و الگوریتم های داده کاوی اقدام به شناسایی الگوهای مختلف در مجموعه داده می کنند. در بسیاری از تحقیقات ایده اصلی کار در مجموعه داده جدید آن است. این موضوع در داده کاوی سلامت بیشتر مشاهده شده است. برای مثال برای پیش بینی نتایجا انتخابات ریاست جمهوری در ایران، باید داده های معتبر از شبکه های اجتماعی مختلف مانند تلگرام، توییتر، اینستاگرام و فیس بوک در اختیار تحلیل گران قرار داده شود. 
 از چالش‌های متخصصین داده کاوی پیدا کردن مجموعه داده مناسب است بسیاری از محققین داده کاوی از درد دسترس نبودن مجموعه داده های شکایت می‌کنند این موضوع در کشورمان ابعاد گسترده تری دارد. 
این موضوع می تواند دلایل مختلفی داشته باشد. به طور مثال بسیاری از تحقیقات انجام شده در کشورمان از داده سازی رنج می برند. در واقع اعداد نوشته شده در مقاله ساخته شده است و در واقعیت این نتایج و دقت ها حاصل نشده به همین دلیل نویسندگان مقالات از انتشار مجموعه داده  به دلیل اینکه ممکن است این موضوع افشا شود اجتناب می کنند. در موارد دیگر مجموعه داده  استفاده شده از طرف یک نهاد دولتی تامین می گردد که این اقدام با انوع و اقسام تعهد مبنی بر عدم انتشار مجموعه داده  همراه است و نویسندگان نمی توانند مجموعه داده  مورد نظر را منتشر کنند. 
در این بین وب سایتی به نام دیتاهارت دارای نماد اعتماد الکترونیکی سعی دارد این مشکل را رفع کند در این وب سایت مجموعه داده  مختلف بومی منتشر می شود. در معرفی این وب سایت می خوانیم:
"دیتاهارت وب‌سایتی است که سعی می‌کند نیاز محققین و پژوهشگران عزیز به مجموعه داده‌ها را تأمین کند. داده‌ها امروزه بخشی از زندگی روزمره ما هستند و روزانه صدها ، هزاران و میلیون‌ها داده توسط کاربران و سیستم‌ها تولید می‌شود. فضای مجازی به منبع عظیمی از داده‌های تبدیل‌شده است که این داده‌ها برای محققین حوزه داده‌کاوی به‌مثابه معدن طلا هستند. هر محقق داده‌کاوی نیاز به مجموعه داده برای شروع تحقیقات خود دارد. دیتاهارت سعی دارد در تأمین مجموعه داده‌های محققین و پژوهشگران سهم ناچیزی ایفا کند. در کشور ما به دلیل گستردگی محققین و پژوهشگران حوزه داده‌کاوی نیاز به یک وب‌سایت برای تهیه مجموعه دادهای متنوع و گسترده داده‌کاوی به‌شدت احساس می‌شد. در این وب سایت سعی خواهد مجموعه داده های مفید، سودمند و به روز برای محققین و پژوهش گران حوزه داده کاوی، متن کاوی، نظرکاوی(عقیده کاوی یا تحلیل احساسات) و حوزه های دیگر مانند شبکه های اجتماعی معرفی و عرضه گردد.
پژوهش گرانی که اقدام به تولید و پروسس مجموعه داده می نماید برای در دسترس قرار دادن این مجموعه داده ها می توانند آن ها را به دیتا هارت ارسال نمایند و هزینه آن ها را دریافت کنند. دیتاهارت با تیم متخصص و توانای خود سعی دارد در جبران این نقصان در فضای علمی کشور سهم ناچیزی ایفا کند."

کپی برداری بدون ذکر منبع، براساس قانون جرایم اینترتی و مادۀ 12 فصل سوم قانون جرایم رایانه ای غیر قانونی بوده و مجازات جزای نقدی و حبس دارد و شرعا نیز حرام است!