مقادیر مفقود شده در داده کاوی

مقادیر مفقود شده  در داده کاوی

آکادمی داده

۱۳۹۷/۰۳/۲۸


  • 137 بازدید

حتی در برنامه های کاربردی واقعی با مقدار بسیار زیاد داده ها، می توان نمونه هایی را یافت که مقدار برای صفات خاصه آن ها وجود ندارد. اگر تکنیک ها از الگوریتم قدرتمندی استفاده کنند، شاید عدم وجود مقدار در نتیجه نهایی فرآیند بی تاثیر یا حداقل کم اثر باشند. اما تکنیک های داده کاوی کم و بیش به این موضوع حساس هستند. 

ساده ترین راه حل برای این مشکل صرف نظر از نمونه هایی است که برخی صفات خاصه آن ها دارای مقدار زیاد نیست. این در صورتی امکان پذیراست که داده ها به اندازه کافی وجود داشته باشند و نمونه های ناقص کسر کوچکی از داده ها را تشکیل دهند.  در مواردی که تعداد عضو های دامنه یک متغیر کم یا تعداد داده های ناقص کم باشند، می توان به صورت دستی نمونه های ناقص را کامل کرد. همانطور که مشخص است، این راهکار برای پایگاه داده بسیار بزرگ  زمان گیر است و از همه مهمتر تعیین مقدار برای داده های ناقص حتی به صورت دستی مشکل بزرگی است. استفاده از هر مقداری برای تکمیل داده های ناقص ممکن است در تحلیل نهایی موثر باشد.  اما به هر حال شما مجبور هستید یا از این داده‌ها صرف نظر کنید،  یا مقداری را برای آنها در نظر بگیرید.  در بسیاری از کاربردها یک یا چند مقدار پیش فرض برای چنین صفات خاصه ای در نظر می گیرند. اما این روش همیشه مناسب یا امکان پذیر نیست.  بدون شک مشخص کردن مقدار برای داده، باعث سوگیری الگوریتم‌های داده‌کاوی خواهد شد.
 راهکار مناسب دیگر اجرا و مقایسه نتایج چندین روش متفاوت است. برای مثال می‌توان ابتدا از داده های ناقص صرف نظر نموده و نتیجه  داده کاوی را مشاهده و پس از آن با جایگزین نمودن یک مقدار دوباره نتیجه حاصل را مشاهده و تحلیل کنیم. توجه کنید در تحلیل نهایی  داده ها لزومی به ارائه فقط یک نتیجه نیست.

آموزش گام به گام داده کاوی با رپید ماینر، اسماعیلی

اگر به پژوهش در حوزه داده کاوی علاقه مند هستید توصیه می شود حتما مجموعه بی نظیر پانصد مقاله فارسی در زمینه داده کاوی  و مجموعه های مشابه آن  و مقالات مرتبط با کاربرد داده کاوی در پیش بینی بیماری را تهیه بفرمایید.

اگر در زمینه متن کاوی در حال تحقیق یا پیاده سازی پروژه یا پایان نامه هستید برای گرفتن مشاوره یا دادن سفارش انجام با ما تماس بگیرید.  آکادمی داده در تلگرام (https://t.me/dataacademyحضور دارد برای ارتباط از طریق ایمیل آدرس جیمیل: dataacademyir@gmail.com می باشد.  

افتخار آکادمی داده، همسفر بودن با شما در راه یادگیری علم داده است.