داده های پرت در داده کاوی

داده های پرت در داده کاوی

آکادمی داده

۱۳۹۷/۰۳/۱۹


  • 262 بازدید

اغلب در مجموعه بزرگی از داده ها نمونه هایی وجود دارد که رفتارشان با رفتار عمومی نمونه ها یکسان نیست. این رفتار یا کامل مختلف است و یا با دیگرنمونه‌ها می‌تواند دلایل متعددی مثل خطاهای ماشین یا خطاهای انسانی یا وجود انحرافی در یک متغیر اندازه گیری شده باشد.
 برخی از الگوریتم های داده کاوی تاثیر این داده های پرت را نادیده می گیرند و یا با کمک برخی از الگوریتم های مرحله آماده سازی داده ها آن را حذف میکنند. حذف این نمونه‌ها در صورت درست بودن آنها به طور حتم در نتیجه نهایی موثر است. به علاوه قابلیت تشخیص آن ها برای حذف نیز خود چالش دیگری است.
شاید بتوان به صورت خوش بینانه این طور بیان کرد که در اکثر برنامه های کاربردی این داده ها خیلی مفید نیستند و نتیجه خطاهایی هستند که در جمع آوری و یکپارچه سازی داده ها بوجود آمده اند ، اما همیشه این طور نیست. راه های مختلفی برای تشخیص این نمونه های پرت وجود دارند ، که در ادامه به بعضی از آنها اشاره می کنیم.
در فضای یک تا سه بعدی می توانیم از نمایش و مصورسازی داده ها برای تشخیص استفاده کنیم عدم وجود روش های مناسب تصویرسازی برای ابعادی بالاتر از سه از جمله محدودیت های این روش به شمار می رود .
یکی از بهترین راهکارها برای نمونه هایی در فضای یک بعدی استفاده از توابع آماری است.  محاسبه میانگین و انحراف استاندارد و تعریف تابعی ترکیبی از این دو مقدار برای سطح آستانه داده ها می توانند در تشخیص داده های پرت به ما کمک کند .  روش برای داده هایی که توزیع آنها شناخته شده باشند،   مناسب است.
 از میان روش های دیگر که محدودیت های استفاده از توابع آماری و پارامترها در آن کمتر باشد می توان به روشهای تشخیص مبتنی بر فاصله اشاره کرد.  همانطور که از نام روش مشخص است در این راهکار فاصله میان نمونه ها محاسبه می شود .پس از آن هر نمونه که از سایرین به اندازه کافی دور باشد یا به اندازه کافی دارای همسایه هایی با فاصله مشخص نباشد ، پرت تشخیص داده می شود.

آموزش گام به گام داده کاوی با رپید ماینر، اسماعیلی

کپی برداری بدون ذکر منبع، براساس قانون جرایم اینترتی و مادۀ 12 فصل سوم قانون جرایم رایانه ای غیر قانونی بوده و مجازات جزای نقدی و حبس دارد و شرعا نیز حرام است! 

اگر در زمینه داده کاوی در حال تحقیق یا پیاده سازی پروژه یا پایان نامه هستید برای گرفتن مشاوره یا دادن سفارش انجام با ما تماس بگیرید.  آکادمی داده در تلگرام، واتزآپ و تمامی پیام رسان های ایرانی(سروش، آی گپ، بله، گپ و ویسپی) با شماره 09120637751 حضور دارد برای ارتباط از طریق ایمیل آدرس جیمیل: dataacademyir@gmail.com می باشد. 

افتخار آکادمی داده، همسفر بودن با شما در راه یادگیری علم داده است.