داده های پرت در داده کاوی

داده های پرت در داده کاوی

آکادمی داده

۱۳۹۷/۰۳/۱۹


  • 382 بازدید

اغلب در مجموعه بزرگی از داده ها نمونه هایی وجود دارد که رفتارشان با رفتار عمومی نمونه ها یکسان نیست. این رفتار یا کامل مختلف است و یا با دیگرنمونه‌ها می‌تواند دلایل متعددی مثل خطاهای ماشین یا خطاهای انسانی یا وجود انحرافی در یک متغیر اندازه گیری شده باشد.
 برخی از الگوریتم های داده کاوی تاثیر این داده های پرت را نادیده می گیرند و یا با کمک برخی از الگوریتم های مرحله آماده سازی داده ها آن را حذف میکنند. حذف این نمونه‌ها در صورت درست بودن آنها به طور حتم در نتیجه نهایی موثر است. به علاوه قابلیت تشخیص آن ها برای حذف نیز خود چالش دیگری است.
شاید بتوان به صورت خوش بینانه این طور بیان کرد که در اکثر برنامه های کاربردی این داده ها خیلی مفید نیستند و نتیجه خطاهایی هستند که در جمع آوری و یکپارچه سازی داده ها بوجود آمده اند ، اما همیشه این طور نیست. راه های مختلفی برای تشخیص این نمونه های پرت وجود دارند ، که در ادامه به بعضی از آنها اشاره می کنیم.
در فضای یک تا سه بعدی می توانیم از نمایش و مصورسازی داده ها برای تشخیص استفاده کنیم عدم وجود روش های مناسب تصویرسازی برای ابعادی بالاتر از سه از جمله محدودیت های این روش به شمار می رود .
یکی از بهترین راهکارها برای نمونه هایی در فضای یک بعدی استفاده از توابع آماری است.  محاسبه میانگین و انحراف استاندارد و تعریف تابعی ترکیبی از این دو مقدار برای سطح آستانه داده ها می توانند در تشخیص داده های پرت به ما کمک کند .  روش برای داده هایی که توزیع آنها شناخته شده باشند،   مناسب است.
 از میان روش های دیگر که محدودیت های استفاده از توابع آماری و پارامترها در آن کمتر باشد می توان به روشهای تشخیص مبتنی بر فاصله اشاره کرد.  همانطور که از نام روش مشخص است در این راهکار فاصله میان نمونه ها محاسبه می شود .پس از آن هر نمونه که از سایرین به اندازه کافی دور باشد یا به اندازه کافی دارای همسایه هایی با فاصله مشخص نباشد ، پرت تشخیص داده می شود.

آموزش گام به گام داده کاوی با رپید ماینر، اسماعیلی

اگر به پژوهش در حوزه داده کاوی علاقه مند هستید توصیه می شود حتما مجموعه بی نظیر پانصد مقاله فارسی در زمینه داده کاوی  و مجموعه های مشابه آن  و مقالات مرتبط با کاربرد داده کاوی در پیش بینی بیماری را تهیه بفرمایید.

اگر در زمینه متن کاوی در حال تحقیق یا پیاده سازی پروژه یا پایان نامه هستید برای گرفتن مشاوره یا دادن سفارش انجام با ما تماس بگیرید.  آکادمی داده در تلگرام (https://t.me/dataacademy) حضور دارد برای ارتباط از طریق ایمیل آدرس جیمیل: dataacademyir@gmail.com می باشد.  

افتخار آکادمی داده، همسفر بودن با شما در راه یادگیری علم داده است.