آماده سازی داده: نمونه های پرت

آماده سازی داده:  نمونه های پرت

آکادمی داده

۱۳۹۷/۰۳/۲۸


  • 118 بازدید

به مجموعه عملیاتی که منجر به تولید مجموعه ای از داده های پالایش شده قابل کاوش خواهد شد، اصطلاحا آماده سازی داده گفته می شود. این عملیات از مراحل مختلفی تشکیل می شود که در این قسمت یکی از مراحل مورد اشاره قرار می گیرد. 

این نمونه ها رکورد های هستند که مقادیر ویژگی های آنها نسبت به سایر رکورد ها بسیار متفاوت است. این تفاوت سبب می‌شود که در فضای چند بعدی ویژگی ها، محل قرار گرفتن نمونه های پرت نسبت به سایر رکوردها بسیار متفاوت باشد. امکان یافتن  نظم با حضور نمونه های پرت بسیار مشکل تر از زمانی است که داده ها دارای این نوع از داده نیستند.دلیل این امر آن است که رکورد های پرت در کنار سایر رکوردها هیچ گونه نظمی را نشان نمی‌دهند و همچنین سنخیتی با رکورد های دیگر ندارند. به همین دلیل باعث خواهند شد که الگوریتم یادگیری نتوانند مدل دقیقی را برای تبیین دانش نهفته در داده بیابد. اگر کلیه رکوردها را به صورت نقطه در فضای چند بعدی نمایش دهیم، رکوردهای پرت نسبت به داده های اصلی با فاصله بسیار زیادی قرار می گیرند. اگر مجموعه داده ها را خوشه بندی کنیم می توانیم تمام خوشه های تک عضو را رکورد پرت در نظر بگیریم. به طور معمول نقش رکوردهای پرت در داده‌های مورد کاوش نقشی منفی است، چون باعث منحرف شدن الگوریتم یادگیری می‌شوند. به عنوان مثال فرض کنید در سبدهای خرید مربوط به مشتریان، الگوریتم یک قانون به این صورت پیدا کرده باشد که « اگر کسی شیر و پنیر خرید آنگاه ماست می خرد ». حال اگر یک نفر اینگونه خرید کرده باشد،این قانون درست است ولی چون تنها یک رکورد از آن پشتیبانی می کند قانون با ارزشی نیست. اما باید توجه داشته باشیم که نمونه های پرت همیشه بد نیست. گاهی یافتن این نمونه ها، هدف اصلی الگوریتم یادگیری است. به عنوان مثال فرض کنید در یک شرکت بیمه یک مجموعه رکورد متعلق به افرادی باشد که ادعای خسارت کرده اند و شرکت به تمامی آنها مبلغ خسارت را پرداخت نموده است. حال شرکت می خواهد تشخیص دهد که کدام یک از این افراد کلاه بردار بوده اند. می توان مجموعه داده را خوشه بندی کرده از این طریق نمونه‌ای پرت را پیدا نمود.

به این صورت که تمام خوشه های تک عضو به عنوان یک داده پرت شناسایی می‌شوند.حال به جای اینکه کل مجموعه داده ها را پردازش نماییم، می توانیم فقط این نمونه ها را پردازش کرده و پرونده مربوط به این افراد را دقیق تر بررسی کنیم.از آنجا که این افراد به هیچ کدام از افراد دیگر شباهت ندارند بنابراین مشکوک به کلاه بردار هستند .در این مثال نمونه پرت نقش مثبت دارد زیرا به جای اینکه مثلا پرونده  صدهزار مشتری را پردازش نماییم پرونده ی پانزده نفر که نمونه پرت شناسایی شده اند را به صورت دقیق پردازش خواهیم کرد. 

داده کاوی کاربردی، صنیعی آباده

کپی برداری بدون ذکر منبع، براساس قانون جرایم اینترتی و مادۀ 12 فصل سوم قانون جرایم رایانه ای غیر قانونی بوده و مجازات جزای نقدی و حبس دارد و شرعا نیز حرام است! 

اگر در زمینه داده کاوی در حال تحقیق یا پیاده سازی پروژه تجاری یا پایان نامه هستید برای گرفتن مشاوره یا دادن سفارش انجام با ما تماس بگیرید.  آکادمی داده در تلگرام، واتزآپ و تمامی پیام رسان های ایرانی(سروش، آی گپ، بله و ویسپی) با شماره 09120637751 حضور دارد برای ارتباط از طریق ایمیل آدرس جیمیل: dataacademyir@gmail.com می باشد. 

افتخار آکادمی داده، همسفر بودن با شما در راه یادگیری علم داده است.