پیش پردازش داده: پاکسازی داده و نویز

پیش پردازش داده: پاکسازی داده و نویز

آکادمی داده

۱۳۹۷/۰۳/۲۸


  • 340 بازدید

به مجموعه عملیاتی که منجر به تولید مجموعه ای از داده های پالایش شده قابل کاوش خواهد شد، اصطلاحا آماده سازی داده گفته می شود. این عملیات از مراحل مختلفی تشکیل می شود که در این قسمت یکی از مراحل مورد اشاره قرار می گیرد. 

در این مرحله سلسله عملیاتی صورت می پذیرد که باعث برطرف شدن مشکلات مختلف داده مساله مورد بررسی، خواهد شد. به این ترتیب داده برای انجام فرایند یادگیری، مدل پالایش شده و آماده می شود. این عملیات عبارتند از : پاکسازی داده، انتخاب زیر مجموعه ویژگی، فیلترینگ نمونه ها، نمونه برداری، تبدیل داده، گسسته سازی، کاهش ابعاد، انبوهش داده و خلق ویژگی. اکنون به بررسی هر کدام از این عملیات می پردازیم.
پاکسازی داده
یکی از مشکلات شایع داده پایین بودن کیفیت آن است. به عملیاتی که به برطرف شدن مشکل کیفیت داده ها می انجامد، پاکسازی داده گفته می شود. ابتدا باید با انواع مشکلاتی که کیفیت داده را به مخاطره می اندازند آشنا شویم. سپس باید بدانیم چگونه این مشکلات را شناسایی نموده و در نهایت آنها را برطرف کنیم. مشکلاتی که کیفیت داده را به مخاطره می اندازند عبارتند از :  نویز، نمونه های پرت، مقادیر از دست رفته و داده های دو نسخه ای یا تکراری.
نویز 
به هرگونه تغییر در تخریب در مقادیر داده که به صورت غیر عمدی صورت پذیرد و به طور کلی به هر چیزی که باعث شود به اصل داده دسترسی نداشته باشیم Noise گفته می شود. در واقع Noiseیک مقدار اپسیلون است که با داده ی اصلی جمع و یا تفریق شود. به عنوان مثال، وجود برفک در تصویر تلویزیون، یا تغییر صدای انسان پشت خط تلفن نمونه هایی از Noise  هستند.