آماده سازی داده: مقادیر از دست رفته

آماده سازی داده: مقادیر از دست رفته

آکادمی داده

۱۳۹۷/۰۳/۲۸


  • 141 بازدید

به مجموعه عملیاتی که منجر به تولید مجموعه ای از داده های پالایش شده قابل کاوش خواهد شد، اصطلاحا آماده سازی داده گفته می شود. این عملیات از مراحل مختلفی تشکیل می شود که در این قسمت یکی از مراحل مورد اشاره قرار می گیرد. 

به دلایلی ممکن است بعضی از مقادیر مربوط به برخی ویژگی ها Nullباشند. به اینگونه مقادیر، مقادیر از دست رفته می گوییم. دلایل به وجود آمدن این مقادیر متفاوت است. گاهی اوقات اطلاعات به درستی جمع آوری نمی‌شوند .مثلا بعضی افراد از گفتن سن و وزن خود اجتناب می ورزند، که در این صورت مقدار این ویژگی برای این افراد Null ذخیره خواهد شد.

بعضی از ویژگی ها ممکن است برای همه رکوردها قابل استفاده نباشند. مثلا درآمد سالانه برای کودکان قابل محاسبه نیست. در این مواقع نه می توان رکوردهای مربوط به کودکان و نه ویژگی درآمد سالانه را حذف نمود. بنابراین مجبور خواهیم بود که مقدار ویژگی درآمد سالانه را برای رکوردهایی که متعلق به کودکان است Null در نظر بگیریم. چهار روش برای مدیریت مقادیر از دست رفته وجود دارند که عبارتند از :
- حذف کردن : در این روش رکوردهایی که حداقل یکی از ویژگی های آنها Null است حذف می شوند. استفاده از این روش در مواقعی مناسب است که تعداد رکوردهای با مقادیر Null در مقایسه با کل رکوردها کم باشد و یا رکوردهای مشابه با رکوردی که می خواهیم حذف کنیم وجود داشته باشند. این روش شایع ترین روش برخورد با مشکل مقادیر از دست رفته است. 
- تخمین زدن : در این روش مقادیر Null با استفاده از روش های ابتکاری تخمین زده می شوند. این روش در مواقعی مناسب است که ویژگی ها با یکدیگر همبستگی داشته باشند و با مقادیر ویژگی مورد تخمین  از توزیع و نظم ویژه ای تبعیت کنند.
- نادیده گرفتن : در این روش در زمان تحلیل داده ها، آن دسته از ویژگی هایی که مقادیرشان  Null است را در نظر نمی گیریم. ولی از مقادیر بقیه ویژگی های غیر Null استفاده می کنیم. در مواقعی که انباره داده کوچک و تعداد ویژگی های Null هم زیاد باشد، از این روش استفاده می شود. همچنین اگر کاربرد مورد نظر خوشه بندی باشد بهتر است فاصله بین رکوردها بر اساس ویژگی هایی که در بخش اعظم داده معلوم هستند، محاسبه شده و سایر ویژگی ها نادیده گرفته شوند.
- جایگزین کردن : در این روش مقادیر Null با تمام مقادیر امکان پذیر جایگزین می شوند. ین ویزگی همیشه با شرط عدم محدودیت زمان و حافظه بهترین روش است. البته تعداد ویژگی هایی که مقادیرشان Null است و نیز تعداد مقادیر امکان پذیر برای آنها، در تصمیم گیری برای انتخاب این روش بسیار تاثیر گذار است. به عنوان مثال اگر فقط یک ویژگی مقادیر Null داشته باشد و آن هم فقط دو مقدار اختیار کند ( مانند ویژگی جنسیت ) آنگاه استفاده از این روش بسیر مناسب خواهد بود. اما چنانچه تعداد ویژگی های با مقادیر Null زیاد بوده و نیز هر کدام از مقادیر نیز حالت های گوناگونی داشته باشند و یا پیوسته باشند استفاده از این روش اصلا مناسب نخواهد بود. نکته آخر اینکه روش جایگزین کردن در مسائلی که دارای داده های گران بها بوده و تعداد رکوردهای آنها بسیار کم است، کاربرد فراوانی دارد.
داده های دو نسخه ای یا تکراری : رکوردهایی هستند که بار اطلاعاتی جدیدی ندارند و اطلاعات تکراری زیادی در آنها وجود دارد. به عنوان مثال اگر یک نفر چندین آدرس ایمیل داشته باشد و به ازای هر کدام از ایمیل هایش یک رکورد به انباره داده اضافه شود، رکوردهای تکراری ایجاد خواهند شد. در داده کاوی به دنبال این هستیم که رکوردهای تکراری را حذف نموده و رکوردهایی ایجاد کنیم که بار اطلاعاتی زیادی داشته باشند. در نتیجه رکوردهای تکراری باید حذف شوند. حذف رکوردهای تکراری می تواند اثرهای مثبت و منفی در ی داشته باشد. از این که مجموعه داده کوچک شده و مشکل تکراری بودن داده ها از بین می رود اثر این کار مثبت است. اما اثر منفی حذف رکوردهای تکراری از این جهت است که امکان دارد سبب از بین رفتن برخی از نظم های موجود میان داده ها شود.

داده کاوی کاربردی، صنیعی آباده

کپی برداری بدون ذکر منبع، براساس قانون جرایم اینترتی و مادۀ 12 فصل سوم قانون جرایم رایانه ای غیر قانونی بوده و مجازات جزای نقدی و حبس دارد و شرعا نیز حرام است! 

اگر در زمینه داده کاوی در حال تحقیق یا پیاده سازی پروژه تجاری یا پایان نامه هستید برای گرفتن مشاوره یا دادن سفارش انجام با ما تماس بگیرید.  آکادمی داده در تلگرام، واتزآپ و تمامی پیام رسان های ایرانی(سروش، آی گپ، بله و ویسپی) با شماره 09120637751 حضور دارد برای ارتباط از طریق ایمیل آدرس جیمیل: dataacademyir@gmail.com می باشد. 

افتخار آکادمی داده، همسفر بودن با شما در راه یادگیری علم داده است.