انواع الگوریتم های نمونه برداری در پیش پردازش داده

انواع الگوریتم های نمونه برداری در پیش پردازش داده

آکادمی داده

۱۳۹۷/۰۳/۲۸


  • 171 بازدید

از بعد توزیع دسته ها انواع الگوریتم های نمونه برداری عبارت هستند از :
 نمونه برداری تصادفی ساده : در این روش به صورت تصادفی و بر اساس تعداد نمونه های موجود و بر اساس اندازه مجموعه داده نمونه، عملیات نمونه برداری انجام می شود. در این روش احتمال انتخاب هر رکورد برای مجموعه داده نمونه نهایی یکسان است.
 نمونه برداری متوازن : در این روش کل مجموعه داده قطعه بندی می شود و سعی خواهد شد تا توازن تعداد نمونه ها در قطعات مختلف پیش و پس از عملیات نمونه برداری حفظ شود. از این روش به ویژه در مسائل دسته بندی توزیع یا فراوانی دسته ها تفاوت چشمگیری با یکدیگر دارند استفاده می شود .به عنوان مثال فرض کنید که در یک شبکه کامپیوتری چهار نوع حمله رخ داده است و ما قصد داریم یک مدل دسته بندی با توجه به یک میلیون رکورد ثبت شده از ترافیک شبکه برای حملات مختلف بسازیم. فرض کنید که تعداد رکوردها برای حملات اول، دوم، سوم و چهارم به ترتیب برابر با 200000، 650000، 100000، 50000 رکورد باشد. چنانچه بخواهیم یک مجموعه داده نمونه با صد رکورد ایجاد کنیم، بهتر است از روش نمونه برداری متوازن استفاده شود تا در نهایت توزیع موجود میان دسته ها بر هم نخورد. در صورت استفاده از روش نمونه برداری متوازن، تعداد رکوردهای دسته های ذکر شده به ترتیب برابر خواهد بود با : 20، 65، 10 و 5 رکورد. چنان چه از روش نمونه برداری ساده برای تولید مجموعه داده نمونه استفاده کنیم شانس انتخاب رکوردهای مربوط به دسته چهارم بسیار کم خواهد بود و شاید این دسته هیچ نماینده‌ای در مجموعه داده نمونه تولید شده نداشته باشد.از بعد ملاحظات جایگذاری انواع الگوریتم های نمونه برداری عبارتند از :
 نمونه برداری بدون جایگذاری : در این روش رکوردی که برای مجموعه داده نمونه نهایی انتخاب می شود، از مجموعه داده اصلی حذف شده و احتمال انتخاب مجدد آن رکورد وجود نخواهد داشت. در این روش در مجموعه داده نمونه انتخاب شده، رکوردهای تکراری وجود ندارد. اگر نسبت تعداد کل رکورد ها به اندازه مجموعه داده نمونه عدد بزرگی باشد ( اندازه مجموعه داده نمونه کوچک باشد ) بهتر است از روش نمونه برداری بدون جایگذاری استفاده شود.
 نمونه برداری با جایگذاری : در این روش هنگامی که یک رکورد برای مجموعه داده نمونه  نهایی انتخاب شد، از مجموعه داده اصلی حذف نمی شود و احتمال انتخاب مجدد آن رکورد وجود دارد. در این روش در مجموعه داده نمونه انتخاب شده، رکوردهای تکراری وجود دارد. اگر نسبت تعداد کل رکورد ها به اندازه مجموعه داده  نمونه عدد کوچکی باشد (اندازه مجموعه داده نمونه بزرگ باشد ) بهتر است از روش نمونه برداری با جایگذاری استفاده شود.

در صورت عدم در نظر گفتن فاکتورهای زمان اجرا و حافظه مورد استفاده، از بین الگوریتم های نمونه برداری بدون جایگذاری و نمونه برداری با جایگذاری، همیشه نمونه برداری بدون جایگذاری بهتر است. اما پیچیدگی های زمانی و فضایی ( حافظه ای ) روش نمونه برداری با جایگذاری بسیار کمتر از روش نمونه برداری بدون جایگذاری است. زیرا در روش نمونه برداری بدون جایگذاری هر بار که یک رکورد انتخاب می شود، شماره سطر آن نگهداری خواهد شد تا دوباره در دورهای بعدی انتخاب نشود. حال هر چه قدر اندازه مجموعه داده نمونه بزرگتر باشد الگوریتم کند تر می شود. چرا که با هر بار انتخاب یک رکورد، باید رکورد جدید با شماره سطر رکورد های قبلی که در جایی ثبت شده اند مورد مقایسه قرار گیرد و به این ترتیب تضمینی وجود داشته باشد که رکوردهای تکراری انتخاب نشوند. این در حالی است که مشکلات مذکور در روش نمونه برداری با با جایگذاری وجود ندارند. همچنین اگر در مجموعه داده اصلی، داده های تکراری وجود داشته باشند استفاده از روش نمونه برداری با جایگذاری مناسب خواهد بود. اما اگر رکوردهای تکراری در مجموعه داده نداشته باشیم، یعنی اگر پس از خوشه بندی داده خوشه های بزرگتری حاصل شوند در این صورت استفاده از روش نمونه برداری با جایگذاری مناسب نخواهد بود.

داده کاوی کاربردی، صنیعی آباده

کپی برداری بدون ذکر منبع، براساس قانون جرایم اینترتی و مادۀ 12 فصل سوم قانون جرایم رایانه ای غیر قانونی بوده و مجازات جزای نقدی و حبس دارد و شرعا نیز حرام است! 

اگر در زمینه داده کاوی در حال تحقیق یا پیاده سازی پروژه تجاری یا پایان نامه هستید برای گرفتن مشاوره یا دادن سفارش انجام با ما تماس بگیرید.  آکادمی داده در تلگرام، واتزآپ و تمامی پیام رسان های ایرانی(سروش، آی گپ، بله و ویسپی) با شماره 09120637751 حضور دارد برای ارتباط از طریق ایمیل آدرس جیمیل: dataacademyir@gmail.com می باشد. 

افتخار آکادمی داده، همسفر بودن با شما در راه یادگیری علم داده است.