نمونه برداری در پیش پردازش داده در داده کاوی

نمونه برداری در پیش پردازش داده در داده کاوی

آکادمی داده

۱۳۹۷/۰۳/۲۸


  • 198 بازدید

 نمونه برداری یکی از روش های اصلی برای انتخاب داده ها است. در این روش از میان تمامی داده‌هایی که در مجموعه داده وجود دارند، با توجه به اندازه مجموعه داده نمونه تعدادی از داده ها انتخاب خواهند شد. هر چه اندازه مجموعه داده نمونه عدد بزرگتری باشد، الگوها و نظم های موجود بهتر شناسایی می شوند.از نمونه برداری هم برای انجام تحقیقات اولیه روی داده ها جهت به دست آوردن یک دید کلی از فضای مساله و همچنین در هنگام فرآیند یادگیری مدل می توان استفاده نمود.

آماردان ها نیز کارهای نمونه برداری انجام می دهند. اما دلیل نمونه برداری کسی که کار آماری انجام می دهد با دلیل نمونه برداری در علم داده کاوی کاملاً متفاوت است. در واقع دلیل نمونه برداری آماردان ها این است که دستیابی به کل مجموعه داده برای آنها زمان گیر خواهد بود. از این جهت آماردان ها از عملیات نمونه برداری استفاده می کنند. اما در داده کاوی کل مجموعه داده در همان ابتدای کار موجود بوده و در انباره داده ذخیره شده است.به دلیل اینکه پردازش کل داده های موجود در مجموعه داده برای الگوریتم های داده کاوی بسیار زمان گیر است، از نمونه برداری استفاده می شود. در واقع تمامی الگوریتم های داده کاوی از یک حلقه برای پویش کل مجموعه داده بهره می گیرند. حال اگر مجموعه داده بزرگی را به الگوریتم ارائه کنیم، الگوریتم هر بار که به این حلقه وارد میشود باید کل این مجموعه داده را مورد بررسی قرار دهند. بزرگ بودن مجموعه داده سبب خواهد شد تا اجرای کامل این حلقه کندتر شود و در نهایت کارایی الگوریتم به شدت کاهش یابد. کلید موفقیت عملیات نمونه برداری این است که اگر با زیر مجموعه حاصل شده از عملیات نمونه برداری به نتیجه ای رسیدیم، مشابه با حالتی باشد که به نظر برسد با تمام مجموعه داده به همان نتیجه رسیده باشیم. در واقع یک زیر مجموعه داده نمونه‌برداری شده باید خصوصیات مهم و مورد توجه را در مجموعه داده اولیه داشته و نماینده مناسبی برای کل مجموعه داده باشد. انواع الگوریتم های نمونه برداری از دو بعد قابل بررسی هستند. این ابعاد عبارتند از : توزیع دسته‌ها و ملاحظات جایگذاری.

داده کاوی کاربردی، صنیعی آباده

کپی برداری بدون ذکر منبع، براساس قانون جرایم اینترتی و مادۀ 12 فصل سوم قانون جرایم رایانه ای غیر قانونی بوده و مجازات جزای نقدی و حبس دارد و شرعا نیز حرام است! 

اگر در زمینه داده کاوی در حال تحقیق یا پیاده سازی پروژه تجاری یا پایان نامه هستید برای گرفتن مشاوره یا دادن سفارش انجام با ما تماس بگیرید.  آکادمی داده در تلگرام، واتزآپ و تمامی پیام رسان های ایرانی(سروش، آی گپ، بله و ویسپی) با شماره 09120637751 حضور دارد برای ارتباط از طریق ایمیل آدرس جیمیل: dataacademyir@gmail.com می باشد. 

افتخار آکادمی داده، همسفر بودن با شما در راه یادگیری علم داده است.