تعریف طبقه بندی و خوشه بندی برای داده کاوی در یک پاراگرف

تعریف طبقه بندی و خوشه بندی برای داده کاوی در یک پاراگرف

آکادمی داده

۱۳۹۷/۰۳/۱۱


  • 200 بازدید

در این نوع از الگوریتم‌ها پیش بینی بر اساس یک یا چند متغیر گسسته بر روی سایر ویژگی‌های موجود در مجموعه داده‌ها انجام می‌شود. هدف از طبقه بندی این است که ابتدا با استفاده از مجموعه‌ی کوچکی از داده‌ها یک مدل مناسب بسازیم و سپس بر مبنای مدل ایجاد شده داده‌هایی که در آینده مشاهده می‌شود را به درستی طبقه‌بندی کنیم. طبقه‌بندی مستندات به معنای مرتبط نمودن یک سند به یک طبقه از پیش تعریف شده است. به عبارت دیگر هدف از طبقه بندی مستندات، یافتن طبقه موضوعی مناسبی است که با کمترین خطا موضوع بحث یک سند را نشان می‌دهد. این کار می‌تواند با مربوط کردن یک سند به یکی از طبقات از پیش تعریف شده صورت پذیرد و یا در طبقه‌بندی پویا منجر به تعریف طبقه موضوعی جدیدی برای سند در دست بررسی گردد. از معروفترین روش‌های طبقه‌بندی می‌توان به الگوریتم‌های درخت تصمیم ، شبکه‌های عصبی  و ماشین بردار پشتیبان اشاره نمود.

خوشه‌بندی به معنای گروه‌بندی نمونه و داده‌های جدید به دسته‌های مشابه می‌باشد. یک خوشه یک مجموعه از رکوردهای مشابه است که رکوردهای هم خوشه بیشترین شباهت را به یک دیگر و کمترین شباهت را به دیگر خوشه‌ها دارند. برخلاف طبقه‌بندی در خوشه‌بندی هیچ ناظری وجود ندارد و برچسب‌های هیچ یک از نمونه‌ها برای الگوریتم مشخص نیست (داده‌های آموزشی وجود ندارد) به عنوان یک تکنیک وب‌کاوی، خوشه‌بندی داده‌ها، خوشه‌ها یا نواحی متراکم را در مجموعه بزرگی از داده‌های چند بعدی بر اساس معیاری برای اندازه گیری فاصله پیدا می‌کند. در یک مجموعه بزرگ از نقاط داده‌ای چند بعدی، معمولاً فضای داده‌ای بطور یکنواخت توسط نقاط پر نمی‌شود. خوشه بندی داده‌ها، محلهای خلوت و متراکم را تشخیص داده و در نتیجه الگوی کلی توزیع اطلاعات را تشخیص می‌دهد. از خوشه‌بندی می‌توان به عنوان  تجزیه و تحلیل شباهت و عدم شباهت بین نمونه‌های داده و نیز در کاربرد‌های کاهش حجم استفاده کرد. از معروف‌ترین روش‌های خوشه‌بندی می‌توان به روش میانگین k همسایه ، روش‌های بیزی اشاره کرد.