دسته بندی متون به كمك الگوريتم KNN بهبود يافته مبتني بر خوشه های وزن دار

دسته بندی متون به كمك الگوريتم KNN بهبود يافته مبتني بر خوشه های وزن دار

آکادمی داده

۱۳۹۷/۰۵/۲۴


  • 73 بازدید

در این سلسله مقالات به مفاهیم و کاربرد های داده‌کاوی، متن کاوی و علوم مرتبط با علم داده پرداخته می‌شود. با توجه به حجم عظیم مقالات تولید شده در زبان فارسی در حوزه داده کاوی و علم داده، آکادمی داده تصمیم گرفت مقالات فارسی منتشر شده در این حوزه را خلاصه برداری کرده و در اختیار علاقه مندان قرار دهد. این مقالات ابتدا با معرفی موضوع و کارهای انجام شده آغاز می شود و سپس مجموعه داده یا دیتاست تحقیق ارائه می شود و سپس پیاده سازی انجام شده در رپیدماینر، وکا یا پایتون ارائه شده و نتایج تحلیل می شود.

در این رشته نوشته ها ابتدا خلاصه ای از مقاله ارائه شده و سپس نتیجه گیری مقاله عینا آورده می گردد و سپس فایل پی دی اف آن نیز برای دانلود در اختیار محققین و پژوهشگران عزیز قرار می گیرد. 

 

با رشد سریع اینترنت، دسته بندی متون به تکنولوژی کلیدی برای سازماندهی و پردازش حجم بالای داده های متنی تبدیل شده است. روش KNN به عنوان روشی ساده و موثر به طور وسیع در دسته بندی متون مورد استفاده قرار می گیرد. اما روش KNN نیاز محاسباتی بالایی را می طلبد. خوشه بندی روشی است که برای کاهش حجم داده های آموزشی مورد استفاده برای محاسبه شباهت با داده آزمایشی پیشنهاد شده است در این مقاله یک مقدار وزنی براساس تعداد اسناد خوشه و تعداد اسناد دسته مربوط به مراکز خوشه ها برای بهتر کردن کارایی دسته بندی یک روش KNN مبتنی بر خوشه بندی که قبلا معرفی شده است، پیشنهاد شده و مقدار K در الگوریتم KNN برای پیش بینی دسته نمونه جدید کاهش داده شده است . آزمایشات نشان میدهد روش جدید کارایی (دقت) بهتری نسبت به روش KNN مبتنی بر خوشه بندی قبلی دارد. در آینده می توان این روش را بر روی سایر مجموعه داده ها آزمایش نمود و همچنین سایر تکنیک های وزندهی به مراکز خوشه ها را بررسی کرده و کارایی را بیشتر افزایش داد.

 

این مقاله از طریق لینک قابل دسترسی است و محققین علاقه مند می توانند آن را به صورت رایگان دریافت نمایند. 

اگر به دنبال مجموعه مقالات فارسی در موضوعات مختلف هستید به لینک مراجعه بفرمایید. در این لینک مجموعه مقالات فارسی در حوزه های مختلف داده کاوی و متن کاوی ارائه شده است.

کپی برداری بدون ذکر منبع، بر اساس قانون جرائم اینترنتی و مادۀ 12 فصل سوم قانون جرائم رایانه ای غیر قانونی بوده و مجازات جزای نقدی و حبس دارد و شرعا نیز حرام است! 
اگر در زمینه متن کاوی در حال تحقیق یا پیاده سازی پروژه تجاری یا پایان نامه هستید برای گرفتن مشاوره یا دادن سفارش انجام با ما تماس بگیرید.  آکادمی داده در تلگرام، واتزآپ و تمامی پیام رسان های ایرانی(سروش، آی گپ، بله و ویسپی) با شماره 09120637751 حضور دارد برای ارتباط از طریق ایمیل آدرس جیمیل: dataacademyir@gmail.com می باشد. 


افتخار آکادمی داده، همسفر بودن با شما در راه یادگیری علم داده است.