ارزیابی و مقایسه مناسب ترین الگوریتم های متن کاوی :مطالعه موردی مجموعه داده روزنامه همشهری

ارزیابی و مقایسه مناسب ترین الگوریتم های متن کاوی :مطالعه موردی مجموعه داده روزنامه همشهری

آکادمی داده

۱۳۹۷/۰۵/۲۳


  • 49 بازدید

در این سلسله مقالات به مفاهیم و کاربرد های داده‌کاوی، متن کاوی و علوم مرتبط با علم داده پرداخته می‌شود. با توجه به حجم عظیم مقالات تولید شده در زبان فارسی در حوزه داده کاوی و علم داده، آکادمی داده تصمیم گرفت مقالات فارسی منتشر شده در این حوزه را خلاصه برداری کرده و در اختیار علاقه مندان قرار دهد. این مقالات ابتدا با معرفی موضوع و کارهای انجام شده آغاز می شود و سپس مجموعه داده یا دیتاست تحقیق ارائه می شود و سپس پیاده سازی انجام شده در رپیدماینر، وکا یا پایتون ارائه شده و نتایج تحلیل می شود.

در این رشته نوشته ها ابتدا خلاصه ای از مقاله ارائه شده و سپس نتیجه گیری مقاله عینا آورده می گردد و سپس فایل پی دی اف آن نیز برای دانلود در اختیار محققین و پژوهشگران عزیز قرار می گیرد. 

 

هدف در این مقاله ، ارائه یک مدل برای دسته بندی خودکار متون است که بتوان از طریق آن ، اسناد متنی را با کارآیی بالا دسته بندی نمود. دسته بندی متون دارای دو بخش اصلی انتخاب ویژگی والگوریتم دسته بندی است. با توجه به مطالب مطرح شده در فصل های قبل و کارآیی روش های فیلتری، از بین روش های موجود، روش بهره اطلاعات در این پژوهش مورد استفاده قرار گرفت. برای الگوریتم دسته بندی نیز الگوریتم های ماشین بردار پشتیبان بیز ساده و درخت تصمیم مورد استفاده قرار گرفت. باید خاطرنشان کرد که الگوریتم های دسته بندی منفرد تا حد زیادی نمی توانند کارآیی دسته بندی را افزایش دهند.
همانطور که مطرح شد، یکی از راه های افزایش کارآیی دسته بندی، استفاده از ترکیبی از دسته بندها است. استفاده از دسته بندهای ترکیبی باعث افزایش کارآیی دسته بندی توسط ترکیب چند دسته بند منفرد میشود. در این پژوهش یک روش پیشنهاد شد که بر روی ترکیب خروجی های دسته بندها عمل می کند. در ادامه به دلیل سازگاری این الگوریتم با نمودار بردار پشتیبان این الگوریتم را با الگوریتم PSO ترکیب نموده ایم .روش پیشنهادی با استفاده از ترکیب دو الگوریتم دسته بندی SVM + PSO بطور جداگانه پیاده سازی و مورد ارزیابی قرار گرفت. نتایج بدست آمده نشان دهنده برتری روش پیشنهادی با استفاده از ترکیب الگوریتم یادگیری SVM در PSO با میزان دقت در آموزش   94.74 ٪ ومیزان دقت در تست  60.49 ٪، نسبت به دسته بندی با استفاده از الگوریتم های منفرد Bagging ، PSO ، SVM ، Naive Bayes ،C۴٫۵ و CHAID می باشد.
مدلی که در این پژوهش معرفی شد، یک مدل ترکیبی همگن می باشد. در زمینه الگوریتم انتخاب ویژگی و الگوریتم دسته بندی ، مدل پیشنهادی دارای انعطاف پذیری خوبی می باشد؛ بطوریکه بعنوان پیشنهاد برای کارهای آتی می توان گفت که پژوهشگران می توانند در مرحله انتخاب ویژگی از الگوریتم های فیلتری نظیر اطلاعات متقابل ، ضریب همبستگی ونسبت احتمالات و همچنین ترکیبی از الگوریتم های فیلتری و پوششی مانند ترکیب الگوریتم هایی نظیر الگوریتم ژنتیک با سایر الگوریتم های فیلتری و در مرحله یادگیری از الگوریتم های تجمعی دیگر همانند Adaboost که در این پژوهش مطرح نشد، استفاده کنند. همچنین بجای استفاده از روش نمونه گیری ، می توان از روش انتخاب زیر مجموعه های متفاوت ویژگی نیز در جهت ایجاد تنوع استفاده نمود. به عنوان پیشنهادی دیگر در جهت کارهای آتی می توان پیاده سازی مدل پیشنهادی را بر روی مجموعه داده های فارسی نظیر مجموعه داده همشهری (۲۰۱۳، Hamshahri) که از اخبار همشهری تهیه شده است، مطرح کرد.

 

این مقاله از طریق لینک قابل دسترسی است و محققین علاقه مند می توانند آن را به صورت رایگان دریافت نمایند. 

اگر به دنبال مجموعه مقالات فارسی در موضوعات مختلف هستید به لینک مراجعه بفرمایید. در این لینک مجموعه مقالات فارسی در حوزه های مختلف داده کاوی و متن کاوی ارائه شده است.

کپی برداری بدون ذکر منبع، بر اساس قانون جرائم اینترنتی و مادۀ 12 فصل سوم قانون جرائم رایانه ای غیر قانونی بوده و مجازات جزای نقدی و حبس دارد و شرعا نیز حرام است! 
اگر در زمینه متن کاوی در حال تحقیق یا پیاده سازی پروژه تجاری یا پایان نامه هستید برای گرفتن مشاوره یا دادن سفارش انجام با ما تماس بگیرید.  آکادمی داده در تلگرام، واتزآپ و تمامی پیام رسان های ایرانی(سروش، آی گپ، بله و ویسپی) با شماره 09120637751 حضور دارد برای ارتباط از طریق ایمیل آدرس جیمیل: dataacademyir@gmail.com می باشد. 


افتخار آکادمی داده، همسفر بودن با شما در راه یادگیری علم داده است.