بهبود یک روش مبتنی برانتخاب ویژگی به منظور دسته بندی متون با الگوریتم های متن کاوی

بهبود یک روش مبتنی برانتخاب ویژگی به منظور دسته بندی متون با الگوریتم های متن کاوی

آکادمی داده

۱۳۹۷/۰۴/۲۹


  • 98 بازدید

در این سلسله مقالات به مفاهیم و کاربرد های داده‌کاوی، متن کاوی و علوم مرتبط با علم داده پرداخته می‌شود. با توجه به حجم عظیم مقالات تولید شده در زبان فارسی در حوزه داده کاوی و علم داده، آکادمی داده تصمیم گرفت مقالات فارسی منتشر شده در این حوزه را خلاصه برداری کرده و در اختیار علاقه مندان قرار دهد. این مقالات ابتدا با معرفی موضوع و کارهای انجام شده آغاز می شود و سپس مجموعه داده یا دیتاست تحقیق ارائه می شود و سپس پیاده سازی انجام شده در رپیدماینر، وکا یا پایتون ارائه شده و نتایج تحلیل می شود.

در این رشته نوشته ها ابتدا خلاصه ای از مقاله ارائه شده و سپس نتیجه گیری مقاله عینا آورده می گردد و سپس فایل پی دی اف آن نیز برای دانلود در اختیار محققین و پژوهشگران عزیز قرار می گیرد. 

 

با توجه به افزایش حجم روزافزون دسترسی به منابع متنی، دسته بندی داده های متنی به امری مهم تبدیل شده است. به طور کلی فرایند دسته بندی متون دارای دو بخش اصلی پیش پردازش و الگوریتم یادگیری است. مسأله انتخاب ویژگی ناشی از زیادی نویز و ویژگی های نامربوط و اضافی در مجموعه داده ها است، به وسیله حذف این ویژگیها از مجموعه داده ها کارائی مدل های یادگیری به طور چشمگیری افزایش پیدا می کند. هدف از انتخاب ویژگی پیدا کردن کوچک ترین زیرمجموعه از ویژگیهای ورودی با بیشترین خاصیت پیشگویانه است. مسأله انتخاب ویژگی در خیلی از مسائل یادگیری ماشین، شناسایی الگو و پردازش سیگنال وجود دارد. برخلاف روش های کاهش ابعاد، روشهای انتخاب ویژگی معنای اصلی ویژگی۔ ها را بعد از کاهش حفظ می کنند. این روش ها در پایگاه داده هایی که شامل تعداد بسیار زیادی از ویژگی ها هستند و پردازش را مشکل می کنند، کاربرد زیادی دارند. یک نمونه از کاربرد انتخاب ویژگی در پردازش متن و طبقه بندی متن است. روشهای انتخاب ویژگی همچنین در پایگاه داده های کوچک و معمولی نیز استفاده می شوند، براساس این روشها اکثرا أن ویژگی هایی انتخاب می شوند که حاوی بیشترین اطلاعات مفید هستند. در این تحقیق به ۱۰۰۰ ویژگی از ۴۰۰۰ ویژگی به دلیل کارا بودن، انتخاب گردید.

 

این مقاله از طریق لینک قابل دسترسی است و محققین علاقه مند می توانند آن را به صورت رایگان دریافت نمایند. 


کپی برداری بدون ذکر منبع، بر اساس قانون جرائم اینترنتی و مادۀ 12 فصل سوم قانون جرائم رایانه ای غیر قانونی بوده و مجازات جزای نقدی و حبس دارد و شرعا نیز حرام است! 
اگر در زمینه داده کاوی در حال تحقیق یا پیاده سازی پروژه تجاری یا پایان نامه هستید برای گرفتن مشاوره یا دادن سفارش انجام با ما تماس بگیرید.  آکادمی داده در تلگرام، واتزآپ و تمامی پیام رسان های ایرانی(سروش، آی گپ، بله و ویسپی) با شماره 09120637751 حضور دارد برای ارتباط از طریق ایمیل آدرس جیمیل: dataacademyir@gmail.com می باشد. 


افتخار آکادمی داده، همسفر بودن با شما در راه یادگیری علم داده است.