متن کاوی توسط تکنیک خوشه بندی K میانگین بهینه شده، با استفاده از ابر داده ها به منظور بدست آوردن اطلاعات بیشتر

متن کاوی توسط تکنیک خوشه بندی K میانگین بهینه شده، با استفاده از ابر داده ها به منظور بدست آوردن اطلاعات بیشتر

آکادمی داده

۱۳۹۷/۰۵/۲۳


  • 37 بازدید

در این سلسله مقالات به مفاهیم و کاربرد های داده‌کاوی، متن کاوی و علوم مرتبط با علم داده پرداخته می‌شود. با توجه به حجم عظیم مقالات تولید شده در زبان فارسی در حوزه داده کاوی و علم داده، آکادمی داده تصمیم گرفت مقالات فارسی منتشر شده در این حوزه را خلاصه برداری کرده و در اختیار علاقه مندان قرار دهد. این مقالات ابتدا با معرفی موضوع و کارهای انجام شده آغاز می شود و سپس مجموعه داده یا دیتاست تحقیق ارائه می شود و سپس پیاده سازی انجام شده در رپیدماینر، وکا یا پایتون ارائه شده و نتایج تحلیل می شود.

در این رشته نوشته ها ابتدا خلاصه ای از مقاله ارائه شده و سپس نتیجه گیری مقاله عینا آورده می گردد و سپس فایل پی دی اف آن نیز برای دانلود در اختیار محققین و پژوهشگران عزیز قرار می گیرد. 

 

كدهای برنامه نویسی، برای مرحله ی اول از مراحل اساسی در خوشه بندی K میانگین یعنی نحوه ی ورود داده های شبیه سازی شده و یا فایل داده های جمع اوری شده به روش ثبتی است. در مرحله ی دوم از مراحل اساسی خوشه بندی K میانگین دو انتخاب مهم باید انجام داد. در اولین گزینش،  Kنقطه به عنوان مراكز هر خوشه تعیین می شود. در دومین انتخاب، میانگین خوشه هایی كه در مرحله قبل محاسبه شده است را به عنوان مركز درنظر گرفته، دوباره فاصله مشاهدات تا هریک از مراكز جدید را محاسبه كرده، خوشه هایی جدید تشکیل داده می شود. پس از اعمال خوشه بندی K  میانگین، ویژگی های مورد نظر از ابر داده ها استخراج و دسته بندی می شود. در ادامه ابرداده مورد نظر معرفی و نتایج حاصل از خوشه بندی ارائه شده است. پیش پردازش به عنوان اولین گام در تطابق مستندات متنی با نمایش آن ها در قالب مناسب برای وظایفی نظیر خوشه بندی ، طبقه بندی و خلاصه سازی مطرح می باشد. به بقیه كلمات Key word  گفته می شود . در انتهای فاز پیش پردازش ، متن از دنباله ی رشته ها به لیستی از كلمات كلیدی نگاشته می شود كه معمولا به آن بردار ویژگی گفته می شود. برای تست كارایی الگوریتم پیشنهادی، 5 مجموعه از متون فارسی از سایتهای خبری جمع آوری شده است. این مجموعه شامل 35 متن با طول ها و قالب های نوشتاری متفاوت می باشد . این متون در هفت دسته از قبل تعریف شده قرار دارند. هر دسته شامل 5 متن می باشد . دسته های از قبل تعریف شده عبارتند از: اجتماعی، اقتصادی، پزشکی، سیاسی، فرهنگی، مذهبی و ورزشی. با اجرای برنامه روی داده های تست، نتایج جدول زیر برای الگوریتم فوق بدست آمده است. نتایج نهایی حاصل از بررسی كارایی روش پیشنهادی به منظور استخراج ویژگی های بیشتر از ابرداده ها نشان می دهد كه كارایی روش پیشنهادی، 86 درصد تخمین زده شده است. بنابراین، همانطور كه مشاهده می شود كارایی الگوریتم خوشه بندی ارائه شده مبتنی بر   K – meansتوانسته است به خوبی در تشخیص ویژگی موضوع متن برای متون فارسی موفق عمل نماید.

 

این مقاله از طریق لینک قابل دسترسی است و محققین علاقه مند می توانند آن را به صورت رایگان دریافت نمایند. 

اگر به دنبال مجموعه مقالات فارسی در موضوعات مختلف هستید به لینک مراجعه بفرمایید. در این لینک مجموعه مقالات فارسی در حوزه های مختلف داده کاوی و متن کاوی ارائه شده است.

کپی برداری بدون ذکر منبع، بر اساس قانون جرائم اینترنتی و مادۀ 12 فصل سوم قانون جرائم رایانه ای غیر قانونی بوده و مجازات جزای نقدی و حبس دارد و شرعا نیز حرام است! 
اگر در زمینه متن کاوی در حال تحقیق یا پیاده سازی پروژه تجاری یا پایان نامه هستید برای گرفتن مشاوره یا دادن سفارش انجام با ما تماس بگیرید.  آکادمی داده در تلگرام، واتزآپ و تمامی پیام رسان های ایرانی(سروش، آی گپ، بله و ویسپی) با شماره 09120637751 حضور دارد برای ارتباط از طریق ایمیل آدرس جیمیل: dataacademyir@gmail.com می باشد. 


افتخار آکادمی داده، همسفر بودن با شما در راه یادگیری علم داده است.