مروری بر متن کاوی : مفاهیم، تکنیکها و چالش ها

مروری بر متن کاوی : مفاهیم، تکنیکها و چالش ها

آکادمی داده

۱۳۹۷/۰۵/۲۳


  • 123 بازدید

در این سلسله مقالات به مفاهیم و کاربرد های داده‌کاوی، متن کاوی و علوم مرتبط با علم داده پرداخته می‌شود. با توجه به حجم عظیم مقالات تولید شده در زبان فارسی در حوزه داده کاوی و علم داده، آکادمی داده تصمیم گرفت مقالات فارسی منتشر شده در این حوزه را خلاصه برداری کرده و در اختیار علاقه مندان قرار دهد. این مقالات ابتدا با معرفی موضوع و کارهای انجام شده آغاز می شود و سپس مجموعه داده یا دیتاست تحقیق ارائه می شود و سپس پیاده سازی انجام شده در رپیدماینر، وکا یا پایتون ارائه شده و نتایج تحلیل می شود.

در این رشته نوشته ها ابتدا خلاصه ای از مقاله ارائه شده و سپس نتیجه گیری مقاله عینا آورده می گردد و سپس فایل پی دی اف آن نیز برای دانلود در اختیار محققین و پژوهشگران عزیز قرار می گیرد. 

 

در این چند سال اخیر توجه بسیار زیادی به متن کاوی شده است. مجموعه داده های متنی، گونه ای از داده ها هستند که نسبت به انواع دیگر مانند صوت و تصویر از محبوبیت بیشتری برخوردارند. گسترش فراگیر رسانه های اجتماعی مانند شبکه های اجتماعی دلیل روشنی برای این موضوع است. وجود و همچنین افزایش چشمگیر داده های متنی، پژوهشگران حوزه داده کاوی را بر آن داشته است تا به دنبال روش هایی جهت کاوش این داده ها باشند.
همانند فرایند سنتی کشف دانش، داده های متنی قبل از ورود به الگوریتم های داده کاوی پیش پردازش می شوند تبدیل داده های متنی به یک شکل ساختمند، ریشه یایی، حذف ایست واژه ها و کاهش ابعاد از عمده ترین تکنیکهای آماده سازی متون محسوب می شوند هرچند برای اجرای کلیه الگوریتمهای داده کاوی، لازم نیست از تمامی تکنیکهای فوق استفاده شود.
شاید قبل از دسته بندی، خوشه بندی و یا اجرای هر روش داده کاوی مناسب باشد اطلاعات موجود در متون استخراج و اسناد متنی خلاصه سازی شوند. تجربه نشان داده که با این شکل تبدیل یافته، الگوریتم ها نتایج بهتری از خود نشان می دهند. توجه داشته باشید که در کلیه روشها به ماهیت داده ها (که متنی هستند) توجه خاصی می شود، بنابراین زبان متن در کاوش آن نقش مهمی را بازی می کند.
بدون تردید حوزه متن کاوی به دلیل پیچیدگی زبان طبیعی، یک حوزه تحقیقاتی پایان ناپذیر و فعال است و ما در این مقاله تنها برخی از تکنیکها و چالش های موجود در این حوزه را آن هم به صورت مختصر بررسی کردیم. رشد سریع و برخط داده های متنی به تکنیکهای قدرتمند متن کاوی هم نیاز دارد. حال آنکه متن کاوی متخصصین حوزه های دیگر مانند پردازش زبان طبیعی، بازیابی اطلاعات و یادگیری ماشین را نیز درگیر خود ساخته است. به نظر می رسد هنوز کارهای انجام نشده بسیاری در این حوزه وجود دارد. تزریق معنا به فرایند کاوش، استفاده از روش های مقیاس پذیر و استوار برای درک زبان طبیعی، با کمک گرفتن از یادگیری انتقالی ، استفاده از اطلاعات همراه با متون (مانند نویسنده مقالات و… ) و همچنین متن کاوی موازی پیشنهادهایی برای تحقیقات جاری و آینده تلقی می شوند.

ا

این مقاله از طریق لینک قابل دسترسی است و محققین علاقه مند می توانند آن را به صورت رایگان دریافت نمایند. 

اگر به دنبال مجموعه مقالات فارسی در موضوعات مختلف هستید به لینک مراجعه بفرمایید. در این لینک مجموعه مقالات فارسی در حوزه های مختلف داده کاوی و متن کاوی ارائه شده است.

اگر به پژوهش در حوزه متن کاوی علاقه مند هستید توصیه می شود حتما مجموعه بی نظیر هفتاد و چهار مقاله فارسی در زمینه متن کاوی  و مجموعه های مشابه آن را تهیه بفرمایید.

اگر در زمینه متن کاوی در حال تحقیق یا پیاده سازی پروژه یا پایان نامه هستید برای گرفتن مشاوره یا دادن سفارش انجام با ما تماس بگیرید.  آکادمی داده در تلگرام (https://t.me/dataacademyحضور دارد برای ارتباط از طریق ایمیل آدرس جیمیل: dataacademyir@gmail.com می باشد.  

 

افتخار آکادمی داده، همسفر بودن با شما در راه یادگیری علم داده است.