متن کاوی چیست؟

متن کاوی چیست؟

آکادمی داده

۱۳۹۶/۱۱/۰۴


  • 747 بازدید

در این مقاله متن کاوی به عنوان یکی از زیر مجموعه های داده کاوی و هوش مصنوعی مورد بررسی قرار گرفته و سعی می شود مخاطب با این مفاهیم آشنا گردد.

متن کاوی با علوم هوش مصنوعی و داده‌کاوی ارتباطات گسترده‌ای دارد و در بسیاری از موارد از روش‌ها و الگوریتم آن‌ها استفاده می‌کند. داده‌کاوی در علوم هوش مصنوعی بسیار موردتوجه است زیرا در هوش مصنوعی، فرآیند استخراج دانش دارای اهمیت مهم و تعیین‌کننده‌ای است. ازاین‌جهت است که در بسیار از شاخه‌های هوش مصنوعی داده‌کاوی و مفاهیم داده‌کاوی حضور دارند. متن کاوی نیز از این قاعده مستثنا نیست و مفاهیم، الگوریتم و روش‌های داده‌کاوی در این حوزه حضور چشمگیری دارند و کسانی که با داده‌کاوی و متن‌کاوی آشنا هستند در طول تحقیق خود این تحقیق با مطالب مشترک بسیاری برخورد خواهند کرد.  

متن کاوی یکی از زیر مجموعه های علوم داده کاوی است که بعضا با نام کشف دانش در متون نیز مطرح می شود .طبق تعریف فرهنگ لغت آکسفورد به فرآیند یا عملی که مجموعه بزرگی از منابع نوشته شده را به اطلاعات جدیدی تبدیل کند متن کاوی گفته می شود.

در واقع متن کاوی تحلیل داده های است که شامل متون زبان طبیعی است. در متن کاوی به دنبال متن ها هستیم یک فایل ورد شامل متن است با متن کاوی دانشی که در این متن نهفته است را استخراج می کنیم.  اکثر متن ها داده های غیر ساخت یافته هستند و برای اینکه داده های غیر ساخت یافته قابل استفاده شوند از مراحل پیش پردازش متن کاوی استفاده می گردد. این مراحل تقریبا در تمامی زیرمجموعه های علوم پردازش زبان طبیعی مشترک است. این روش ها و تکنیک هاعبارتند از : پارس گرامری - تگ کردن توکن سازی استفاده از عبارات با قاعده و .... . بعد از این مراحل  داده غیر ساخت یافته را به داده ساخت یافته  تبدیل می شود. هر زبان روش ها و پیاده سازی های مختلفی برای پیش پردازش متون خود دارد برای مثال پیش پردازش در متن کاوی فارسی با پیش پردازش در زبان انگلیسی از مراحل مشترک ولی با ابزارهای مختلف انجام می شود.

یکی از دلایل اهمیت متن کاوی گستردگی بی پایان متون است که متن ها در انواع مختلف داده ها یافت می شوند از ایمیل، روزنامه، وب،  گزارش روزانه، بلاگ ها تا مقالات علمی و موارد متعدد دیگر. این گستردگی متون نشان از اهمیت و جایگاه متن کاوی در علم  داده کاوی دارد. می توان با استفاده از متن کاوی این متون را خلاصه کرد یا طبقه بندی کرد. مثلا به جای خواندن یک مقاله 20 صفحه ای دو صفحه خلاصه آن را مطالعه کرد. رشته متن کاوی در زبان فارسی بسیار جوان است و کارهای محدودی در این زمینه انجام شده است. جا دارد با ایجاد نرم افزارهای متن کاوی به زبان فارسی از مزیت های این حوزه استفاده شود. امروزه  به برکت متن کاوی نرم افزارهایی وجود دارد که می توانند پانزده تا بیست و پنج هزار صفحه را در ساعت مطالعه کنند که در مقایسه با انسان رقم فوق العاده بزرگی است. فکرش را بکنید که این کار چقدر ممکن است سرعت انجام عملیات را  افزایش دهد.

متن کاوی زیر شاخه های گسترده ای دارد: از آن جمله می توان به : خلاصه سازی متن، نظرکاوی، وب کاوی، تشخیص زبان متن و بسیاری دیگر اشاده کرد. متن کاوی یکی از زمینه های تحقیقاتی داغ در حوزه داده کاوی است. به خصوص محققین زبان فارسی باید در این حوزه بیشتر فعالیت کنند. 

    متن کاوی درباره پیدا کردن و شناسایی دانش نهفته در متن کار می‌کند. کاربر می‌تواند نظرات یا تحلیل خود را توسط متن ابراز کند و با نوشتن متنی درباره کالایی، درباره آن کالا نظرات خود را ابراز کند. این تنها شیوه کاربر برای بیان فکر خود نیست بلکه ممکن است از طریق صدا یا ویدیو نیز این احساسات ابراز شود ولی می‌توان ادعا کرد حجم دانشی که توسط متن تولید می‌شود بسیار بیشتر از دانشی است که توسط صدا و یا ویدیو تولید می‌شود است.  تمرکز اصلی متن کاوی بر روی متون است متونی که توسط کاربران وب از طرق مختلف تولید می‌شود. کاربران روزانه توسط شبکه‌های اجتماعی یا ابزارهای پیام‌رسان و بسیاری راه‌های دیگر اقدام به تولید متن می‌کنند. با توجه به‌جایگاه شبکه‌های اجتماعی و ابزارهای پیام‌رسان در زندگی روزانه حجم عظیمی از متن روزانه تولید می‌شود و این موضوع فرصت بی‌نظیری برای متن کاوی بر روی متون است. به دلیل اینکه کار اصلی متن کاوی بر روی متون است متن کاوی را می‌توان یکی از فیلدهای داده کاوی دانست به همین دلیل روش‌هایی که در داده کاوی به‌کاررفته است در متن کاوی نیز به‌صورت گسترده مورداستفاده محققین این حوزه بوده است.البته خود متن‌کاوی نیز زیرمجموعه‌ای از هوش مصنوعی[1] و پردازش زبان طبیعی[2] است و از روش‌ها و تکنیک‌های این فیلدها استفاده می‌کند.

    اهمیت حوزه متن کاوی را می‌توان از تعداد بسیار زیاد پژوهش‌های این حوزه فهمید. امروزه پژوهش‌های بسیاری در این حوزه انجام می‌شود. دلیل این‌همه توجه به این حوزه، اهمیت روزافزون متون تولی شده توسط کاربران است. همه ما به دانستن نظرات دیگران کنجکاو هستیم و مایلیم بدانیم مردم در نقاط مختلف دنیا چه نظرات و عقایدی را دنبال می‌کنند. در کنار آن وازدید تجاری، همه ماقبل از خرید یک کالا مایلیم بدانیم کسانی که قبل از ما این کالا را خریداری کرده‌اند چه احساسی به آن دارند. اهمیت متن کاوی بعد از ظهور شبکه‌های اجتماعی بیشتر شده است زیرا با آمدن شبکه‌های اجتماعی، کاربران به‌راحتی می‌توانند نظرات و دانش خود در همه حوزه‌ها را به راحت‌ترین شکل ممکن ابراز کنند به‌طور مثال در شبکه‌ی اجتماعی توییتر شما به‌وسیله استفاده از هشتگ می‌توانید درباره آن اظهارنظر کنید و این اظهارنظر توسط کسانی که این هشتگ را دنبال می‌کنند قابل‌مشاهده است. متن کاوی در شبکه‌های اجتماعی نیز باعث رشد و توجه روزافزون به حوزه متن کاوی شده است. امروزه متن ها در تمام زندگی روزمره ما نیز وجود دارند و این فرصت بی نظیری برای محققین ایجاد می کند تا دانش از این متون استخراج گردد.

اگر در حال پژوهش در حوزه متن کاوی هستید، سوالات و اشکالات خود را از طریق تلگرام با آکادمی داده در میان بگذارید. با عضو شدن در کانال تلگرام آکادمی داده از مقالات جدید و دیتاست های منتشر شده مطلع شوید. 

کپی برداری بدون ذکر منبع، براساس قانون جرایم اینترتی و مادۀ 12 فصل سوم قانون جرایم رایانه ای غیر قانونی بوده و مجازات جزای نقدی و حبس دارد و شرعا نیز حرام است! 

اگر در زمینه متن کاوی در حال تحقیق یا پیاده سازی پروژه یا پایان نامه هستید برای گرفتن مشاوره یا دادن سفارش انجام با ما تماس بگیرید.  آکادمی داده در تلگرام، واتزآپ و تمامی پیام رسان های ایرانی(سروش، آی گپ، بله، گپ و ویسپی) با شماره 09120637751 حضور دارد برای ارتباط از طریق ایمیل آدرس جیمیل: dataacademyir@gmail.com می باشد. 

افتخار آکادمی داده، همسفر بودن با شما در راه یادگیری علم داده است. 


[1]Artificial Intelligence

[2]Natural Language Processing