سابقه متن کاوی و دسته بندی متون الکترونیکی

سابقه متن کاوی و دسته بندی متون الکترونیکی

آکادمی داده

۱۳۹۷/۰۳/۲۷


  • 71 بازدید

سابقه متن کاوی و دسته بندی متون الکترونیکی به دهه 1990میلادی باز می گردد ولی با گسترش اینترنت در سده میلادی جدید و به تبع آن گسترش سریع متون الکترونیکی با ساختارها و زبانهای متفاوت، توجه بسیاری از دانشمندان و محققان علوم کامپیوتر به استفاده از روش ها و تکنیک های بهینه و سریع جلب شد و هم اکنون نیز تحقیق در این زمینه در راستای افزایش سرعت و دقت روش ها همچنان ادامه دارد سباستیانی [1].

تحقیق در زمینه های مختلف متن کاوی  بر روی متون فارسی، خصوصاً دسته بندی متن، به طور جدی از اواخر دهه 80 و اوایل دهه 90 شمسی آغاز شده است و تاکنون نیز کارهای نسبتاً خوبی در این زمینه خصوصاً در دانشگاههای تهران، صنعتی امیر کبیر، علم و صنعت و صنعتی شریف انجام شده است (عرب سرخی ، امامی 1385، نقیبی 1387، شمس فرد ،  محمدی 1390 ، پور حسن 1391). با این وجود کار در زمینه متن کاوی  فارسی و بکارگیری و تطبیق الگوریتم های جدید و کار آمد با زبان فارسی همچنان ادامه دارد. طبق بررسی های به عمل آمده تاکنون از روش یادگیری انتقالی برای متن کاوی  متون فارسی استفاده نشده و در این پروژه برای اولین بار از این روش استفاده شده است. البته در زبان انگلیسی از این روش استفاده شده که نتایج بسیار خوب و قابل قبولی به همراه داشته است.

دسته بندی به وسیله قواعدی مثل ویژگی --> کلاس انجام می شود و دارای مزایای متعددی می باشد که از آن جمله می توان به قابلیت تفسیر ساده، درک آسان قواعد توسط انسان و ویرایش مستقیم قواعدی که توسط فرآیند یادگیری استنتاجی تولید شده اند، اشاره کرد. حذف قواعد ضعیف و اضافه کردن قواعدی که با دقت و به صورت دستی توسط افراد خبره تعریف شده اند می تواند تا حد فوق العاده ای دقت دسته بندی را افزایش دهد. مزیت دیگر روش فوق به روز رسانی تدریجی قواعد توسط فرایندهای بعدی یادگیری ماشین می باشد. سایر تکنیک های دسته بندی اگرچه ممکن است دارای دقت قابل قبولی باشند ولی مزایای ذکر شدة روش های قاعده گرا را ندارند.

یکی دیگر از مزایای مهم روش دسته بندی انتقالی این است که ویژگی ها هم می توانند منفرد باشند و هم چندگانه، یعنی می توان از اطلاعات ترکیبی ویژگی های چندگانه استفاده کرد، در حالی که روش های دسته بندی دیگر مثل ماشین های بردار پشتیبان و K نزدیک ترین همسایه فقط از ویژگی منفرد استفاده می کنند. این بدین معنی است که در روش دسته بندی انتقالی امکان استفاده از اطلاعات اصطلاح یا عبارت همانند اطلاعات لغت وجود دارد.

دسته بندی بر مبنای قواعد انتقالی دارای معایبی هم هست که از آن جمله افزایش بعد فضای برداری ویژگی ها می باشد که برای رفع این مشکل از تکنیک های کاهش بعد فضای ویژگی ها استفاده می شود، و همچنین افزایش تعداد قواعدی که در فاز آموزش تولید شده اند و باعث افزایش بیهوده زمان محاسبات و کاهش تاثیر در دسته بندی انتقالی می شوند. برای رفع این مشکل هم از تکنیک هرس کردن قواعد[2] استفاده می شود. در این تکنیک فقط قواعدی که دارای کیفیت و تأثیر بالایی هستند انتخاب می شوند.

امروزه با توجه به گسترش روزافزون متون الکترونیکی ضرورت وجود ابزارهای دسته بندی متون بیش از پیش احساس می گردد. از طرف دیگر، اگرچه زبان فارسی از دسته زبان های هند و اروپایی می باشد ولی به طور کلی از رسم الخط عربی استفاده میکند. با توجه به آنچه در بخش 2 آمد، معمولا در زبان فارسی یافتن دقیق مرز بین کلمات دشوار است. در این مقاله سعی گردید تا به جای استفاده از کلمات (رشته های جدا شده توسط یک فضای خالی)، دو کلمه متوالی را به عنوان ویژگی پیشنهاد دهد یا به عبارت دیگر یک پنجره به طول دو کلمه بر روی کل متن لغزانده شود. این تغییر ساده باعث گردید تا دقت نتایج الگوریتم بیز برای مجموعه ی آموزشی به دقت قابل قبولی برسد و برای مجموعه ی آزمایشی حتی از کلیه روش های توضیح داده شده پیشی بگیرد.

کپی برداری بدون ذکر منبع، براساس قانون جرایم اینترتی و مادۀ 12 فصل سوم قانون جرایم رایانه ای غیر قانونی بوده و مجازات جزای نقدی و حبس دارد و شرعا نیز حرام است! 

اگر در زمینه متن کاوی در حال تحقیق یا پیاده سازی پروژه تجاری یا پایان نامه هستید برای گرفتن مشاوره یا دادن سفارش انجام با ما تماس بگیرید.  آکادمی داده در تلگرام، واتزآپ و تمامی پیام رسان های ایرانی(سروش، آی گپ، بله و ویسپی) با شماره 09120637751 حضور دارد برای ارتباط از طریق ایمیل آدرس جیمیل: dataacademyir@gmail.com می باشد. 

افتخار آکادمی داده، همسفر بودن با شما در راه یادگیری علم داده است. 

 

[1] Sebastiani 2002

[2] Pruning Rules