اندرحکایت برخی محدودیت ها و چالش ها در دسته بندی یا طبقه بندی متون

اندرحکایت برخی محدودیت ها و چالش ها در دسته بندی یا طبقه بندی متون

آکادمی داده

۱۳۹۷/۰۳/۲۷


  • 44 بازدید
متن کاوی اسناد سال های بسیاری است که در حال مطالعه و تدریس می باشد اما هنوز تا رسیدن به جایی که تبدیل به یک مسئله حل شده شود، فاصله زیادی وجود دارد. چالش های اصلی دسته بندی اسناد به طور اختصار عبارتند از:
1. انتخاب خصوصیت های مناسبی از اسناد که باید در دسته بندی استفاده می شود.
2. انتخاب یک معیار محاسبه شباهت مناسب بین سندها.
3. انتخاب یک روش مناسب برای دسته بندی که از معیار شباهت بالا استفاده کند.
4. پیاده سازی الگوریتم دسته بندی به صورت کارا که اجرای آن متناسب با حافظه و پردازنده های موجود عملی باشد.
5. یافتن روش هایی برای ارزیابی کیفیت روش های مختلف دسته بندی
علاوه بر این، با مجموعه های متوسط و بزرگ اسناد (10000 سند و بیشتر) پیچیدگی محاسباتی الگوریتم های موجود بالا خواهد بود و امکان پذیر بودن استفاده از آن در مسائل دنیای واقعی به عنوان یک چالش مطرح می شود. وقتی که اطلاعات مربوط به ترم ها در یک ماتریس انبوه نگهداری شود، این ماتریس ممکن است به راحتی آنقدر بزرگ شود که قادر به نگهداری آن در حافظه نباشیم، برای مثال اگر 100000 سند داشته باشیم که هر کدام 100000 ترم داشته باشند، آنگاه برای نگهداری این تعداد مقادیر ممیز شناور، حدود 40 گیگابایت حافظه نیاز است. همچنین اگر از مدل فضای بردار استفاده شود، به این ترتیب ابعاد فضای بردار چنین مسئله ای بسیار بالا (بیش از 100000) خواهد بود. به این معنا که یک عملیات ساده، مانند پیدا کردن فاصله اقلیدسی بین دو سند در فضای برداری، تبدیل به یک کار بسیار زمان بر می شود. 
مسلماٌ بزرگترین محدودیت استفاده از دسته بندی کننده های بیزین در مدل سازی متن کاوی، لزوم گسسته سازی مشاهدات و مقادیر مربوط به متغیرهاست که همواره طراح شبکه را به استفاده از ابزارهای کلاس بندی ملزم می کند. این مسئله، استفاده از دسته بندی کننده های بیزین در فرایند دسته بندی را همواره تحت تاثیر خود قرار می دهد. بطوری که گاهی مجبور هستیم برای دریافت نتایج دقیق تر مقادیر متغیرها را به ده ها کلاس تقسیم بندی کنیم. قطعاٌ هر چه انحراف معیار مجموعه داده بزرگتر باشد، فرایند کلاس بندی زمان بیشتری را صرف می کند.
یکی دیگر از محدودیت های مدل پیشنهادی این است که از آن نمی توان در محیط های پویا استفاده نمود. از آنجا که در بروزرسانی توپولوژی شبکه، اثر تمام متغیرهای اثرگذار که از ابتدای مدل سازی مشاهده شده است به صورت آماری تاثیر داده می شود، گام های یادگیری در روابط به روزرسانی عملاً به توابع نزولی وابسته به زمان تبدیل می شوند. این مسئله باعث می شود که روش پیشنهادی تنها برای محیط های ایستا قابل استفاده باشد. به منظور رفع این مشکل می توان روابط به روزرسانی را به گونه ای تغییر داد که به جای گام های یادگیری نزولی با زمان از گام های یادگیری ثابت استفاده کنند. 
سومین مسئله مربوط به انتخاب الگوریتم جستجوی مناسب در مرحله یادگیری ساختاری است. همان طور که در فصل سوم مشاهده شد، روش های متعددی تا به حال در این خصوص مورد استفاده قرار گرفته اند و الگوریتم های ترکیبی بسیاری پیشنهاد شده است. با توجه به ارزیابی های صورت گرفته در منابع معتبر، بهتر است با توجه به حوزه ی مسئله کاربردی و در نظر گرفتن نوع متغیرهای فضای مسئله، به انتخاب الگوریتم هیوریستیک مبادرت گردد. اساساٌ انتخاب یک الگوریتم به عنوان بهترین و دقیق ترین، شیوه چندان مناسبی بنظر نمی رسد.
همچنین با توجه به توسعه نرم افزارهای مشابه متعدد در زمینه پیاده سازی دسته بندی کننده های بیزین، مانند BNT، Netica، Genie و Agena Risk بهتر است که حداقل از دو نرم افزار معتبر به منظور یادگیری پارامتریک استفاده شود تا صحت نتایج حاصل از روش یادگیری ساختاری و همچنین درست عمل کردن نرم افزار بکار رفته به تثبیت برسد. 

کپی برداری بدون ذکر منبع، براساس قانون جرایم اینترتی و مادۀ 12 فصل سوم قانون جرایم رایانه ای غیر قانونی بوده و مجازات جزای نقدی و حبس دارد و شرعا نیز حرام است! 

اگر در زمینه متن کاوی در حال تحقیق یا پیاده سازی پروژه تجاری یا پایان نامه هستید برای گرفتن مشاوره یا دادن سفارش انجام با ما تماس بگیرید.  آکادمی داده در تلگرام، واتزآپ و تمامی پیام رسان های ایرانی(سروش، آی گپ، بله و ویسپی) با شماره 09120637751 حضور دارد برای ارتباط از طریق ایمیل آدرس جیمیل: dataacademyir@gmail.com می باشد. 

افتخار آکادمی داده، همسفر بودن با شما در راه یادگیری علم داده است.