پیشنهادات و ایده هایی برای طبقه بندی یا دسته بندی متون

پیشنهادات و ایده هایی برای طبقه بندی یا دسته بندی متون

آکادمی داده

۱۳۹۷/۰۳/۲۷


  • 130 بازدید

دسته بندی همان گونه که بیان شد، به کشف گروه هایی از داده های مشابه درون مجموع های از داده ها می پردازد، بدون هیچ اطلاع قبلی از کلاس های مربوط به داده ها. دسته بندی متن مشابهت بین اسناد متنی را به دست آورده و از این طریق اسناد متنی را در گروه هایی دسته بندی می کند. در این پژوهش ابتدا چگونگی نمایش و نگهداری اسناد را به عنوان مجموعه ای از داده ها مورد بررسی و مطالعه قرار دادیم. سپس روش های پیش پردازش متن در جهت آمادگی برای اجرای الگوریتم های خوشه بندی بررسی کردیم و روش های کاهش ابعاد را هم که از مدل های ریاضی و جبر خطی برای کاهش ابعاد فضای برداری مسئله استفاده می کرد بررسی نمودیم. انواعی از روش های دسته بندی تاکنون ارائه شده اند که وابسته به کاربرد می توان از آن ها استفاده کرد. در کل روش های دسته بندی را می توان از منظری به دو بخش دارای پارامتر و بدون پارامتر تعبیر نمود که در روش های دارای پارامتر نیاز است تعداد دسته ها را از قبل مشخص نماییم اما روش های بدون پارامتر، بدون این که تعداد دسته ها را از قبل مشخص شده بدانند دسته بندی می نمایند. در ادامه گروهی از این روش های که به الگوریتم های سلسله مراتبی دسته بندی معروف هستند و یک نمودار که اولویت ترکیب داده ها برای تولید دسته ها را ارائه می دهد، بررسی و پیاده سازی شد. همچنین در طی این پیاده سازی روش های مختلف پیش پردازش برای زبان فارسی روی یک داده واقعی بررسی و آزمایش شده و ابزارهای مورد نیاز برای این روش مورد مطالعه قرار گرفت. به عنوان کارهای آینده می توان از پیاده سازی مدل نمایشی که جایگاه معنایی جملات را نیز در بر گیرد و همچنین معیارهای مشابهتی که نقش ها و وابستگی های معنایی جملات را مورد مقایسه قرار می دهند، نام برد. همچنین پیاده سازی روش های دسته بندی متون به صورت توزیع شده به نحوی که بر روی داده های عظیم قابل انجام باشند به عنوان یکی دیگر از کارهای آینده می توان در نظر گرفت. دیگر چالش قابل توجه در این پژوهش کمبود امکانات مناسب برای پیش پردازش متون به زبان فارسی نظیر ریشه یاب کارا و در واقع پیش پردازش بهینه تر برای متون فارسی همچنان یک چالش پیش رو می باشد.
توسعه دسته بندی کننده های بیزین دینامیک برای مدل سازی مسئله در محیط های غیر ایستا. دسته بندی کننده های بیزین ارتباط میان متغیرها را در یک نقطه از زمان و یا در یک بازه زمانی مشخص نشان می دهند. برای مدل کردن سیستمی که متغیر با زمان است، باید از دسته بندی کننده های بیزی پویا استفاده کرد. در این ساختار، شبکه بیزین در بازه های زمانی تکرار می شود به گونه ای که ساختار شبکه در بازه های زمانی مختلف تغییری نمی کند. 
استفاده از الگوریتم جستجوی تبرید تدریجی  که کمتر در بحث یادگیری ساختاری دسته بندی کننده های بیزین مورد استفاده قرار گرفته است. اساس این الگوریتم بر مبنای جستجوی محلی است، بنابراین طراحی متدهای جستجوی محلی مناسب با توجه به شرایط و محدودیتهای مسائل شبیه‌سازی شده در این الگوریتم، از اهمیت بسیار بالایی برخوردار است. شاید با توجه به الگوریتم پیشنهادی در این پایان نامه که برمبنای جستجوی محلی شکل گرفته استفاده از الگوریتم تبرید تدریجی می توانست زمان مصرف شده در مرحله دسته بندی را از بین ببرد. این الگوریتم در مقایسه با الگوریتم تپه نوردی مشکلات مربوط به اکسترمم های محلی را نیز ندارد.
فرض مهمی که الگوریتم های داده کاوی و یادگیری ماشین دنبال می کنند این است که داده های آموزشی و آزمایشی از یک فضای ویژگی و با توزیع یکسانی برداشته می شوند. معمولا در دنیای واقعی این فرضیات در نظر گرفته نمی شود. زمانی که نحوه توزیع داده ها متفاوت باشد، می بایست تمامی مدل های آماری با کمک داده های آموزشی جدید از ابتدا ساخته شوند که این کار بسیار هزینه بر خواهد بود. در چنین حالت هایی است که نیاز به استفاده از انتقال دانش یا یادگیری انتقالی بوجود می آید. بنابراین یادگیری انتقالی، توانایی یک سیستم برای استخراج و اعمال دانش از کارهای قبلی به کارهای جدید می باشد. یکی از چالش های مهمی که اعتماد استفاده از یادگیری انتقالی را دربین کاربران از بین می برد، وقوع انتقال منفی است. انتقال منفی هنگامی رخ می دهد که منبع و مقصد هیچ ارتباطی  با یکدیگر نداشته باشند. که در این صورت در زمان انتقال داده ها از منبع به مقصد، کارایی یادگیری در مقصد بدتر از زمانی خواهد بود که از انتقال داده ها برای یادگیری استفاده نمی شود. بنابراین یکی از چالش های موجود و در واقع یکی از کارهای عمده آینده در این حوزه راهکاری برای کاهش انتقال منفی در یادگیری انتقالی می باشد.    

کپی برداری بدون ذکر منبع، براساس قانون جرایم اینترتی و مادۀ 12 فصل سوم قانون جرایم رایانه ای غیر قانونی بوده و مجازات جزای نقدی و حبس دارد و شرعا نیز حرام است! 

اگر در زمینه متن کاوی در حال تحقیق یا پیاده سازی پروژه تجاری یا پایان نامه هستید برای گرفتن مشاوره یا دادن سفارش انجام با ما تماس بگیرید.  آکادمی داده در تلگرام، واتزآپ و تمامی پیام رسان های ایرانی(سروش، آی گپ، بله و ویسپی) با شماره 09120637751 حضور دارد برای ارتباط از طریق ایمیل آدرس جیمیل: dataacademyir@gmail.com می باشد. 

افتخار آکادمی داده، همسفر بودن با شما در راه یادگیری علم داده است.