کاهش ابعاد با استفاده از انتخاب ترمها(کلمات)

کاهش ابعاد با استفاده از انتخاب ترمها(کلمات)

آکادمی داده

۱۳۹۷/۰۳/۲۷


  • 38 بازدید
اولین رهیافت برای کاهش ابعاد با استفاده از انتخاب ترم ها، رهیافت فیلترکردن نامیده می شود. با استفاده از ابزارهایی که تئوری آمار یا اطلاعات فراهم نموده است ترم های بی ربط از ترم های استخراج شده فیلتر می شوند. در نهایت دسته بندها مستقل از تابع فیلترساز استفاده شده، با استفاده از فضای ترم کاهش یافته تولید می شوند. یکی دیگر از رهیافت ها که تکنیک لفاف نیر نامیده می شود این است که انتخاب ترم ها بر مبنای الگوریتم دسته بندی استفاده شده، مشخص می گردد. با شروع از یک فضای ترم اولیه، یک فضای ترم جدید با اضافه نمودن یا کاهش ترم ها تولید می شود. در نهایت دسته بند با استفاده از فضای ترم جدید آموزش یافته و بر روی مجموعه اعتبار سنجی آزمایش می شود. فضای ترمی که بهترین جواب را تولید نماید به عنوان مجموعه ترم نهایی برای الگوریتم دسته بند انتخاب می شود. اگرچه فضای ترم مناسب برای دسته بندها مزیت های غیر قابل انکاری دارد ولی هزینه و پیچیدگی های محاسباتی این روش یکی از بزرگترین نقاط ضعف آن است. لذا در این گزارش این روش نادیده گرفته خواهد شد.
 
فرکانس متن: یکی از توابع ساده کاهش ابعاد مبتنی بر فرکانس متن یک ترم tk می باشد. برطبق قانون زیپف-مندلبورت، ترم هایی که فرکانس متن بسیار پایین یا بسیار بالایی دارند می توانند نادیده گرفته شوند. نتایج تجربی نشان داده اند که با حذف 10 فاکتور از ترم ها بدون از دست دادن اطلاعات باارزش می توان دست زد.
 
تابع های انتخاب مبتنی بر تئوری اطلاعات و تئوری های آماری:  متدهای پیشرفته مشتق شده از تئوری های آماری و اطلاعاتی در بسیاری از موارد مختلف برای کاهش ابعاد حتی تا حدود 100 فاکتور استفاده شده اند. یک تابع f(tk,ci) ترم tk را برای دسته ci را که در مجموعه های نمونه های مثبت و منفی پخش شده اند را انتخاب می کند. کاملا وًاضح است، ترم هایی که تنها در مجموعه نمونه های مثبت یا منفی رخ دهند، با ارزش ترین ترم ها می باشند. برای استنتاج یک شرط کلی مبتنی بر یک تابع انتخاب ترم، این توابع باید بر روی مجموعه دسته های داده شده C ترکیب شوند. ترکیب های معمول برای به دست آوردن f(tk):
 
 جمع: مجموع تابع انتخاب ترم بر روی تمام دسته ها محاسبه می شود:
 جمع وزندهی شده: مجموع تابع انتخاب ترم بر روی تمام دسته ها به طور وزن دهی شده با وزن احتمال دسته:
 بیشینه: بیشینه ی تابع انتخاب ترم بر روی تمام دسته ها انتخاب می شود: 
 
ترم هایی که بیشترین نتایج را با در نظر گرفتن تابع انتخاب برمی گردانند، به عنوان فضای ترم جدید در نظر گرفته می شوند و مابقی ترم ها حذف می شوند. نتایج تجربی نشان داده است که 
{ORsum, NGLsum, GSSmax} > {X2max, IGsum} > {X2 wsum} >> {MImax, MIsum}
به طوری که منظور از < یعنی "بهتر عمل میکند از". 
همانطور که پیشتر گفته شد، کاهش ابعاد تاثیر به سزایی در سرعت، دقت، و کاهش پیش نیازهای سخت افزاری برای سیستم دسته بندی متون فراهم می آورد. باید ذکر کرد که در این سیستم علاوه بر استفاده از ریشه ی کلمات به جای خود کلمات و حذف کلمات بی ارزش، ماژول مستقلی برای کاهش ابعاد دیده شده است. در اینجا یک رویه ی ساده برای کاهش ابعاد استفاده شده است و در صورت نیاز می توان این رویه را ارتقا داد. لذا، به منظور کاهش ابعاد رویه زیر اجرا می گردد:
 فرکانس ترم محاسبه می شود و ترم ها بر مبنای فرکانس تکرار مرتب می شوند.
 ترم هایی که فرکانس تکرارشان از 0.1 فرکانس میانگین کمتر بود، حذف می شوند.
 

کپی برداری بدون ذکر منبع، براساس قانون جرایم اینترتی و مادۀ 12 فصل سوم قانون جرایم رایانه ای غیر قانونی بوده و مجازات جزای نقدی و حبس دارد و شرعا نیز حرام است! 

اگر در زمینه متن کاوی در حال تحقیق یا پیاده سازی پروژه تجاری یا پایان نامه هستید برای گرفتن مشاوره یا دادن سفارش انجام با ما تماس بگیرید.  آکادمی داده در تلگرام، واتزآپ و تمامی پیام رسان های ایرانی(سروش، آی گپ، بله و ویسپی) با شماره 09120637751 حضور دارد برای ارتباط از طریق ایمیل آدرس جیمیل: dataacademyir@gmail.com می باشد. 

افتخار آکادمی داده، همسفر بودن با شما در راه یادگیری علم داده است.