کاهش ابعاد یا فرایند انتخاب ویژگی در متن کاوی

کاهش ابعاد یا فرایند انتخاب ویژگی در متن کاوی

آکادمی داده

۱۳۹۷/۰۳/۲۷


  • 47 بازدید
اساسا کاهش ابعاد معادل فرایند انتخاب ویژگی است که برای کاهش تعداد عبارت ها یا ترم ها به کار می رود. ترم در اینجا به معنای کلماتی است که به یکدیگر وابسته هستند. ابعاد بزرگ فضاي ترم ها در دسته بندي متون یعنی مقدار بزرگ |T| معمولاً دردسر ساز می باشد. در حقیقت، با بزرگ شدن فضاي ترم ها، تعداد ویژگی ها نیز افزایش می یابد که از طرفی باعث پیچیدگی بیشتر، صرف هزینه ي زمانی و فضاي حافظه ي بیشتر و از طرفی عدم وابستگی بین اطلاعات کمتر می گردد. داده هایی که به هم وابسته هستند، عموماً ارزش دسته بندي ندارند. بیشتر دسته بندها در این موارد به مشکل بیش یادگیري برمی خورند. تعداد ترم ها در شاخص بندي متون به صورت ساده، بسته به تعداد متون در یک پیکره ي زبانی افزایش می یابد. براي مثال در حدود 20000  متن موجود در مجموعه داده رویترز در حدود 21578 ترم متفاوت دارد. بنابراین عموماً قبل از دسته بندي، داده ها از قسمت کاهش ابعاد می گذرند. به منظور رهایی از این مشکلات و مسائل، در بحث کاهش ابعاد سعی می کنند که با حذف ترم هاي بی ارزش به ابعاد فضاي بسیار کمتر برسند. تکنیک هاي کاهش ابعاد در دو حوزه عمومی و محلی قابل بحث می باشد.
 
 درحوزه خصوصی: براي هر دسته Ci یک مجموعه ترم T'i یافت گردد به شرطی که |T'i| << |T| باشد.
 در حوزه عمومی: یک مجموعه ترم T' یافت شود به طوري که براي تمام دسته ها |T'i| << |T| باشد.
 
به عبارت دیگر در کاهش ابعاد عمومی سعی می شود تا با تحلیل پیکره ي زبانی و کلیه متون موجود در مجموعه ي آموزشی ترم هایی را که ارزش پایینی در کاربرد مد نظر دارند، تعیین گردند و این دسته از ترم ها به صورت یک لیست ثابت، معین می گردند. ترم هاي متن ورودي به صورت خودکار توسط این لیست فیلتر می گردند. در حوزه ي محلی، همین کار براي هریک از دسته ها به طور مجزا انجام می شود. بنابر آنچه گفته شد، مسأله ي کاهش ابعاد خود یکی از زمینه هاي جالب توجه در تحقیقات مربوط به بازیابی اطلاعات و مخصوصا دسته بندي متون می باشد. عمده تحقیقات تاکنون بر دو محور اصلی استوار بوده اند:
 
 با انتخاب ترم ها: یک مجموعه ترم بر مبناي تئوري اطلاعات یا ویژگی هاي آماري از متن ها انتخاب می شود.
 با استخراج ترم ها: ترم ها در فضاي ترم جدید T' از طریق تابع تبدیل خاصی به دست می آید (T' = ( T )) به طوري که ممکن است ترم هاي T' کاملا با ترم هاي اصلی متفاوت باشند.

کپی برداری بدون ذکر منبع، براساس قانون جرایم اینترتی و مادۀ 12 فصل سوم قانون جرایم رایانه ای غیر قانونی بوده و مجازات جزای نقدی و حبس دارد و شرعا نیز حرام است! 

اگر در زمینه متن کاوی در حال تحقیق یا پیاده سازی پروژه تجاری یا پایان نامه هستید برای گرفتن مشاوره یا دادن سفارش انجام با ما تماس بگیرید.  آکادمی داده در تلگرام، واتزآپ و تمامی پیام رسان های ایرانی(سروش، آی گپ، بله و ویسپی) با شماره 09120637751 حضور دارد برای ارتباط از طریق ایمیل آدرس جیمیل: dataacademyir@gmail.com می باشد. 

افتخار آکادمی داده، همسفر بودن با شما در راه یادگیری علم داده است.