کاهش ابعاد یا فرایند انتخاب ویژگی در متن کاوی

کاهش ابعاد یا فرایند انتخاب ویژگی در متن کاوی

آکادمی داده

۱۳۹۷/۰۳/۲۷


  • 135 بازدید
اساسا کاهش ابعاد معادل فرایند انتخاب ویژگی است که برای کاهش تعداد عبارت ها یا ترم ها به کار می رود. ترم در اینجا به معنای کلماتی است که به یکدیگر وابسته هستند. ابعاد بزرگ فضاي ترم ها در دسته بندي متون یعنی مقدار بزرگ |T| معمولاً دردسر ساز می باشد. در حقیقت، با بزرگ شدن فضاي ترم ها، تعداد ویژگی ها نیز افزایش می یابد که از طرفی باعث پیچیدگی بیشتر، صرف هزینه ي زمانی و فضاي حافظه ي بیشتر و از طرفی عدم وابستگی بین اطلاعات کمتر می گردد. داده هایی که به هم وابسته هستند، عموماً ارزش دسته بندي ندارند. بیشتر دسته بندها در این موارد به مشکل بیش یادگیري برمی خورند. تعداد ترم ها در شاخص بندي متون به صورت ساده، بسته به تعداد متون در یک پیکره ي زبانی افزایش می یابد. براي مثال در حدود 20000  متن موجود در مجموعه داده رویترز در حدود 21578 ترم متفاوت دارد. بنابراین عموماً قبل از دسته بندي، داده ها از قسمت کاهش ابعاد می گذرند. به منظور رهایی از این مشکلات و مسائل، در بحث کاهش ابعاد سعی می کنند که با حذف ترم هاي بی ارزش به ابعاد فضاي بسیار کمتر برسند. تکنیک هاي کاهش ابعاد در دو حوزه عمومی و محلی قابل بحث می باشد.
 
 درحوزه خصوصی: براي هر دسته Ci یک مجموعه ترم T'i یافت گردد به شرطی که |T'i| << |T| باشد.
 در حوزه عمومی: یک مجموعه ترم T' یافت شود به طوري که براي تمام دسته ها |T'i| << |T| باشد.
 
به عبارت دیگر در کاهش ابعاد عمومی سعی می شود تا با تحلیل پیکره ي زبانی و کلیه متون موجود در مجموعه ي آموزشی ترم هایی را که ارزش پایینی در کاربرد مد نظر دارند، تعیین گردند و این دسته از ترم ها به صورت یک لیست ثابت، معین می گردند. ترم هاي متن ورودي به صورت خودکار توسط این لیست فیلتر می گردند. در حوزه ي محلی، همین کار براي هریک از دسته ها به طور مجزا انجام می شود. بنابر آنچه گفته شد، مسأله ي کاهش ابعاد خود یکی از زمینه هاي جالب توجه در تحقیقات مربوط به بازیابی اطلاعات و مخصوصا دسته بندي متون می باشد. عمده تحقیقات تاکنون بر دو محور اصلی استوار بوده اند:
 
 با انتخاب ترم ها: یک مجموعه ترم بر مبناي تئوري اطلاعات یا ویژگی هاي آماري از متن ها انتخاب می شود.
 با استخراج ترم ها: ترم ها در فضاي ترم جدید T' از طریق تابع تبدیل خاصی به دست می آید (T' = ( T )) به طوري که ممکن است ترم هاي T' کاملا با ترم هاي اصلی متفاوت باشند.

اگر به پژوهش در حوزه متن کاوی علاقه مند هستید توصیه می شود حتما مجموعه بی نظیر هفتاد و چهار مقاله فارسی در زمینه متن کاوی  و مجموعه های مشابه آن را تهیه بفرمایید.

اگر در زمینه متن کاوی در حال تحقیق یا پیاده سازی پروژه یا پایان نامه هستید برای گرفتن مشاوره یا دادن سفارش انجام با ما تماس بگیرید.  آکادمی داده در تلگرام (https://t.me/dataacademyحضور دارد برای ارتباط از طریق ایمیل آدرس جیمیل: dataacademyir@gmail.com می باشد.  

افتخار آکادمی داده، همسفر بودن با شما در راه یادگیری علم داده است.