درباره مفهوم انتخاب ویژگی در علم داده کاوی

درباره مفهوم انتخاب ویژگی در علم داده کاوی

آکادمی داده

۱۳۹۷/۰۳/۰۶


  • 188 بازدید

هنر یادگیری ماشین با طراحی تضمینی اطلاعات مناسب شروع میشود. عملکرد بهتر اغلب با استفاده از ویژگی ها ی بدست آمده از ورودی اصلی نتیجه میشود. ساختن یک نمونه از ویژگی، فرصتی است برای ترکیب دانش تخصصی با داده که بسیار کاربردی میباشد. این تکنیک چه در عمل و چه در تئوری تأثیر خود را در افزایش کارایی یادگیری، افزایش دقت پیشبینی و کاهش پیچیدگی نتایج آموزش داده شده، نشان داده است. هدف اصلی انتخاب ویژگی، انتخاب زیرمجموعهی متغیرهای ورودی با حذف متغیرهای نامربوط و یا متغیرهایی که فاقد اطلاعات پیشگویانه هستند، می باشد.

انتخاب ویژگی های بهینه، لایه ی اضافی پیچیدگی را در مدلسازی می افزاید، به جای پیدا کردن پارامترهای بهینه برای مجموعه کامل ویژگی ها ، ابتدا زیرمجموعهی ویژگی بهینه یافت میشود و سپس پارامترهای مدل بهینه میشوند. انتخاب ویژگی تمرکز بسیاری از تحقیقات در زمینههای کاربردی برای مجموعه دادههایی با دهها، صدها و هزاران متغیر را شامل میشود.

هدف از انتخاب ویژگی، بهبود عملکرد پیشبینی، ارائه ی پیشبینی سریعتر و مقرون به صرفه تر و ارائه ی درك بهتر از روند اطلاعات تولید شده است.

روشهای انتخاب ویژگی به دو دسته ی رپر و فیلتر طبقه بندی میشوند. در روش رپر که به جعبه ی سیاه معروف است (زیراماشین یادگیری در این روش شناخته شده نیست)، از یک تابع دسته بندی برای ارزیابی شایستگی زیرمجموعه های ویژگی استفاده میگردد. تفاوت اصلی دو روش فیلتر و رپر در دو مقوله میباشد. اول اینکه در روش فیلتر انتخاب بهترین ویژگی ها  براساس معیاری مستقل از معیار برازندگی اصل مسئله میباشد، اما در روش رپر انتخاب بهترین ویژگی ها  بر اساس معیار نهایی بوده و معیار برازندگی برای هر یک از زیرمجموعههای انتخابی مسئله اصلی میباشد. روش فیلتر ویژگی ها  را با توجه به اصول ابتکاری روی مشخصههای کلی داده ارزیابی میکند. توجیهات مختلفی جهت استفاده از فیلترها برای انتخاب زیرمجموعه مورد بحث قرار گرفته است و گزارش شده که فیلترها نسبت به رپر ها سریعتر هستند. در رویکرد فیلتر، روش انتخاب ویژگی مستقل از الگوریتم داده کاوی بکار رفته برای ویژگی های انتخاب شده است و ارتباط ویژگی ها با جستجو در مشخصه های ذاتی دادهها ارزیابی میکند. در بسیاری از موارد، امتیاز ارتباط ویژگی محاسبه شده و ویژگی ها با امتیازات پایین حذف میشوند. زیرمجموعهی ویژگی ها  پس از حذف سایر ویژگی ها  به عنوان ورودی به الگوریتم طبقه بندی داده میشوند.

بهبود دقت الگوریتم ماشین بردار پشتیبان با تکنیک انتخاب ویژگی، افشاری

کپی برداری بدون ذکر منبع، براساس قانون جرایم اینترتی و مادۀ 12 فصل سوم قانون جرایم رایانه ای غیر قانونی بوده و مجازات جزای نقدی و حبس دارد و شرعا نیز حرام است! 

اگر در داده کاوی در حال تحقیق یا پیاده سازی پروژه یا پایان نامه هستید برای گرفتن مشاوره یا دادن سفارش انجام با ما تماس بگیرید.  آکادمی داده در تلگرام، واتزآپ و تمامی پیام رسان های ایرانی(سروش، آی گپ، بله، گپ و ویسپی) با شماره 09120637751 حضور دارد برای ارتباط از طریق ایمیل آدرس جیمیل: dataacademyir@gmail.com می باشد. 

افتخار آکادمی داده، همسفر بودن با شما در راه یادگیری علم داده است.