بهبود دقت رده بندی های تشخیص تقلب روی مجموعه داده نامتوازن بیمه با استفاده از نمونه برداری ترکیبی

بهبود دقت رده بندی های تشخیص تقلب روی مجموعه داده نامتوازن بیمه با استفاده از نمونه برداری ترکیبی

آکادمی داده

۱۳۹۷/۰۵/۱۱


  • 58 بازدید

در این سلسله مقالات به مفاهیم و کاربرد های داده‌کاوی، متن کاوی و علوم مرتبط با علم داده پرداخته می‌شود. با توجه به حجم عظیم مقالات تولید شده در زبان فارسی در حوزه داده کاوی و علم داده، آکادمی داده تصمیم گرفت مقالات فارسی منتشر شده در این حوزه را خلاصه برداری کرده و در اختیار علاقه مندان قرار دهد. این مقالات ابتدا با معرفی موضوع و کارهای انجام شده آغاز می شود و سپس مجموعه داده یا دیتاست تحقیق ارائه می شود و سپس پیاده سازی انجام شده در رپیدماینر، وکا یا پایتون ارائه شده و نتایج تحلیل می شود.

در این رشته نوشته ها ابتدا خلاصه ای از مقاله ارائه شده و سپس نتیجه گیری مقاله عینا آورده می گردد و سپس فایل پی دی اف آن نیز برای دانلود در اختیار محققین و پژوهشگران عزیز قرار می گیرد. 

 

در این پژوهش جهت تقلب بیمه به دلیل محدودیت دسترسی به داده های شرکتهای بیمه داخلی، از یک مجموعه داده استاندارد به شدت نامتوازن استفاده شد. جهت توازن سازی به علت بالا بودن نرخ داده پرت در کلاس اکثریت از یک روش ترکیبی نمونه برداری استفاده شد. ابتدا پرت های سراسری با روش مجاورتی کانزدیکترین همسایه حذف و در ادامه جهت حذف پرت های محلی با محاسبه چگالی هر نقطه، فاکتور داده محلی اعمال شد. از آنجا که چند متغیر مانند متغیر برچسب نامتوازن بودند، روی ۲۵ متغیر خروجی برای کاهش ابعاد و انتخاب ویژگی روش پرقدرت تحلیل مولفه های اصلی پیشنهاد شد. این روش ۱۴ متغیر ناهمبسته عددی تولید کرد. در ادامه در مرحله مدل سازی پس از چند مرحله اجرا و تست روی رده بندها، بردار پشتیبان با تغییر پارامترها و مقدار حد آستانه تغییرات زیادی نداشت؛ زیرا همواره تغییر پارامترهای بردار پشتیبان مانند انواع توابع کرنل و مقدار پارامترهای جریمه خطا و گاما تاثیر زیادی روی دقت این رده بند دارد. این پژوهش لزوم استفاده از روشهای بهینه سازی جهت انتخاب بهینه ترین پارامتر را اثبات کرد. با ازدحام ذرات توانستیم مهم ترین معیار، یعنی معیار حساسیت را ۹۴٫۲۶ درصد روی بردار پشتیبان بهبود دهیم. هم چنین دقت کل را تا ۱۲ درصد افزایش دادیم. 
در تمام رده بندها تغییر پارامتر حد آستانه تاثیر زیادی در نتایج رده بندی ها داشت. این پژوهش ابتدا نشان داد روش پیشنهادی و ترکیبی تشخیص داده پرت توانست پرت های زیادی از کلاس اکثریت حذف کند، هم چنین روشهای انتخاب ویژگی با توجه به ویژگی های متغیرها روی این مجموعه داده ضروری به نظر می رسد. با توجه به حساسیت تعداد پارامترها و مقدارهای حد آستانه روش ترکیبی پیشنهادی، می توان سایر تکنیک ها و روشهای انتخاب بهینه ترین مقدار را جهت بهبود اعمال کرد. هم چنین روشهای دیگر انتخاب ویژگی پیشنهاد می شود.

 

این مقاله از طریق لینک قابل دسترسی است و محققین علاقه مند می توانند آن را به صورت رایگان دریافت نمایند. 


کپی برداری بدون ذکر منبع، بر اساس قانون جرائم اینترنتی و مادۀ 12 فصل سوم قانون جرائم رایانه ای غیر قانونی بوده و مجازات جزای نقدی و حبس دارد و شرعا نیز حرام است! 
اگر در زمینه داده کاوی در حال تحقیق یا پیاده سازی پروژه تجاری یا پایان نامه هستید برای گرفتن مشاوره یا دادن سفارش انجام با ما تماس بگیرید.  آکادمی داده در تلگرام، واتزآپ و تمامی پیام رسان های ایرانی(سروش، آی گپ، بله و ویسپی) با شماره 09120637751 حضور دارد برای ارتباط از طریق ایمیل آدرس جیمیل: dataacademyir@gmail.com می باشد. 


افتخار آکادمی داده، همسفر بودن با شما در راه یادگیری علم داده است.