یافتن مشاهدات ناهنجار استوار بر اساس الگوریتم داده کاوی جنگل تصادفی در تشخیص تقلب کارت های اعتباری

یافتن مشاهدات ناهنجار استوار بر اساس الگوریتم داده کاوی جنگل تصادفی در تشخیص تقلب کارت های اعتباری

آکادمی داده

۱۳۹۷/۰۵/۱۱


  • 39 بازدید

در این سلسله مقالات به مفاهیم و کاربرد های داده‌کاوی، متن کاوی و علوم مرتبط با علم داده پرداخته می‌شود. با توجه به حجم عظیم مقالات تولید شده در زبان فارسی در حوزه داده کاوی و علم داده، آکادمی داده تصمیم گرفت مقالات فارسی منتشر شده در این حوزه را خلاصه برداری کرده و در اختیار علاقه مندان قرار دهد. این مقالات ابتدا با معرفی موضوع و کارهای انجام شده آغاز می شود و سپس مجموعه داده یا دیتاست تحقیق ارائه می شود و سپس پیاده سازی انجام شده در رپیدماینر، وکا یا پایتون ارائه شده و نتایج تحلیل می شود.

در این رشته نوشته ها ابتدا خلاصه ای از مقاله ارائه شده و سپس نتیجه گیری مقاله عینا آورده می گردد و سپس فایل پی دی اف آن نیز برای دانلود در اختیار محققین و پژوهشگران عزیز قرار می گیرد. 

 

مدل های استفاده شده در این پژوهش، درخت طبقه بندی Bagging و رگرسیون لوژستیک بوده است که توانسته است هدف پژوهش را برآورده کند. زیرا با ترکیب این روشها، توانستیم میزان خطا را کم کنیم و با احتمال بالایی، نقاط پرت را تشخیص دهیم .
 این پژوهش نشان داد که الگوریتم جنگل تصادفی هم در امتیاز بندی نقاط پرت و هم در تشخیص نقاط پرت دقت بالایی دارد. همچنین با بررسی دقت، حساسیت، ویژگی و مقدار AUC روش رگرسیون لوژستیک و روش Bagging عملکرد بسیار خوبی داشته است . 
الگوریتم های جنگل تصادفی و روش Bagging هر دو از الگوریتم هایی با مبنای درختی هستند. بنابراین در بعضی از سناریوهای تحقیق حاضر، عملکرد آنها بسیار به هم نزدیک شده اند. این امر به دلیل انتخاب خودکار تعداد درختان در هر الگوریتم است.
 یکی از معایب اصلی روش جنگل تصادفی زمانبر بودن آن نسبت به رگرسیون لوژستیک است. این امر به دلیل تولید درختان متعدد و حلقه های زیادی است که این الگوریتم تولید میکند. البته با توجه به پیشرفت های اخیر در حوزه ی  Data Big و محاسبات موازی و بسط این الگوریتم ها برای اجرا روی چندین سرور به طور همزمان، میتوان سرعت مطلوب را به دست آورد.
 یکی دیگر از معایب الگوریتم جنگل تصادفی، قابل تفسیر نبودن ضرایب به دست آمده از آن است. این الگوریتم با اینکه از یک مبنای کاملا تفسیرپذیر الگوریتم های  درختی، ایجاد شده است، با ساختن چندین درخت و نتیجه گیری براساس تمام آن درختان، عملا تفسیر پذیری ضرایب را غیرممکن میسازد. با این وجود نتایج به دست آمده و مقادیر پیشبینی شده آن از دقت و کارایی بالایی برخوردار است. این الگوریتم برای کاربردهایی که نیاز به تفسیر ضرایب برآورد شده نیست مانند تشخیص نقاط پرت و پیشبینی کارایی بالایی دارند.
 رگرسیون لوژستیک با اینکه سرعت بالاتری در اجرا دارد، اما مشکلات خاص خودش را نیز دارد. گاهی برای دادههای زیاد با تعداد متغیرهای بالا تابع درست نمایی احتمال آن با الگوریتم های تکراری نیوتون رافسون و یا ... همگرا نمیشود. همچنین نسبت به نقاط پرت از حساسیت بیشتری برخوردار است که برآ رد و پارامترهای مدل را به شدت تحت تاثیر قرار می دهد. برای جلوگیری از این موضوع، استفاده از رگرسیون لوژستیک مقاوم پیشنهاد میگردد که پیاده سازی آن جزییات خاص خودش را دارد.

 

این مقاله از طریق لینک قابل دسترسی است و محققین علاقه مند می توانند آن را به صورت رایگان دریافت نمایند. 


کپی برداری بدون ذکر منبع، بر اساس قانون جرائم اینترنتی و مادۀ 12 فصل سوم قانون جرائم رایانه ای غیر قانونی بوده و مجازات جزای نقدی و حبس دارد و شرعا نیز حرام است! 
اگر در زمینه داده کاوی در حال تحقیق یا پیاده سازی پروژه تجاری یا پایان نامه هستید برای گرفتن مشاوره یا دادن سفارش انجام با ما تماس بگیرید.  آکادمی داده در تلگرام، واتزآپ و تمامی پیام رسان های ایرانی(سروش، آی گپ، بله و ویسپی) با شماره 09120637751 حضور دارد برای ارتباط از طریق ایمیل آدرس جیمیل: dataacademyir@gmail.com می باشد. 


افتخار آکادمی داده، همسفر بودن با شما در راه یادگیری علم داده است.