در این سلسله مقالات به مفاهیم و کاربرد های دادهکاوی، متن کاوی و علوم مرتبط با علم داده پرداخته میشود. با توجه به حجم عظیم مقالات تولید شده در زبان فارسی در حوزه داده کاوی و علم داده، آکادمی داده تصمیم گرفت مقالات فارسی منتشر شده در این حوزه را خلاصه برداری کرده و در اختیار علاقه مندان قرار دهد. این مقالات ابتدا با معرفی موضوع و کارهای انجام شده آغاز می شود و سپس مجموعه داده یا دیتاست تحقیق ارائه می شود و سپس پیاده سازی انجام شده در رپیدماینر، وکا یا پایتون ارائه شده و نتایج تحلیل می شود.
در این رشته نوشته ها ابتدا خلاصه ای از مقاله ارائه شده و سپس نتیجه گیری مقاله عینا آورده می گردد و سپس فایل پی دی اف آن نیز برای دانلود در اختیار محققین و پژوهشگران عزیز قرار می گیرد.
آموزش ابزارِ داده کاوی رپیدماینر
معرفی منابع برای یادگیری داده کاوی
مدل های استفاده شده در این پژوهش، درخت طبقه بندی Bagging و رگرسیون لوژستیک بوده است که توانسته است هدف پژوهش را برآورده کند. زیرا با ترکیب این روشها، توانستیم میزان خطا را کم کنیم و با احتمال بالایی، نقاط پرت را تشخیص دهیم .
این پژوهش نشان داد که الگوریتم جنگل تصادفی هم در امتیاز بندی نقاط پرت و هم در تشخیص نقاط پرت دقت بالایی دارد. همچنین با بررسی دقت، حساسیت، ویژگی و مقدار AUC روش رگرسیون لوژستیک و روش Bagging عملکرد بسیار خوبی داشته است .
الگوریتم های جنگل تصادفی و روش Bagging هر دو از الگوریتم هایی با مبنای درختی هستند. بنابراین در بعضی از سناریوهای تحقیق حاضر، عملکرد آنها بسیار به هم نزدیک شده اند. این امر به دلیل انتخاب خودکار تعداد درختان در هر الگوریتم است.
یکی از معایب اصلی روش جنگل تصادفی زمانبر بودن آن نسبت به رگرسیون لوژستیک است. این امر به دلیل تولید درختان متعدد و حلقه های زیادی است که این الگوریتم تولید میکند. البته با توجه به پیشرفت های اخیر در حوزه ی Data Big و محاسبات موازی و بسط این الگوریتم ها برای اجرا روی چندین سرور به طور همزمان، میتوان سرعت مطلوب را به دست آورد.
یکی دیگر از معایب الگوریتم جنگل تصادفی، قابل تفسیر نبودن ضرایب به دست آمده از آن است. این الگوریتم با اینکه از یک مبنای کاملا تفسیرپذیر الگوریتم های درختی، ایجاد شده است، با ساختن چندین درخت و نتیجه گیری براساس تمام آن درختان، عملا تفسیر پذیری ضرایب را غیرممکن میسازد. با این وجود نتایج به دست آمده و مقادیر پیشبینی شده آن از دقت و کارایی بالایی برخوردار است. این الگوریتم برای کاربردهایی که نیاز به تفسیر ضرایب برآورد شده نیست مانند تشخیص نقاط پرت و پیشبینی کارایی بالایی دارند.
رگرسیون لوژستیک با اینکه سرعت بالاتری در اجرا دارد، اما مشکلات خاص خودش را نیز دارد. گاهی برای دادههای زیاد با تعداد متغیرهای بالا تابع درست نمایی احتمال آن با الگوریتم های تکراری نیوتون رافسون و یا ... همگرا نمیشود. همچنین نسبت به نقاط پرت از حساسیت بیشتری برخوردار است که برآ رد و پارامترهای مدل را به شدت تحت تاثیر قرار می دهد. برای جلوگیری از این موضوع، استفاده از رگرسیون لوژستیک مقاوم پیشنهاد میگردد که پیاده سازی آن جزییات خاص خودش را دارد.
این مقاله از طریق لینک قابل دسترسی است و محققین علاقه مند می توانند آن را به صورت رایگان دریافت نمایند.
اگر به پژوهش در حوزه کشف تقلب در بانکداری علاقه مند هستید توصیه می شود حتما مجموعه جالب و بی همتای هفتاد مقاله فارسی در زمینه کشف تقلب در بانکداری و کشف تقلب مالی را تهیه بفرمایید.
اگر در زمینه کشف تقلب در بانکداری در حال تحقیق یا پیاده سازی پروژه یا پایان نامه هستید برای گرفتن مشاوره یا دادن سفارش انجام با ما تماس بگیرید. آکادمی داده در تلگرام (https://t.me/dataacademy) حضور دارد برای ارتباط از طریق ایمیل آدرس جیمیل: dataacademyir@gmail.com می باشد.
افتخار آکادمی داده، همسفر بودن با شما در راه یادگیری علم داده است.
افتخار آکادمی داده، همسفر بودن با شما در راه یادگیری علم داده است.