ارائه و ارزیابی مدلی كارآمد جهت بهبود تعیین رشته دانش آموزان مقطع متوسطه با استفاده از روش های رده بندی داده كاوی

ارائه و ارزیابی مدلی كارآمد جهت بهبود تعیین رشته دانش آموزان مقطع متوسطه با استفاده از روش های رده بندی داده كاوی

آکادمی داده

۱۳۹۷/۰۴/۲۸


  • 74 بازدید

در این سلسله مقالات به مفاهیم و کاربرد های داده‌کاوی، متن کاوی و علوم مرتبط با علم داده پرداخته می‌شود. با توجه به حجم عظیم مقالات تولید شده در زبان فارسی در حوزه داده کاوی و علم داده، آکادمی داده تصمیم گرفت مقالات فارسی منتشر شده در این حوزه را خلاصه برداری کرده و در اختیار علاقه مندان قرار دهد. این مقالات ابتدا با معرفی موضوع و کارهای انجام شده آغاز می شود و سپس مجموعه داده یا دیتاست تحقیق ارائه می شود و سپس پیاده سازی انجام شده در رپیدماینر، وکا یا پایتون ارائه شده و نتایج تحلیل می شود.

در این رشته نوشته ها ابتدا خلاصه ای از مقاله ارائه شده و سپس نتیجه گیری مقاله عینا آورده می گردد و سپس فایل پی دی اف آن نیز برای دانلود در اختیار محققین و پژوهشگران عزیز قرار می گیرد. 


با استفاده از روش اعتبارسنجی fold cross - validation -10 که یکی از هوشمندانه ترین روش های ارزیابی رده بندها می باشد و با بکارگیری روش های مختلف رده بندی مدلسازی صورت پذیرفته است. الگوریتم های استفاده شده در این قسمت عبارت اند از روش های پایه رگرسیون لجستیک، بیز ساده، شبکه های بیز، نزدیک ترین همسایگی، درخت تصمیم (CHAID J48 ، C4 . 5 ، CART و بیز) ، ماشین های بردار پشتیبان، ماشین های بردار پشتیبان بهینه شده، شبکه های عصبی مصنوعی و روش های جمعی بگینگ و بوستینگ این روش ها می باشند. در همین راستا تمامی این الگوریتم ها بر روی هر ۵ | مجموعه داده اعمال شدند. در ادامه تنها n متغیری را به منظور مدلسازی انتخاب نمودیم که بیشترین وزن را داشته باشند. در این مقاله n عددی بین ۸ تا ۴۰ قرار گرفته است. در جدول ۴. مدل های برتر (از نظر شاخص ارزیابی دقت و شاخص F) از بین تمامی مدل ها بر روی هر مجموعه داده نمایش داده شده است.
با توجه به جدول ۴-۱۷ و با بررسی و مقایسه مدل های مشابه آورده شده به این نتیجه می رسیم که مدل های دارای دقت بیش از ۹۰ درصد همگی مرز رکوردهای آنها از ۱۰۰۰ نمونه رد کرده است. لذا با توجه به تعداد رکوردهای محدود جمع آوری شده برای هر مجموعه داده دقت حاصل از مدلسازی های ارائه شده بسیار قابل توجه است. در مجموع می توان گفت با بررسی بر روی ۱۰ مدل برتر هر مجموعه داده در این تحقیق روش های وزندهی به متغیرها به منظور انتخاب ویژگی روش های مناسب تری نسبت به روش های انتخاب ویژگی براساس بهینه سازی مانند الگوریتم ژنتیک بوده اند. همچنین در بین روشهای وزن دهی روش کای دو تقریبا در تمامی مجموعه داده ها توانسته است تاثیر گذار ترین متغیرها را انتخاب نماید. 
به منظور جمع بندی کلی در خصوص مدل های برتر رده بندی می توان اظهار نمود که روشهای بر پایه درخت تصمیم مانند درخت C4.5 و روش های ماشین بردار پشتیبان و رگرسیون لجستیک برترین روش های رده بندی بوده اند. همچنین مشخص است که در تمامی مجموعه داده ها با انتخاب حداقل ۸ الی ۲۳ متغیر تاثیر گذار از بین تمامی متغیرها می توان به بیشترین دقت در مدلسازی دست یافت.

 

 

این مقاله از طریق لینک قابل دسترسی است و محققین علاقه مند می توانند آن را به صورت رایگان دریافت نمایند. 


کپی برداری بدون ذکر منبع، بر اساس قانون جرائم اینترنتی و مادۀ 12 فصل سوم قانون جرائم رایانه ای غیر قانونی بوده و مجازات جزای نقدی و حبس دارد و شرعا نیز حرام است! 
اگر در زمینه داده کاوی در حال تحقیق یا پیاده سازی پروژه تجاری یا پایان نامه هستید برای گرفتن مشاوره یا دادن سفارش انجام با ما تماس بگیرید.  آکادمی داده در تلگرام، واتزآپ و تمامی پیام رسان های ایرانی(سروش، آی گپ، بله و ویسپی) با شماره 09120637751 حضور دارد برای ارتباط از طریق ایمیل آدرس جیمیل: dataacademyir@gmail.com می باشد. 


افتخار آکادمی داده، همسفر بودن با شما در راه یادگیری علم داده است.