الگوریتم های به روز رسانی افزایشی الگوهای پرتکرار مبتنی بر FP- growth

الگوریتم های به روز رسانی افزایشی الگوهای پرتکرار مبتنی بر  FP- growth

آکادمی داده

۱۳۹۷/۰۴/۲۸


  • 157 بازدید

در این سلسله مقالات به مفاهیم و کاربرد های داده‌کاوی، متن کاوی و علوم مرتبط با علم داده پرداخته می‌شود. با توجه به حجم عظیم مقالات تولید شده در زبان فارسی در حوزه داده کاوی و علم داده، آکادمی داده تصمیم گرفت مقالات فارسی منتشر شده در این حوزه را خلاصه برداری کرده و در اختیار علاقه مندان قرار دهد. این مقالات ابتدا با معرفی موضوع و کارهای انجام شده آغاز می شود و سپس مجموعه داده یا دیتاست تحقیق ارائه می شود و سپس پیاده سازی انجام شده در رپیدماینر، وکا یا پایتون ارائه شده و نتایج تحلیل می شود.

در این رشته نوشته ها ابتدا خلاصه ای از مقاله ارائه شده و سپس نتیجه گیری مقاله عینا آورده می گردد و سپس فایل پی دی اف آن نیز برای دانلود در اختیار محققین و پژوهشگران عزیز قرار می گیرد. 

 

در جدول 1 الگوریتم های بررسی شده در این مقاله مورد مقایسه قرار گرفته اند. همان طور كه در جدول 1 نيز مشاهده می شود تمامی الگوریتم ها به جز الگوریتم FUFP با یک اسکن پایگاه داده، الگوهای پرتکرار را استخراج می نمایند. الگوریتم FUFP به دليل اینکه در بدترین حالت مجبور به اسکن دوباره ی پایگاه داده است در پایگاه داده های بزرگ پرهزینه عمل ميکند. ضمن اینکه درخت غيرفشرده ای نيز توليد ميکند كه موجب زمانبر شدن استخراج الگوهای پرتکرار در آن می شود. همچنين CanTree نيز به دليل ایجاد درخت غيرفشرده، پروسه ی استخراج الگوهای بسيار زمانبری دارد. الگوریتم های tree-CP و tree-SPO ممکن است بازسازی های متعددی داشته باشند كه پروسه ی ساخت درخت را بسيار زمانبر ميکند. در عوض الگوریتم های tree-IP و -DFP tree تنها با یک بازسازی، درخت فشرده ای ایجاد ميکنند كه زمان ساخت درخت را كاهش ميدهد. هر چند tree-IP به دليلی اینکه قبل از بازسازی بر اساس متد CanTree درخت را ميسازد؛ درخت ساخته شده ی آن قبل از بازسازی به حافظه ی زیادی برای نگهداری نودها نياز دارددر جدول 1 الگوریتم های بررسی شده در این مقاله مورد مقایسه قرار گرفته اند. همان طور كه در جدول 1 نيز مشاهده می شود تمامی الگوریتم ها به جز الگوریتم FUFP با یک اسکن پایگاه داده، الگوهای پرتکرار را استخراج می نمایند. الگوریتم FUFP به دليل اینکه در بدترین حالت مجبور به اسکن دوباره ی پایگاه داده است در پایگاه داده های بزرگ پرهزینه عمل ميکند. ضمن اینکه درخت غيرفشرده ای نيز توليد ميکند كه موجب زمانبر شدن استخراج الگوهای پرتکرار در آن می شود. همچنين CanTree نيز به دليل ایجاد درخت غيرفشرده، پروسه ی استخراج الگوهای بسيار زمانبری دارد. الگوریتم های tree-CP و tree-SPO ممکن است بازسازی های متعددی داشته باشند كه پروسه ی ساخت درخت را بسيار زمانبر ميکند. در عوض الگوریتم های tree-IP و -DFP tree تنها با یک بازسازی، درخت فشرده ای ایجاد ميکنند كه زمان ساخت درخت را كاهش ميدهد. هر چند tree-IP به دليلی اینکه قبل از بازسازی بر اساس متد CanTree درخت را ميسازد؛ درخت ساخته شده ی آن قبل از بازسازی به حافظه ی زیادی برای نگهداری نودها نياز دارد.
 

این مقاله از طریق لینک قابل دسترسی است و محققین علاقه مند می توانند آن را به صورت رایگان دریافت نمایند. 


کپی برداری بدون ذکر منبع، بر اساس قانون جرائم اینترنتی و مادۀ 12 فصل سوم قانون جرائم رایانه ای غیر قانونی بوده و مجازات جزای نقدی و حبس دارد و شرعا نیز حرام است! 
اگر در زمینه داده کاوی در حال تحقیق یا پیاده سازی پروژه تجاری یا پایان نامه هستید برای گرفتن مشاوره یا دادن سفارش انجام با ما تماس بگیرید.  آکادمی داده در تلگرام، واتزآپ و تمامی پیام رسان های ایرانی(سروش، آی گپ، بله و ویسپی) با شماره 09120637751 حضور دارد برای ارتباط از طریق ایمیل آدرس جیمیل: dataacademyir@gmail.com می باشد. 


افتخار آکادمی داده، همسفر بودن با شما در راه یادگیری علم داده است.