تعریفی برای مفهوم خوشه بندی در داده کاوی

تعریفی برای مفهوم خوشه بندی در داده کاوی

آکادمی داده

۱۳۹۷/۰۳/۲۳


  • 213 بازدید

خوشه بندی ابتدا به منظور شناخت جامعه مورد مطالعه از روش خوشه بندی استفاده شده است. زمانی که شناخت زیادی از مجموعه داده وجود ندارد، برای شناختن گروه های مختلف مجموعه مورد مطالعه می توان از الگوریتم های مختلف خوشه بندی استفاده نمود. از آنجایی که برای الگوریتم های خوشه بندی ویژگی دسته تعریف نمی شود و رکورد ها برچسب خاصی ندارند، جزء روش های غیر نظارتی محسوب می شوند. خوشه بندی داده ها را طوری گروه بندی می کند که داده های در یک خوشه بسیار شبیه به هم و همچنین متفاوت از سایر گروه ها هستند. هر چه شباهت میان داده های در یک خوشه (شباهت درون خوشه ای) بیشتر و تفاوت آن ها با سایر خوشه ها )فاصله بین خوشه ای) بیشتر باشد. خوشه بندی دارای کیفیت بیشتری خواهد بود. یکی از معروف ترین الگوریتم های خوشه بندی الگوریتم خوشه بندی k-means است. 
خوشه بندی k-means در سال 1965 توسط Forgy ارائه شد که یک روش طبقه بندی بدون نظارت است. این روش علیرغم سادگی آن، یک روش پایه برای بسیاری از روشهای خوشه بندی دیگر (مانند خوشه بندی فازی) محسوب می شود. این روش، روشی انحصاری و مسطح محسوب میشود. در اجرای الگوریتم k-means ،اولین کار مشخص کردن K یا همان تعداد خوشه ها است. برای این الگوریتم شکلهای مختلفی بیان شده است. ولی همه آنها دارای روالی تکراری هستند. الگوریتم زیر الگوریتم پایه برای این روش محسوب میشود:
1 .در ابتدا K نقطه به عنوان مراکز خوشه ها انتخاب میشوند.
2 .هر نمونه داده به خوشهای که مرکز آن خوشه کمترین فاصله تا آن داده را داراست، نسبت داده میشود.
 3 .پس از تعلق تمام داده ها به یکی از خوشه ها برای هر خوشه یک نقطه جدید به عنوان مرکز محاسبه می شود (میانگین نقاط متعلق به هر خوشه). 
 4 .مراحل 2 و 3 تکرار میشوند تا زمانی که دیگر هیچ تغییری در مراکز خوشه ها حاصل نشود. 
به منظور ارزیابی کیفیت خوشه بندی، می توان از شاخص های سنجش کیفیت خوشه ها استفاده کرد. با اندازه گیری شاخص کیفیت برای هر بار اجرای خوشه بندی با تعداد خوشه مختلف، و با در نظر گرفتن بهترین نتیجه، می توان به تعداد بهینه خوشه ها پی برد. بهترین نتیجه زمانی اتفاق می افتد که شباهت داده های درون خوشه و همچنین عدم شباهت داده ها بین خوشه های مختلف به حداکثر ممکن برسد

استفاده از الگوریتم های داده کاوی در بررسی عوامل موثر بر پیش بینی وضعیت بدو تولد نوزادان، باقری

کپی برداری بدون ذکر منبع، براساس قانون جرایم اینترتی و مادۀ 12 فصل سوم قانون جرایم رایانه ای غیر قانونی بوده و مجازات جزای نقدی و حبس دارد و شرعا نیز حرام است! 

اگر در زمینه داده کاوی در حال تحقیق یا پیاده سازی پروژه تجاری یا پایان نامه هستید برای گرفتن مشاوره یا دادن سفارش انجام با ما تماس بگیرید.  آکادمی داده در تلگرام، واتزآپ و تمامی پیام رسان های ایرانی(سروش، آی گپ، بله، گپ و ویسپی) با شماره 09120637751 حضور دارد برای ارتباط از طریق ایمیل آدرس جیمیل: dataacademyir@gmail.com می باشد. 

افتخار آکادمی داده، همسفر بودن با شما در راه یادگیری علم داده است.