انواع گسسته سازی در داده کاوی

انواع گسسته سازی در داده کاوی

آکادمی داده

۱۳۹۷/۰۴/۰۲


  • 215 بازدید

درعملیات گسسته سازی داده هدف آن است که نوع ویژگی های بازه ای و نرخی به نوع اسمی تبدیل شوند. این کار به این منظور صورت می پذیرد که در مسائل پیچیده داده کاوی (که در آنها داده های با انواع ویژگی های گوناگون و همچنین تعداد بالای رکوردها و ویژگیها وجود دارند) با گسسته سازی داده، سختی مسأله را کاهش داده و زمینه لازم را برای عملکرد مؤثرتر الگوریتم های یادگیری مدل فراهم آوریم. انواع روشهای گسسته سازی داده عبارتند از: 
- گسسته سازی بسامدی: در این روش عملیات گسسته سازی بر اساس بسامد رخداد رکوردها
در بازه ها صورت می گیرد. به عبارت بهتر ویژگی مورد توجه به بازه هایی تقسیم می شود، به گونه ای که تعداد رکوردهای قرار گرفته در هر بازه یکسان باشد. البته در این روش گسسته سازی، یک پارامتر که تعداد بازه های نهایی را مشخص می کند در ابتدای عملیات مقداردهی می شود. 
- گسسته سازی اندازه ای: در گسسته سازی اندازه ای پارامتری به نام اندازه بازه تعریف می شود. این پارامتر بیان می کند که حداقل چه تعداد رکورد در هر بازه قرار گیرد. به این ترتیب کل بازه ویژگی مورد پردازش، به گونه ای مورد تقسیم قرار می گیرد که در هر بازه به تعداد پارامتر اندازه است که می بایست توسط روش گسسته سازی اندازه ای در نظر گرفته شود. بازه رکورد قرار گیرد.
- گسسته سازی بخشی: در این روش پارامتری با نام تعداد بخش ها معرفی می شود. این پارامتر بیانگر تعداد بازه هایی است که در پایان عملیات گسسته سازی ایجاد خواهند شد. توجه کنید که نحوه تقسیم کردن بازه ها در این روش به گونه ای است که طول بخش های ایجاد شده با یکدیگر برابر باشند. بر خلاف دو روش قبل که تعداد رکوردهای قرار گرفته در بازه های ایجاد شده یکسان بوده، در این روش تعداد رکوردهای قرار گرفته در هر بازه اهمیتی ندارد. آنچه مهم است یکسان بودن طول بازه هاست.

گسسته سازی اطلاعاتی: در گسسته سازی اطلاعاتی هدف این است که آنتروپی بازه های تولید شده کمینه شود. در این روش ابتدا کل بازه به دو بخش تقسیم شده، سپس آنتروپی هر بخش محاسبه و با آنتروپی کمینه (پارامتر این روش گسسته سازی) مقایسه خواهد شد. در صورت بزرگتر بودن آنتروپی هر کدام از بازه های ایجاد شده نسبت به آنتروپی کمینه، عملیات مزبور برای آن بازه، به صورت بازگشتی تکرار می شود.
گسسته سازی انتخابی: در این روش گسسته سازی تعداد بازه های تولیدی و همچنین محدوده هر بازه به صورت پارامتر به الگوریتم گسسته سازی اعلام می شوند. به همین دلیل در این روش وجود اطلاعات تخصصی درباره ویژگی مورد پردازش، می تواند نقش تعیین کننده ای را در انجام موفقیت آمیز عملیات گسسته سازی ایفا نماید. در واقع در این روش گسسته سازی كل عملیات در اختیار شخص کاوشگر داده است. بنابراین وجود دانش پس زمینه از داده مورد
کاوش، اهمیت بالایی دارد. 
روش های گسسته سازی ذکر شده را می توان به دو گروه گسسته سازی ایستا و گسسته سازی پویا نیز تقسیم نمود. در گروه گسسته سازی ایستا، عملیات گسسته سازی به نمونه ها وابستگی نداشته و برای هر مجموعه داده ای، مرزهای عملیات گسسته سازی مشابه هستند. این در حالی است که در روش های گسسته سازی پویا، مرزهای عملیات گسسته سازی، وابستگی کاملی به داده ها و توزیع آنها دارد. از میان روش های مختلف گسسته سازی که پیش تر به آنها اشاره شد، روش های گسسته سازی اندازه ای و انتخابی در گروه گسسته سازی ایستا و بقیه روشها در گروه گسسته سازی پویا قرار می گیرند.

داده کاوی کاربردی، صنیعی آباده

اگر به پژوهش در حوزه داده کاوی علاقه مند هستید توصیه می شود حتما مجموعه بی نظیر پانصد مقاله فارسی در زمینه داده کاوی  و مجموعه های مشابه آن  و مقالات مرتبط با کاربرد داده کاوی در پیش بینی بیماری را تهیه بفرمایید.

اگر در زمینه متن کاوی در حال تحقیق یا پیاده سازی پروژه یا پایان نامه هستید برای گرفتن مشاوره یا دادن سفارش انجام با ما تماس بگیرید.  آکادمی داده در تلگرام (https://t.me/dataacademyحضور دارد برای ارتباط از طریق ایمیل آدرس جیمیل: dataacademyir@gmail.com می باشد.  

افتخار آکادمی داده، همسفر بودن با شما در راه یادگیری علم داده است.