پویش داده در داده کاوی

پویش داده در داده کاوی

آکادمی داده

۱۳۹۷/۰۴/۰۲


  • 109 بازدید

هدف اصلی در پویش داده این است که قبل از انجام تحلیل های داده کاوی با انجام یک پیش پردازش ساده روی داده ها، اطلاعات با ارزشی گردآوری شود. در واقع پویش داده برای درک بهتر خصوصیات داده انجام میشود. انگیزه های اصلی پویش داده عبارتند از: کمک کردن در انتخاب بهترین ابزارها برای پیش پردازش داده ها و تحلیل های داده کاوی و همچنین استفاده از تواناییهای بشر برای شناسایی الگوهای بصری (انسان ها می توانند الگوهای کلی، الگوهای غیر طبیعی، داده های پرت و دیگر نظم های تصویری را که حتی توسط ابزارهای تحلیل داده شناسایی نمی شوند با توجه به شکل مصورسازی شده ی داده شناسایی کنند). در مصورسازی داده خیلی از مباحث مطرح در EDA مورد استفاده قرار می گیرد. در EDA که شاخه ای از علم آمار است، تمرکز بر روی پویش داده است و طی آن روش های خوشه بندی و تشخیص ناهنجاری به عنوان روش های پویش مورد بهره برداری قرار خواهد گرفت. همان گونه که پیش تر عنوان شد، در داده کاوی از روش های خوشه بندی و تشخیص ناهنجاری به عنوان الگوریتم های یادگیری مدل استفاده می شود.
یکی از مسائل مهم این است که فرآیند تبدیل داده ها به ساختار جدولی یا بصری چگونه انجام شود. برای این منظور ویژگیهای داده ها و ارتباطات میان آنها به عناصر گرافیکی نظیر نقاط، خطوط، شکل ها و رنگ ها تبدیل می شوند. به عنوان مثال هر رکورد اغلب به صورت یک نقطه نمایش داده می شود. ویژگی های داده ها به صورت موقعیت، وضعیت و یا خصوصیات آن نقاط (یعنی: رنگ، اندازه و شکل ) نمایش داده خواهد شد. در نهایت وقتی موقعیت و وضعیت نقاط مشخص شد، ارتباطات بین نقاط (یعنی اینکه آیا آنها یک گروه و دسته مشخص را تشکیل میدهند یا یک داده پرت هستند) به آسانی قابل مشاهده است.
در این بخش برای تبیین انواع روش های پویش داده از یک مجموعه داده معروف، بانام مجموعه داده iris استفاده می شود. این مجموعه داده شامل ۱۵۰ رکورد است که متعلق به سه دسته مختلف هستند. این سه دسته در واقع سه نوع گل مختلف را نمایش می دهند. هر رکورد در این مجموعه داده، یک گل را نشان میدهد که چهار ویژگی طول گلبرگ ، عرض گلبرگ ، طول کاسبرگ" وعرض کاسبرگ را شامل می شود. سه نوع گل مختلف نیز عبارتند از: Virginica Setosa و Versicolour. در پنجمین ستون متعلق به هر رکورد یکی از این سه مقدار قرار دارد. روش های پویش داده را می توان در سه دسته تقسیم بندی نمود. این روش ها عبارتند از: آمارهای کلان، مصورسازی داده و پردازش تحلیلی بر خط . 

داده کاوی کاربردی، صنیعی آباده

اگر به پژوهش در حوزه داده کاوی علاقه مند هستید توصیه می شود حتما مجموعه بی نظیر پانصد مقاله فارسی در زمینه داده کاوی  و مجموعه های مشابه آن  و مقالات مرتبط با کاربرد داده کاوی در پیش بینی بیماری را تهیه بفرمایید.

اگر در زمینه متن کاوی در حال تحقیق یا پیاده سازی پروژه یا پایان نامه هستید برای گرفتن مشاوره یا دادن سفارش انجام با ما تماس بگیرید.  آکادمی داده در تلگرام (https://t.me/dataacademyحضور دارد برای ارتباط از طریق ایمیل آدرس جیمیل: dataacademyir@gmail.com می باشد.  

 

افتخار آکادمی داده، همسفر بودن با شما در راه یادگیری علم داده است.