درباره داده کاوی

درباره داده کاوی

آکادمی داده

۱۳۹۷/۰۳/۱۰


  • 135 بازدید

رشد و نفوذ کامپیوتر در سیستم های اجتماعی و اقتصادی، قابلیت آنها را در تولید و نگهـداری داده از منابع مختلف ارتقا داده است. در چنین شرایطی، حجم بسیار بالایی از داده ها در مـورد تمامی جنبههای سیستمها تولید شده است. این رشـد سـریع حجـم دادههـا، نیـاز مبرمـی بـه تکنیکها و ابزارهای اتوماتیک برای تبدیل داده ها به اطلاعات و دانش را ایجاد کرده است. این قضیه منجر به وجود آمدن حوزه جدیدی در علـوم کـامپیوتر بـه نـام داده کاوی شـده اسـت . تعریف های متفاوتی از داده کاوی وجود دارد ولی تعریفی که در بیشتر مراجع به اشـتراك ذکـرشده عبارت است از "استخراج اطلاعات و دانش و کشف الگوهای پنهان از یـک پایگـاه داده بسیار بزرگ و پیچیده"
داده کاوی کمک می کند تا سازمانها با کاوش بر داده های یک سیسـتم، الگوهـا، رونـدها و رفتارهای آینده را کشف و پیشبینی کرده و بهتر تصمیم بگیرند. داده کاوی با استفاده از تحلیل وقایع گذشته یک تحلیل خودکار و پیشبینانه ارائه میکند و به سؤالاتی جـواب مـی دهـد کـه پاسخ آنها در گذشته ممکن نبوده و یا به زمان زیادی نیاز داشت. ابزارهای داده کاوی الگوهـای پنهانی را کشف و پیش بینی می کنند که متخصصان ممکن است به دلیل اینکه این اطلاعـات و الگوها خارج از انتظار آنها باشد، آنها را مد نظر قرار ندهند و به آنها دست پیدا نکنند. الگوهای استخراج شده میتوانند رابطهای بین ویژگیها و مشخصات سیستم ماننـد نـوع تقاضـا و نـوع مشتری، پیش بینی های آینده براساس مشخصات سیستم، قوانین (اگر - آن گاه) بین متغیرهـای سیستم، دسته بندی ها و خوشه بندی های اشیا و رکوردهای شبیه به هم در یک سیسـتم و غیـره باشند.
پیش پردازش زمان برترین مرحله فرایند کشف دانش است ولی با توجـه بـه تـأثیر مسـتقیم آماده سازی داده ها بر کیفیت نتایج داده کاوی، اجرای این مرحله ضـروری مـی باشـد. داده هـای موجود در دنیای واقعی ممکن است کیفیت لازم برای شروع داده کاوی را نداشته باشند. بـرای مثال وجود نویز،نمونه های پرت ،مقادیر از دست رفته و داده های تکراری در داده هـا، اجرای مرحله پیش پردازش را ضروری می کند. همچنین ممکن است به علت جمعآوری داده از پایگاه داده های مختلف این داده ها دارای فرمتهای متفاوتی باشند. انجـام داده کـاوی روی داده هایی که دارای کیفیت پایین هستند، منجر به دستیابی به نتایج با کیفیت پایین خواهد شد. بنابراین میتوان گفت اجرای مرحله پیشپرازش روی داده ها قبل از داده کاوی عملکرد کـل فرایند را بهبود بخشد. از این رو باید به انتخاب روشهای مناسب برای پـیش پـردازش توجـه خاصی شود. روش مورد استفاده در این پژوهش برای پیش پردازش داده ها از شاخص «عامـل پرت محلی »استفاده شده است . ایـن روش یکـی از محبـوب تـرین رویکردهـای تشـخیص داده های پرت مبتنی بر چگالی است. نمـره ایـن الگـوریتم براسـاس نسـبت تـراکم قابـل دسترسی محلی از k همسایگی از شیء o بررسی میشود. این تراکم قابل دسترسی کـه بـرای محاسبه عامل پرت محلی استفاده میشود، فاکتوری هم برای k نزدیکترین همسایگی شیء o و اندازه فاصله قابل دسترسی می باشد.
از نظر مفهومی خوشه بندی، یعنی گروه بندی یک سری موجودیت در گروهای مختلـف بـه طوری که این گروهها نشاندهنده مفهوم یا معنی خاصی باشند و یا به عبارت سادهتر به یکدیگر شبیه باشند. خوشه بندی روشی آماری است که به مقایسه کمی تعـدادی موجودیـت بـر اسـاس ویژگیهای آنها پرداخته و گروههای مختلفی را که آن موجودیت ها به آن تعلق دارند، اکتشـاف میکند. به بیان دیگر، خوشه بندی، یعنی دسته بندی داده ها بـه k گـروه مختلـف بـه طـوری کـه داده هایی که در یک دسته قرار میگیرند به یکدیگر شبیه باشند و داده های دسته های مختلف بـا یکدیگر تفاوت داشته باشند.
ارائه الگویی براي تحلیل رفتار کاربران شبکه های اجتماعی با استفاده از روش های داده کاوی: یک شبکه اجتماعی در ایران، سهرابی

اگر به پژوهش در حوزه داده کاوی علاقه مند هستید توصیه می شود حتما مجموعه استثنائی و بی نظیر  پانصد مقاله فارسی در زمینه داده کاوی  و مجموعه های مشابه آن و مقالات مرتبط با کاربرد داده کاوی در پیش بینی بیماری را تهیه بفرمایید.

اگر در زمینه داده کاوی در حال تحقیق یا پیاده سازی پروژه یا پایان نامه هستید برای گرفتن مشاوره یا دادن سفارش انجام با ما تماس بگیرید.  آکادمی داده در تلگرام (https://t.me/dataacademyحضور دارد برای ارتباط از طریق ایمیل آدرس جیمیل: dataacademyir@gmail.com می باشد.  

افتخار آکادمی داده، همسفر بودن با شما در راه یادگیری علم داده است.