کاربرد روش های آماری در تحلیل و پردازش داده های بزرگ

کاربرد روش های آماری در تحلیل و پردازش داده های بزرگ

آکادمی داده

۱۳۹۷/۱۱/۱۸


  • 11 بازدید

 آکادمی داده  که به زودی پنجمین سال فعالیت خود را جشن می گیرد سالهاست به دنبال ایجاد محتوای مفید برای علاقه مندان علوم داده‌کاوی، متن کاوی و علوم مرتبط با علم داده، مدیریت دانش، هوش تجاری و مباحث مرتبط است.  آکادمی داده  امیدوار است با این اقدامات بتواند اثری هر چند اندک در افزایش آگاهی علاقه مندان به این حوزه ها داشته باشد. در این سری مقالات  آکادمی داده  تلاش دارد مقالات جالب، جدید، پر محتوا و اثرگزار را در علوم داده‌کاوی، متن کاوی، مدیریت دانش، هوش تجاری و مباحث مرتبط ارایه نماید. در این سری مقالات ابتدا مقدمه و سپس نتیجه گیری مقالات ارایه شده است و سپس‌ فایل پی دی اف مقاله برای دانلود رایگان علاقه مندان توسط  آکادمی داده تهیه شده و قابل دانلود است.

چکیده 
با گسترش علم در زمینه های مختلف، هر روز با انبوهی از اطلاعات مواجه خواهید شد. ذخیره سازی و نتیجه گیری از این اطلاعات به دست آمده خود سبب پیدایش علوم جدیدی شده است. داده بزرگ و تحلیل داده بزرگ یکی از این موارد است که در دهه ی اخیر مورد توجه محققان زیادی قرار گرفته است. . داده های بزرگ به عنوان مجموعه داده هایی شناخته شده است که توانایی برنامه های کاربردی و تکنولوژی های معمول را در مدیریت و تجزیه و تحلیل دچار چالش کرده است. وجود هرگونه خطا و اشتباهی در تحلیل داده ها می تواند به نتیجه گیری های نادرستی منجر گردد. استفاده از روش های آماری زمینه های علمی، برای تجزیه و تحلیل داده های عینی را فراهم می سازد و منجر به ارائه ی نتایج با معنا و معتبر از اطلاعات جمع آوری شده می گردد. حجم ، مقیاس و ساختار داده های حال حاضر چالش های آماری ایجاد کرده است. برای درک قوی از اطلاعات موجود در داده هایی با حجم زیاد استفاده از روش های کلاسیک آماری به تنهایی کارا نیست. ایجاد ارتباط بین روش های آماری و علوم رایانه ای، به سبب می شود که روش های کارا و سریعی برای استخراج اطلاعات نهفته ی مجموعه ای بزرگ از داده ها ارائه کرد. و منجر به طیف گسترده ای از بینش ها و منافع شود. با کمک، آمار و سایر رشته های وابسته به آن مانند داده کاوی، یادگیری ماشین، شبکه های عصبی، تحلیل شبکه های اجتماعی، پردازش سیگنال تشخیص الگو، روشهای بهینه سازی و تجسم رویکردها می توان اطلاعات نهفته ی مجموعه ای بسیار بزرگ از داده ها را به دست آورد. ترکیب مدل سازی لگاریتم خطی به عنوان یک روش آماری با رده بندی درخت رگرسیونی که از تکنیک های یادگیری ماشین یکی از روشهایی است که در تحلیل داده های رسته ای نقش مهمی دارند و در این تحقیق مورد بررسی قرار داده شده است.

نتیجه
در دنیای پیشرفته ی امروزی، هر روز حجم بی سابقه ای از اطلاعات به طور مداوم و در اکثر زمینه ها ایجاد می شود. در بررسی این اطلاعات عظیم یا همان داده های بزرگ دو موضوع اولیه مطرح می گردد. یکی جمع آوری و ذخیره سازی داده ها می باشد و دیگری تجزیه و تحلیل داده ها است. توانایی در تجزیه و تحلیل و درک مجموعه ی داده های انبوه نسبت به توانایی در جمع آوری و ذخیره سازی داده ها از اهمیت بیشتری برخوردار است. توانایی در تفسیر و استفاده از تمامی این اطلاعات مزایای اقتصادی و اجتماعی در بر داشته و سبب پیشرفت هایی در زمینه های مختلف و بهبود کیفیت خواهد شد. روشهای تحليل داده های بزرگ، روشهای ترکیبی است که با کمک آمار و سایر رشته های وابسته به آن مانند داده کاوی، یادگیری ماشین، شبکه های عصبی، تحلیل شبکه های اجتماعی، پردازش سیگنال، تشخیص الگو، روشهای بهینه سازی و تجسم رویکردها به راحتی اطلاعات نهفته ی مجموعه ای بسیار بزرگ از داده ها به دست آورده می شود. این روش ها، الگوها و تکنیک های متفاوتی از جمله رگرسیون، سری زمانی ماشین های بردار پشتیبان، درخت تصمیم و ... هستند که هر یک به فراخور داده ها و کارایی مورد نظر باید انتخاب شوند.
روش مدل سازی لگاریتم خطی برای تشخیص الگو های کلی ارتباط بین متغیر ها استفاده می شود و نمی تواند برای طبقه بندی مورد استفاده قرار گیرد. برعکس، الگوریتم درخت رده بندی رگرسیونی با انتخاب یک متغیر هدف می تواند داده ها را طبقه بندی کند و ارتباط ها را تعیین نماید. در تحلیل داده های بزرگ طبقه بندی داده ها در کشف اطلاعات از آن ها بسیار مفید و تحلیل را دقیق تر و ساده تر می کند. بنابراین نتیجه گرفته می شود که ترکیب این دو روش در سنجش الگوی ارتباط و گروه بندی متغیرها و ارائه نتیجه صحیح لازم است و اهمیت ترکیب روشهای آماری و رایانه ای در تحلیل داده های بزرگ را تایید می نماید.

این مقاله توسط آکادمی داده تهیه شده است و از طریق لینک قابل دسترسی است. محققین علاقه مند می توانند آن را به صورت رایگان دریافت نمایند. 

اگر در حال پژوهش در حوزه داده کاوی هستید، سوالات و اشکالات خود را از طریق تلگرام با آکادمی داده در میان بگذارید. با عضو شدن در کانال تلگرام  آکادمی داده از مقالات جدید و دیتاست های منتشر شده مطلع شوید. 

مجموعه مقالات فارسی در مورد کلان داده و بیگ دیتا که شامل صد 100 مقاله فارسی در مورد الگوریتم ها و روش های کلان داده و بیگ دیتا است به صورت یکجا نیز از طریق لینک قابل دسترسی هستند. 

اگر در زمینه داده کاوی در حال تحقیق یا پیاده سازی پروژه یا پایان نامه هستید برای گرفتن مشاوره یا دادن سفارش انجام با ما تماس بگیرید.  آکادمی داده در تلگرام (https://t.me/dataacademyحضور دارد برای ارتباط از طریق ایمیل آدرس جیمیل: dataacademyir@gmail.com می باشد.