شرح مهارت های متخصصین علم داده، آمار و یادگیری ماشینی

شرح مهارت های متخصصین علم داده، آمار و یادگیری ماشینی

آکادمی داده

۱۳۹۷/۰۴/۲۸


  • 60 بازدید

برای توضیح اهمیت آمار مثالی ذکر می کنیم. مطالعه ای نشان می دهد که نرخ از دست دادن مشتریان در ناحیه شمال شرق کشور ۲۲ درصد است در حالی که نرخ از دست دادن مشتریان در کل کشور ۱۵ درصد است. این نرخ در نواحی مختلف و در طول زمان تغییر می کند. بنابراین نوسان در آن امری طبیعی است. سوال این است که آیا این نوسان تصادفی است یا خیر. برای پاسخ به چنین سوالاتی از آزمون فرض استفاده می شود. بنابراین می بینید زمانی که فرضیه ای مشخص وجود دارد چه طور می توان از آمار برای پاسخ گویی به سوالات کسب و کار کمک گرفت.
گرانویل مباحث آماری زیر را به افرادی که می خواهند در زمینه علم داده کار کند، معرفی می کند: آمار و احتمال مقدماتی شامل آشنایی با مفاهیم متغیرهای تصادفی، احتمال، میانگین، واریانس، صدکها، طراحی آزمایشهای تجربی، اعتبارسنجی ضربدری، آزمون نیکویی برازش و آمار باثبات" (داشتن یک درک کلی از آن کافی است. جزئیات فنی لازم نیست) (2014 ,Granville)
یکی از سوالاتی که راجع به آمار مطرح می شود این است که آیا هنوز از هم از نمونه گیری استفاده می شود؟ زمانی که ما داده های با حجم زیاد را در اختیار داریم و توان پردازش همه آنها را داریم، باز هم نمونه گیری مفید است؟ دین در کتاب "کلان داده ها، داده کاوی و یادگیری ماشینی" می گوید : برای عده ای این تصور به وجود آمده است که نمونه گیری قدیمی شده است و دیگر جایگاهی در دنیای امروز ندارد. اما ایشان به عنوان یک متخصص آمار و عضو سابق انجمن سرشماری آمریکا بیان می کند که نمونه گیری هنوز هم مفید و معتبر است و در حل بعضی مسائل به اندازه بررسی کل داده ها نتایج خوبی را به همراه می آورد. البته نمونه گیری نمی تواند اهداف همه پروژه ها را برآورده کند. برای مثال در شناسایی داده های پرت نمونه گیری روش مناسبی برای بررسی داده ها نیست. از طرف دیگر داده های پرت در آمار معمولا بار منفی دارد. ولی در کسب و کار می تواند سودآورترین مشتریان یا بخشهای جدیدی از بازار باشد که هنوز در آن نفوذ نکرده ایم.
اگر کتابها یا مقالات مختلف در زمینه آمار یا یادگیری ماشینی را مطالعه کرده باشید حتما متوجه شده اید که مسائل مشابه و الگوریتم های مشابهی در هر دو این موضوعات آمده اند مثل مدل های پیش بینی، روش های ارزیابی مدل، الگوریتم هایی مثل رگرسیون، طبقه بندی، خوشه بندی و درخت تصمیم. همین طور در عناوین کتابها ممکن است عبارتهای یادگیری ماشینی با یادگیری آماری را ببینید. سوالی که ممکن است مطرح شود این است که آیا اینها موضوعات یکسانی هستند یا متفاوتند. روبرت تيبشیریانی واژگانی را که در این دو علم بكار می روند مقایسه کرده است: (2012 ,Tibshirani)
این دو زمینه علمی بسیاری از مفاهیم مشترک را با نامهای متفاوت استفاده می کنند: مدل=شبکه یا گراف، پارامتر=وزن، برازش=یادگیری، عملکرد روی داده های تست=تعمیم، رگرسیون، طبقه بندی=یادگیری با نظارت، خوشه بندی، برآورد چگالی=یادگیری بدون نظارت
بریمن در مقاله " مدلسازی آماری: دو فرهنگ مختلف " این دو را متفاوت تعریف می کند و تفاوت این دو را ناشی از نگرشهای مختلف می داند. در آمار به صورت سنتی برای توضیح ارتباط بین متغیرهای مستقل و وابسته از مدل های داده استفاده شده است. يعنی مدلی که داده ها به وسیله آن تولید می شود. 
در حالی که در تفکر رایج در یادگیری ماشینی ساخت مدلی که بتواند متغیر وابسته را با استفاده از متغیرهای مستقل پیش بینی کند، مورد توجه قرار می گیرد. 
اتکای بیش از حد بر مدل های داده در آمار باعث شده است که نتایج پژوهش های آماری بر مدل ساخته شده اتکا کند و از واقعیت و حل مساله فاصله بگیرد. همین موضوع باعث شده که متخصصین آمار از بسیاری از مسائل جدید و جالب دنیای امروزی فاصله بگیرند.
از تفاوتهای دیگر این دو رشته می توان به تمرکز بیشتر آمار بر تفسیر پذیری مدل ها در مقابل تمرکز بیشتر یادگیری ماشینی به دقت مدل های پیش بینی اشاره کرد.
البته بین دو گروه کشمکشهایی هم وجود دارد: برایان ریپلی در سال ۲۰۰۴ چنین بیان می کند : یادگیری ماشینی همان آمار است بدون چک کردن مدل ها و پیش فرض ها.
 بعضی از متخصصین آمار معتقدند که متخصصین یادگیری ماشینی به علم آمار مسلط نیستند و برای مسائلی که در آمار برای آنها راه حل وجود دارد از الگوریتمهای پیچیده و زمان بر مثل شبکه های عصبی یا الگوریتم ژنتیک استفاده می کنند. از طرف دیگر متخصصین آمار هم ادعا می کنند که نسبت به متخصصین یادگیری ماشینی عدم قطعیت را بهتر کمی کرده اند. (خطاهای استاندارد، فاصله اطمینان و احتمال پسین ) تاکیدی که هیچ گاه در یادکیری ماشینی وجود نداشته است. (2014 ,Wasserman) البته این دو رشته در سالهای اخیر از  دستاوردهای هم استفاده کرده اند. فعالیتهای مشترکی بین این دو گروه انجام شده است و در حال حاضر مرز دقیقی بین این دو وجود ندارد

منبع : علم داده : مفاهیم و مهارت ها، سهرابی و ایرج

کپی برداری بدون ذکر منبع، بر اساس قانون جرائم اینترنتی و مادۀ 12 فصل سوم قانون جرائم رایانه ای غیر قانونی بوده و مجازات جزای نقدی و حبس دارد و شرعا نیز حرام است! 
اگر در زمینه علم داده و داده کاوی در حال تحقیق یا پیاده سازی پروژه یا پایان نامه هستید برای گرفتن مشاوره یا دادن سفارش انجام با ما تماس بگیرید.  آکادمی داده در تلگرام، واتزآپ و تمامی پیام رسان های ایرانی(سروش، آی گپ، بله و ویسپی) با شماره 09120637751 حضور دارد برای ارتباط از طریق ایمیل آدرس جیمیل: dataacademyir@gmail.com می باشد. 


افتخار آکادمی داده، همسفر بودن با شما در راه یادگیری علم داده است.