در این بخش پرسش و پاسخ های که در گروه های تلگرامی در حوزه علم داده، داده کاوی، متن کاوی و نظرکاوی رد و بدل می شود ارائه خواهد شد. بد نیست این مقدمه خوانده شود.
جامعهمان به شدت دارد کوتاهمدت میشود. چیزی شبیه مفهوم «جامعه کلنگی» کاتوزیان. کاتوزیان در مقالهای که بعدها بهصورت کتاب در آمد، جامعه ایران را کلنگی مینامد؛ بدین معنا که هر حکومت و هر مسئولی که آمد، هر آنچه حکومت و مسئولین پیش از وی ساخته بودند را از بیخ و بن ویران، و خود از نو شروع به ساختن میکند. قاجارها یادگارهای صفوی را ویران کردند؛ پهلویها دستاوردهای قاجاریان را و جمهوری اسلامی، دستاوردهای پهلوی را. به همین ترتیب، هر رئیسجمهورمان در جمهوری اسلامی نیز، دستاوردهای رؤسای جمهور پیشین را از بیخ و بن ریشهکن کرد تا خود طرحی نو در اندازد؛ بیآنکه بداند رئیسجمهور بعدی، همین بلا را سر خود او خواهد آورد.
به همین شیوه، همین که فیسبوک با استقبال ایرانیان روبرو میشود، فیلتر میگردد؛ تلگرام هم همین طور. در بسیاری از این شبکهها، سرمایهی اجتماعیای شکل میگیرد که این روزها ایران به شدت به آن نیاز دارد. صدها استاد دانشگاه، روزنامهنگار، روحانی، شبکهی خبری داخلی و… در تلگرام توانستهاند اعتماد مردم را جلب کرده و سرمایهی اجتماعی ایرانیان را از دل همین کانالها شکل یا افزایش بدهند. با فیلتر شدن تلگرام، نه تنها دهها هزار کسب و کار تلگرامی از بین خواهد رفت، بلکه این سرمایهی اجتماعی که اهمیتش از آن کسب و کارها به مراتب بیشتر است نیز ویران خواهد شد. تا شبکه اجتماعی دیگری بین مردم جا بیفتد و سرمایهی اجتماعی دوبارهای جان بگیرد، بخش زیادی از این سرمایهها برای همیشه از ایران رخت بر خواهد بست. جامعهشناس فرانسوی، بوردیو، از امکان تبدیل سرمایهها به یکدیگر سخن میگوید. یعنی شما میتوانی از سرمایه اقتصادیات برای توسعه سرمایه اجتماعی سود ببری یا بالعکس. از میان برداشتن سرمایههای اجتماعی در تلگرام، زیانی برابر یا حتی بیشتر از نابودی سرمایههای اقتصادی دارد. مانند این است که مسئولین بگویند همه دارندگان حساب در فلان بانک، حسابشان که طی این چند سال و با تلاش و کوشش پسانداز کردهاند، مسدود و نابود شده و میتوانند از ابتدا در بهمان بانک حساب باز کرده و دوباره از اول شروع به پسانداز کنند.
بیگمان سرمایهی اجتماعیای که در آینده و شبکه اجتماعی دیگری شکل بگیرد نیز، همچون همین فیسبوک و تلگرام، هیچ تضمینی بر ماندگاریاش نیست. بدین شیوه، صدها سال است در چرخهای از ساختن و ویران کردن دچار شدهایم و پیشرفت بر پایه داشتهها و انباشتههای پیشین را، تنها در کشورهای همسایهای میبینیم که روز به روز از ما بیشتر فاصله میگیرند.
منبع : https://t.me/moghaddames
با توجه به فیلتر تلگرام و عدم دسترسی افراد علاقه مند به حوزه علم داده در مدت های آتی، آکادمی داده تصمیم گرفت سوال ها و جواب های مفید که ممکن است مورد سوال دهها تن باشد را در مقالاتی ارائه دهد. البته باید در نظر داشت که تضمینی بر درستی پاسخ ها وجود ندارد ولی قطعا می تواند در راه رسیدن به پاسخ صحیح تر راهگشا باشد. با توجه به ازدیاد این سوالات و پاسخ ها امکان منبع نویسی برای آن ها و اینکه سوال کننده و پاسخ دهنده چه کسانی بودند میسر نیست به همین دلیل به گروههای که این مباحث در آن ها مطرح شده است بسنده خواهد شد. با امید به این که برای علاقه مندان علم داده، داده کاوی، متن کاوی و علوم مرتبط مفید باشد.
افتخار آکادمی داده، همسفر بودن با شما در راه یادگیری علم داده است.
سلام وقت بخير
چنانچه از نظر آماري مشخص شد كه بين دو فيچر، ارتباطي وجود ندارد، ايا با هر الگوريتم ديگه اي هم كه بررسي بشه، اين نتيجه ثابته و يا ممنكه تغيير كنه؟؟
سلام.اگر اثبات بشه هیچ ارتباطی ندارند بله ولی اگر اثبات بشه که وابستگی بین فیچر ها وجود داره باید از لحاظ فیزیکی هم اثبات بشه صرف اثبات اماری برای وابستگی بین چند متغییر کافی نیست بلکه شرط لازم هستش.
افتخار آکادمی داده، همسفر بودن با شما در راه یادگیری علم داده است.
سلام وقت بخیر. شما اطلاع دارید شبیه سازی یک سیستم به صورت گسسته پیشامد که از درس های مهندسی صنایع هست و فرآیند کاوی چی هست؟ و اینکه می تونید یه منبع مناسب برای فرآیند کاوی معرفی کنید؟
با شبیه سازی امکان ایجاد و شبیه سازی فرایندها و بررسی بهره وری آنها طبق محیط آزمایشگاهی وجود دارد اما در فرایندکاوی به دنبال اهدافی همانند
Process Discovery
Process Conformance
Process Enchancement
و... خواهم بود.
بابت کتاب هم کتاب زیر مناسب هست.
Process Mining, Data Science in action
در وبسایت Coursera هم یک چندین دوره خوب در این حوزه وجود دارد.
افتخار آکادمی داده، همسفر بودن با شما در راه یادگیری علم داده است.
سلام
دوستان میشه لطف کنید اونایی که درباره دیتا ساینس اطلاعاتی دارن یکم توضیح بدن ؟؟؟؟؟
چه پیش نیازایی لازم داره و تو چه چیزایی باید مهارت داشته باشیم؟؟
سلام علم داده یعنی علم و مهارت استخراج دانش مستتر از دل داده ها
داده صرفا اشاره به اطلاعات تک بعدی از یک خصوصیت خاص داره و دانش، درکی است که از کنار هم قرار گرفتن داده های مربوط به چند تا خصوصیت در مورد یه موضوع خاص، به دست میاد. مثلا قد و وزن و سن و جنسیت هر کدوم به تنهایی یک داده در مورد خصوصیتهای یک فرد هستند، اما BMI یا شاخص توده بدنی، که با توجه به قد و وزن و سن و جنسیت محاسبه میشه، دانشی هست در مورد یک فرد.
علوم و مهارت هایی علم داده در سه دسته خاص قرار میگیرد:
1-ریاضیات و امار
2- علوم کامپیوتر از جمله الگوریتم های یادگیری ماشینی، ابزار یا زبانهای کار با داده و مدلسازی
3- تسلط به فرآیندها و قوانین زمینه کاری که مدنظر هست (مثل مسائل بانکی، حوزه انرژی، شبکه های اجتماعی و ....)
یک Data scientist کسی هست که به هر سه دسته خاص تسلط داره، اما برای قدم اول با توجه به علاقه مندی و سابقه تحصیلی و کاری می توانید از هر کدام از این سه حوزه شروع کنید.
افتخار آکادمی داده، همسفر بودن با شما در راه یادگیری علم داده است.
اگر داده ما نامتوازن باشه، و داده دارای متغیر کلاس هم هست،اگر بخواهیم خوشه بندی هم انجام بدیم،ایا در خوشه بندی قبل از حذف متغیر کلاس، آیا میتونیم از روشهای متوازن سازی استفاده کنیم و داده را متوازن کنیم و بعد خوشه بندی انجام بدیم ؟ یا اصلا در خوشه بندی مجاز نیستیم؟؟
ممنون میشم دوستان اگر بتونن راهنمایی کنن
میشه اینکارو کرد.هم قبل هم بعد ولی کاربردهاشون متفاوت میشه
افتخار آکادمی داده، همسفر بودن با شما در راه یادگیری علم داده است.
سلام وقت بخير براي تشخيص داده نامتعادل(imbalance) الزاما اول بايد خوشه بندي انجام بشه ؟؟ كسي اطلاعي در نحوه تشخيص داده نامتعادل داره؟؟
خیر ساده ترین روش نمونه گیری از کلاس دارای رکورد بیشتر است. خوشه بندی یکی از بهترین روشها میتونه باشه
افتخار آکادمی داده، همسفر بودن با شما در راه یادگیری علم داده است.
سلام
امکانش هست واژه معادل کلمات زیر رو بفرمایید
Ward's linkage
Single linkage
Complete linkage
در خوشه بندی سلسله مراتبی معمولا معادل فارسی متقن برای این موارد وجود ندارد
اما می توان این گونه گفت:
اتصال ناحیه ای
اتصال منفرد
اتصال کامل
منظور از اتصال، نحوه محاسبه فاصله نقاط برای ایجاد تفکیک است.
افتخار آکادمی داده، همسفر بودن با شما در راه یادگیری علم داده است.
دوستان من خواستم k fold cross validation انجام بدم براي رگرسيون چندمتغيره با اين پيغام مواجه شدم مشكل كجاست؟
مدل دستهبندیای (classification) که انتخاب کردید امکان کار با برچسب پیوسته (مثل اعداد حقیقی) رو نداره. برای رگرسیون از مدلهای دستهبندی یا همون Classifierها استفاده نکنید.
افتخار آکادمی داده، همسفر بودن با شما در راه یادگیری علم داده است.
سلام وقت بخیر
یک راهنمایی می خواستم از دوستان یک شرکتی هست که روزانه حجم زیادی کالا رو توی دسته های مختلف می فروشه.
داده های چند سال قبلش رو داده، که توی هر روز ، از هر کالا چند تا فروش داشته. حالا می خواهیم برای یک سال آینده اش برای میزان فروشش یک پیش بینی بکنیم. پیش بینی اینطوری باشه که توی هر روز، پیش بینی کنیم از هر کالا چند تا فروش خواهیم داشت برای حل این مسایل، کسی فایلی، راهنمایی چیزی داره؟ ممنون
روشهای مختلف رو باید تست و بررسی کنید. مدلهای سریزمانی یا مدلهای پیشبینی براساس ویژگیهای مشتری و محصول و... میتواند مفید باشد. به صورت کلی ممکن است پیشبینی براساس روز خطا را افزایش دهد. تجمیع و استخراج ویژگی براساس هفته سبب افزایش دقت و جامعیت مدل نسبت به پیشبینی روزانه میشود.
افتخار آکادمی داده، همسفر بودن با شما در راه یادگیری علم داده است.
#سوال
سلام و وقت بخیر خدمت همه ی دوستان
یک دیتاست متنی دارم که شامل سه کلاس هست
کلاس بیماری سرطان خون
سرطان سینه
سرطلان غدد لنفاوی
هر کلاس دارای 8هزار نمونه هست برای تشخیص و دسته بندی بیماری سرطان سینه از دو بیماری دیگر امدم سرطان خون را با بیماری سرطان غدد لنفاوی باهم در یک دسته قرار دادم و سرطان سینه را در یک دسته جداگانه متاسفانه نمیدونم چرا در ایپوک اول صحت دسته بندی اموزش میشه 0.96 و صحت ولیدیشن میشه 0.92 درصد
بنظرتون به خاطر بالانس نبودن داده هاست؟ فکر می کنم اورفیت داره رخ میده درسته ؟ دارم از کراس با بک اند تنسور بر روی دیتاست متن استفاد میکنم
این مشکل از overfitting هست.مدل شما روی ترینینگ جواب میده اما رو داده های جدید دقت اش کم میشه.روی چند ایپوک انجام بدن فقط دقت ترینینگ چک کنید اگر کم زیاد شد یعنی داده ها خوب رندوم پخش نشدن.
ببخشید من نمیتونم بیام تو صفحه شخصی شما ریپورتم میشه محبت کنید شما پیام بدید؟ درصد تریینینگ کم و زیاد نمیشه
افتخار آکادمی داده، همسفر بودن با شما در راه یادگیری علم داده است.
سلام وقت بخیر. من اینو گرفتم و اجرا کردم و البته توضیحاتشم خوندم . میشه یه کم توضیح بیشتر بدید؟ ایا الگوریتم مشخصی استفاده کردید؟ یا اینکه گرافی که ساختین رو میشه دید؟ در مجموع ممنون میشم توضیح بفرمایید
سلام، الگوریتم نیمهنظارتی مبتنی بر گراف توسعه دادهشده تا پاسخ احتمالاتی پیشبینی svm رو در ماتریس حالت اولیه الگوریتم پخش برچسب برای بعضی از گرهها اضافه کنه. گراف هم با اضافهکردن یال به درخت پوشای ماکزیمم گراف همبستگی تولیدشده. قابل نمایش هم خوب هست. توضیحات کامل و شکل گراف هم در این مقاله وجود داره:
https://www.sciencedirect.com/science/article/pii/S0957417418301829