پرسش و پاسخ های تلگرامی 1

پرسش و پاسخ های تلگرامی 1

آکادمی داده

۱۳۹۷/۰۳/۱۸


  • 161 بازدید

در این بخش پرسش و پاسخ های که در گروه های تلگرامی در حوزه علم داده رد و بدل می شود ارائه خواهد شد. بد نیست این مقدمه خوانده شود.

جامعه‌مان به شدت دارد کوتاه‌مدت می‌شود. چیزی شبیه مفهوم «جامعه کلنگی» کاتوزیان. کاتوزیان در مقاله‌ای که بعدها به‌صورت کتاب در آمد، جامعه ایران را کلنگی می‌نامد؛ بدین معنا که هر حکومت و هر مسئولی که آمد، هر آنچه حکومت و مسئولین پیش از وی ساخته‌ بودند را از بیخ و بن ویران، و خود از نو شروع به ساختن می‌کند. قاجارها یادگارهای صفوی را ویران کردند؛ پهلوی‌ها دستاوردهای قاجاریان را و جمهوری اسلامی، دستاوردهای پهلوی را. به همین ترتیب، هر رئیس‌جمهورمان در جمهوری اسلامی نیز، دستاوردهای رؤسای جمهور‌ پیشین ‌را از بیخ و بن ریشه‌کن کرد تا خود طرحی نو در اندازد؛ بی‌آنکه بداند رئیس‌جمهور بعدی، همین‌ بلا را سر خود او خواهد آورد.

به همین شیوه، همین که فیس‌بوک با استقبال ایرانیان روبرو می‌شود، فیلتر می‌گردد؛ تلگرام هم همین طور. در بسیاری از این شبکه‌ها، سرمایه‌ی اجتماعی‌ای شکل می‌گیرد که این روزها ایران به شدت به آن نیاز دارد. صدها استاد دانشگاه، روزنامه‌نگار، روحانی، شبکه‌ی خبری داخلی و… در تلگرام توانسته‌اند اعتماد مردم را جلب کرده و سرمایه‌ی اجتماعی ایرانیان را از دل همین کانالها شکل یا افزایش بدهند. با فیلتر شدن تلگرام، نه تنها ده‌ها هزار کسب و کار تلگرامی از بین خواهد رفت، بلکه این سرمایه‌ی اجتماعی که اهمیتش از آن کسب و کارها به مراتب بیشتر است نیز ویران خواهد شد. تا شبکه اجتماعی دیگری بین مردم جا بیفتد و سرمایه‌ی اجتماعی دوباره‌ای جان بگیرد، بخش زیادی از این سرمایه‌ها برای همیشه از ایران رخت بر خواهد بست. جامعه‌شناس فرانسوی، بوردیو، از امکان تبدیل سرمایه‌ها به یکدیگر سخن می‌گوید. یعنی شما می‌توانی از سرمایه اقتصادی‌ات برای توسعه سرمایه اجتماعی سود ببری یا بالعکس. از میان برداشتن سرمایه‌های اجتماعی در تلگرام، زیانی برابر یا حتی بیشتر از نابودی سرمایه‌های اقتصادی دارد. مانند این است که مسئولین بگویند همه دارندگان حساب در فلان‌ بانک،‌ حساب‌شان که‌ طی این‌ چند سال و‌ با تلاش و کوشش پس‌انداز کرده‌اند، مسدود و نابود شده و ‌می‌توانند از ابتدا در بهمان ‌بانک ‌حساب باز کرده ‌و دوباره از اول شروع به پس‌انداز کنند.

 بی‌گمان سرمایه‌ی اجتماعی‌ای که در آینده و شبکه اجتماعی دیگری شکل بگیرد نیز، همچون همین فیس‌بوک و تلگرام، هیچ تضمینی بر ماندگاری‌اش نیست. بدین شیوه، صدها سال است در چرخه‌ای از ساختن و ویران کردن دچار شده‌ایم و پیشرفت بر پایه داشته‌ها و انباشته‌های پیشین‌ را، تنها در کشورهای همسایه‌ای می‌بینیم که روز به روز از ما بیشتر فاصله می‌گیرند.

منبع : https://t.me/moghaddames

با توجه به فیلتر تلگرام و عدم دسترسی افراد علاقه مند به حوزه علم داده در مدت های آتی، آکادمی داده تصمیم گرفت سوال ها و جواب های مفید که ممکن است مورد سوال دهها تن باشد را در مقالاتی ارائه دهد. البته باید در نظر داشت که تضمینی بر درستی پاسخ ها وجود ندارد ولی قطعا می تواند در راه رسیدن به پاسخ صحیح تر راهگشا باشد. با توجه به ازدیاد این سوالات و پاسخ ها امکان منبع نویسی برای آن ها و اینکه سوال کننده و پاسخ دهنده چه کسانی بودند میسر نیست به همین دلیل به گروههای که این مباحث در آن ها مطرح شده است بسنده خواهد شد. با امید به این که برای علاقه مندان علم داده، داده کاوی، متن کاوی و علوم مرتبط مفید باشد.

افتخار آکادمی داده، همسفر بودن با شما در راه یادگیری علم داده است. 

سلام،اگر در مدلي درصد شاخص Recall برابر ١٠٠ بشه ،مشكلي نداره؟يا اشتباهه؟چون a/a+b اگر بخواد ١٠٠ باشه يعني FN بايد صفر باشه،درسته؟

به صورت قطعی نمی‌شه گفت اشتباهه ولی شک‌برانگیزه. امکان داره مدل برای داده‌هایی که قرار بوده روی اون‌ها تست بشه، دستکاری شده باشه یا اینکه مدل همه (یا بخش زیادی از) اسناد رو بازیابی کرده و این باعث شده معیار recall به ۱۰۰ برسه که در این صورت قطعا معیار precision افت شدیدی داره.

معیار recall به اسناد FP توجه نمی‌کنه و به همین خاطر باید دو معیار Precision و Recall در کنار هم سنجیده بشن، که فکر کنم به  F-Measure ختم بشه.

افتخار آکادمی داده، همسفر بودن با شما در راه یادگیری علم داده است. 

سلام دوستان یه نظری ازتون میخواستم. وقتی میخوایم پیش بینی انجام بدیم و یه دیتاست با  13 تا ویژگی داریم که میخوایم 5 تا از ویزگی ها انتخاب بشن (چون حساسیت بالا هستش.برای مثال انتخاب یک ویژگی اضافه یا اشتباه ،توی نتیجه الگوریتم پیش بینی تاثیر مشخصی داره)  شما چه روشی برای فیچر سلکشن رو پیشنهاد میدید و چرا؟

بنظرم بخاطر تعداد کم فیچر ها و حساسیت مساله شما pca احتمالا نتیجه بدی خواهد داد. ثانیا pca الگوریتم فیچر سلکشن نیست، چون فیچر های ساخته شده با pca ماهیتا با فیچر های اصلی فرق دارن. اگه میخاین ۵ تا از همون فیچر ها انتخاب بشه، و دقت هم مهمه براتون از روشهای رپر wrapper استفاده کنید. اینا نسبت به مدلهای فیلتر زمان گیر هستند ( چون یک الگوریتم متا هیورستیک داخلشون برای انتخاب فیچر استفاده میشه) اما چون تعداد فیچر های شما کمه، زمان زیادی نمی گیره و جواب میده.

افتخار آکادمی داده، همسفر بودن با شما در راه یادگیری علم داده است. 

سلام برای آماده کردن مجموعه داده آموزشی، توازن داده ها چقدر اهمیت داره؟
با فرض اینکه متغیر کلاس، چند تا  مقدار متعدد داره، آیا باید تعداد رکوردها، برای  هر مقدار، با نسبت یکسانی وجود داشته باشند؟
این قضیه برای سایر متغیرها هم صدق میکنه؟ ممنون میشم راهنمایی بفرمایید.

سلام فکر کنید پنج تا کلاس داریم  و میخواهیم برای این پنج کلاس دیتای آموزش تهیه کنیم، اینکه دیتا به صورت یکنواخت در همه کلاس‌ها پخش شده باشه مهم هست چون اگه به عنوان مثال به کلاس شماره یک 70 درصد  دیتا و باقی کلاس‌ها 30 درصد از دیتا رو بهشون اختصاص بدیم، خوب یک کلاسیفایر میاد و همه خروجی ها رو میگیره کلاس شماره یک. این خودش می‌شه هفتاد درصد دقت در زمان آموزش و تست که به لحاظ آموزش و تست درست هست ولی مدل در واقع خطا داره و خطا به خاطر دیتای آماده شده هست.
اگر اشتباه میگم دوستان اصلاح بفرمایند.  

درسته برای دادهای نامتقارن چالش وجود داره ولی تکنیک هایی برای هندل کردنشونم هست که سرچ کنین پیدا میکنین

افتخار آکادمی داده، همسفر بودن با شما در راه یادگیری علم داده است. 

کلا اگر مطلبی در مورد دیترند کردن یک سری زمانی دارید ممنون میشم اینجا بزارید. چند سوالی اساسی من اینه:   کدوم روش دیترند بهترین روش برای یک سری زمانی هست؟ ( مثلا دو روش دیترند میزنم، گاهی جوابهاشون فرق داره. به کدوم اعتماد کنم؟ ) توی هر روش کمترین میزان طول سری زمانی که باید داشته باشیم چقدره؟ (این برای من خیلی مهمه چون گاهی طول سری زمانی که دارم کوتاهه.)
جواب این سوال رو باید در دقت پیشبینی بگردین ( اگه میخاین پیشبینی کنید) والا صرفا استفاده از مدلهای decompose چیزی به شما نمیده. هر مدلی که دقت پیشبینی بالایی ( مثلا به کمک اریما) در دیتاهای تست داد رو به عنوان مدل decompose خودتون می تونید استفاده کنید. البته اگه کارتون پیشبینی نیست که کلا قضیه فرق میکنه. معیارهای دیگه ای باید بررسی بشه.

افتخار آکادمی داده، همسفر بودن با شما در راه یادگیری علم داده است. 

سلام ممنون میشم درمورد گراف ماینینگ و ابزاراش توضیح بدین؟
کلا گراف کاوی به معنی استخراج اطلاعات از مدل گرافیه داده ها میشه حالا مسائل محبوبی که توی تحلیل گرافی مطرح میشه از  استخراج شاخص های مختلف از روی توپولوژی و محتوای گراف مانند تشخیص جوامع ، مرکزیت های نود و یال و...که در تحلیل انواع شبکه های پیچیده کاربرد دارندتا مسائلی مانند کشف تقلب که براساس 
 شاخص های متنوعی در صنعت های مختلف کاربرد دارد،ادامه داره.ابزارهای متنوعی هم در اسکیل های کوچک مانند igraph در پایتون و اسکیل های بزرگتر neo4j ،اسپارک  و...که برای مدل سازی گرافیه داده و در نهایت تحلیل اون کاربرد دارند.

افتخار آکادمی داده، همسفر بودن با شما در راه یادگیری علم داده است. 

سلام وقتتون بخیر،ببخشید برای شروع یادگیری داده کاوی میشه راهنمایی کنین،از پایتون شروع کنم خوبه؟و برای ماشین لرنینگ چ کتابی ؟ممنون میشم راهنمایی کنین.
سلام
برای یادگیری مفاهیم تئوری و علمی داده‌کاوی کتاب Data Mining Concept and Technice را مطالعه کنید که ترجمه فارسی آن هم در بازار وجود دارد. در گام بعد با یکی از نرم افزارهای مطرح داده کاوی همانند Rapid Miner, Knime, IBM SPSS Modeler و... مفاهیم تئوری رو به صورت عملی پیاده سازی کنید تا مفاهیم بیشتر تثبیت گردد. اگر در پروژه‌های عملیاتی داده کاوی هم قصد فعالیت دارید در گام آخر یادگیری زبان پایتون یا R هم لازم می‌باشد. 

افتخار آکادمی داده، همسفر بودن با شما در راه یادگیری علم داده است. 

سلام دوستان، رشته بنده آمار هست، در زمینه داده کاوی  میخواستم کار کنم اما  متاسفانه اطلاعات چندانی ازش ندارم، ممنون میشم دوستانی  که تجربه‌ دارند، راهنمایی کنند
عزيزم من كتاب  فارسي داده كاوي كاربردي دكتر صنيعي آباده و كتاب لاتين و فوق العاده han رو پيشنهاد مبكنم حتما حتما قبل از كار با نرم افزار روي مفاعيم كار كنيد و مسلط بشيد بعد كار با نرم افزار براتون خيلي راحت خواهد بود،،من كتاب رو از مقالات تخصصي براي ابتداي كار بيشتر پيشنهاد ميكنم،، هم چنين ميتونيد از كلاسهاي انلاين و كورس هاي داده كاوي مثل مكتب خونه استفادع كنيد.

افتخار آکادمی داده، همسفر بودن با شما در راه یادگیری علم داده است. 

سلام دوستان گرامی اگر امکانش هست مفهوم این سه گزینه رو بهم بگید 

1. F - measure
2.adjusted-rand-index
3.normalized mutual information

فقط f-measure رو میدونم که میاد یه ربطی بین recall و دقت میده اگه عددش از یک بیشتر شد ینی ریکال بیشتر بوده دقت کمتر اگه بین صفرو یک باشه ینی دقت واسمون مهم تره.

سلام. در دو سه خط که نمیشه توضیح مکفی داد. هر سه مورد از معیارهای ارزیابی کارایی روشها (مثلا برای کلاسترینگ) هستند . F1 و ARI حتما نیازمند به مرجع صفر (Ground truth) برای مقایسه عملکرد هستند اما NMI نیاز به مرجع ندارد. یک سرچ ساده در ویکی پدیا یا مثلا در گوگل (روی عکسها) به شما مثالهای خوبی میدهد. ضمنا مقدار F-measue  کوچکتر از یک یا در حالت ایده ال برابر با یک است چون خودش بصورت میانگین هارمونیک precision  و recall  تعریف میشود.

افتخار آکادمی داده، همسفر بودن با شما در راه یادگیری علم داده است. 

سلام. خسته نباشید میخواستم خواهش کنم راهنمایی کنید زمانی که در استفاده از ابزار پردازش کلان داده ها با کم بودن میزان ram به مشکل میخورید چه کاری انجام میدید؟ رم سیستم من ۴ هست
اگه به ی سرور یا کلودی دسترسی ندارید که اونجا داده هاتون رو تست کنید و می خواهید حتما پردازش رو روی سیستم خودتون تست کنید، می تونید داده ها رو split کنید. برای مثال اگر داده شما از نوع متنی (مثلcsv) می تونید از vim (لینوکس اوبونتو و ...) استفاده کنید تا فایل ها رو به قسمت های کوچکتری تقسیم کنید و بعد train و ... رو رو اون انجام بدید.

افتخار آکادمی داده، همسفر بودن با شما در راه یادگیری علم داده است. 

سلام دوستان عذرمیخوام من اطلاعاتی راجب  طبقه بندی ب کمک الگوریتم کلونی مورچگان( AC) میخوام ممنون میشم اگر کسی منبع خوبی درین باره میشناسه بهم معرفی کنه!
1- کلونی مورچگان یه الگوریتم بهینه سازیه جاهای مختلفی از رده بندی میتونه به کار برهدقیقا موضوعتون چی هست؟ الگوریتم رده بندی تون چیه؟ تو کدوم قسمت فرایند رده بندی از شما خواستن که از ac استفاده کنید؟
2- سلام. به صورت کلی همون طور که دوستمون عرض کردن ACO یک الگوریتم بهینه سازی هست. باید ببینید هدف بهبودتون کدامیک از تکنیک ها ی طبقه بندی هست. اما فکر میکنم در مقاله ای دیده بودم که به وسیله خود الگوریتم ACO داده کاوی انجام شده بود .

افتخار آکادمی داده، همسفر بودن با شما در راه یادگیری علم داده است.