پرسش و پاسخ های تلگرامی 2

پرسش و پاسخ های تلگرامی 2

آکادمی داده

۱۳۹۷/۰۳/۱۸


  • 98 بازدید

در این بخش پرسش و پاسخ های که در گروه های تلگرامی در حوزه علم داده رد و بدل می شود ارائه خواهد شد. بد نیست این مقدمه خوانده شود.

جامعه‌مان به شدت دارد کوتاه‌مدت می‌شود. چیزی شبیه مفهوم «جامعه کلنگی» کاتوزیان. کاتوزیان در مقاله‌ای که بعدها به‌صورت کتاب در آمد، جامعه ایران را کلنگی می‌نامد؛ بدین معنا که هر حکومت و هر مسئولی که آمد، هر آنچه حکومت و مسئولین پیش از وی ساخته‌ بودند را از بیخ و بن ویران، و خود از نو شروع به ساختن می‌کند. قاجارها یادگارهای صفوی را ویران کردند؛ پهلوی‌ها دستاوردهای قاجاریان را و جمهوری اسلامی، دستاوردهای پهلوی را. به همین ترتیب، هر رئیس‌جمهورمان در جمهوری اسلامی نیز، دستاوردهای رؤسای جمهور‌ پیشین ‌را از بیخ و بن ریشه‌کن کرد تا خود طرحی نو در اندازد؛ بی‌آنکه بداند رئیس‌جمهور بعدی، همین‌ بلا را سر خود او خواهد آورد.

به همین شیوه، همین که فیس‌بوک با استقبال ایرانیان روبرو می‌شود، فیلتر می‌گردد؛ تلگرام هم همین طور. در بسیاری از این شبکه‌ها، سرمایه‌ی اجتماعی‌ای شکل می‌گیرد که این روزها ایران به شدت به آن نیاز دارد. صدها استاد دانشگاه، روزنامه‌نگار، روحانی، شبکه‌ی خبری داخلی و… در تلگرام توانسته‌اند اعتماد مردم را جلب کرده و سرمایه‌ی اجتماعی ایرانیان را از دل همین کانالها شکل یا افزایش بدهند. با فیلتر شدن تلگرام، نه تنها ده‌ها هزار کسب و کار تلگرامی از بین خواهد رفت، بلکه این سرمایه‌ی اجتماعی که اهمیتش از آن کسب و کارها به مراتب بیشتر است نیز ویران خواهد شد. تا شبکه اجتماعی دیگری بین مردم جا بیفتد و سرمایه‌ی اجتماعی دوباره‌ای جان بگیرد، بخش زیادی از این سرمایه‌ها برای همیشه از ایران رخت بر خواهد بست. جامعه‌شناس فرانسوی، بوردیو، از امکان تبدیل سرمایه‌ها به یکدیگر سخن می‌گوید. یعنی شما می‌توانی از سرمایه اقتصادی‌ات برای توسعه سرمایه اجتماعی سود ببری یا بالعکس. از میان برداشتن سرمایه‌های اجتماعی در تلگرام، زیانی برابر یا حتی بیشتر از نابودی سرمایه‌های اقتصادی دارد. مانند این است که مسئولین بگویند همه دارندگان حساب در فلان‌ بانک،‌ حساب‌شان که‌ طی این‌ چند سال و‌ با تلاش و کوشش پس‌انداز کرده‌اند، مسدود و نابود شده و ‌می‌توانند از ابتدا در بهمان ‌بانک ‌حساب باز کرده ‌و دوباره از اول شروع به پس‌انداز کنند.

 بی‌گمان سرمایه‌ی اجتماعی‌ای که در آینده و شبکه اجتماعی دیگری شکل بگیرد نیز، همچون همین فیس‌بوک و تلگرام، هیچ تضمینی بر ماندگاری‌اش نیست. بدین شیوه، صدها سال است در چرخه‌ای از ساختن و ویران کردن دچار شده‌ایم و پیشرفت بر پایه داشته‌ها و انباشته‌های پیشین‌ را، تنها در کشورهای همسایه‌ای می‌بینیم که روز به روز از ما بیشتر فاصله می‌گیرند.

منبع : https://t.me/moghaddames

با توجه به فیلتر تلگرام و عدم دسترسی افراد علاقه مند به حوزه علم داده در مدت های آتی، آکادمی داده تصمیم گرفت سوال ها و جواب های مفید که ممکن است مورد سوال دهها تن باشد را در مقالاتی ارائه دهد. البته باید در نظر داشت که تضمینی بر درستی پاسخ ها وجود ندارد ولی قطعا می تواند در راه رسیدن به پاسخ صحیح تر راهگشا باشد. با توجه به ازدیاد این سوالات و پاسخ ها امکان منبع نویسی برای آن ها و اینکه سوال کننده و پاسخ دهنده چه کسانی بودند میسر نیست به همین دلیل به گروههای که این مباحث در آن ها مطرح شده است بسنده خواهد شد. با امید به این که برای علاقه مندان علم داده، داده کاوی، متن کاوی و علوم مرتبط مفید باشد.

افتخار آکادمی داده، همسفر بودن با شما در راه یادگیری علم داده است. 

منظور از تشخیص ناهنجاری ها روی داده های پزشکی چیست ؟

تفاوت گذاشتن بین آلارم های اشتباهی که تولید میشه ولی در اصل مشکل از بیمار نبوده و آلارم های واقعی که ناشی از ایجاد مشکل جدی در بیمار است.

افتخار آکادمی داده، همسفر بودن با شما در راه یادگیری علم داده است. 

سلام عرض ادب میبخشید یه سوال دوستان برای دریافت علایم حیاتی بدن از چه سنسورهایی میتونم استفاده کنم؟
سنسورهای گوشی هوشمند یا ساعت های هوشمند چنین کارایی رو دارن؟ واینکه سنسورهاروبه چه صورت به بیمار وصل میکنیم؟ ممنون میشم بزرگواری کنید راهنمایی کنید

بعضی از گوشی ها و ساعتها یک سری علائم رو به شما میدند، عمدتاً ضربان قلب، ولی اتصال گوشی هوشمند (اونهایی که خودشون سنسور دارن، فقط یک مدل سامسونگ من دیدم سنسور رو خودش نصب بود به صورت اکسسوری نبود جداگانه) به بیمار راحت نیست، اساسا برای اتصال تعبیه نشدن تا الآن سنسورهایی که من دیدم  (ساعت و فقط یک مدل گوشی) حجم خون نوک انگشت و تغیراتش رو اندازه میگیره (PPG) که از روی همون ضربان رو محاسبه میکنه، خود تغییرات حجم خون نوک انگشت بدون پردازش برای ضربان قلب یک شاخص از میزان کارکرد سیستم سمپاتیک محسوب میشه،  یک سرچ بکنید تو نت احتمال زیاد اکسسوریهایی که با گوشی هوشمند سیگنالهای زیادی به شما بدهند هست (مثل فشار خون، GSR، PPG، تنفسی)

افتخار آکادمی داده، همسفر بودن با شما در راه یادگیری علم داده است. 

سلام دوستان، من برای پروژم باید از دیتاست یکسری متافیچر استخراج کنم یکی از اون متافیچرها مقدار ویژه (eigenvalues )است. حالا سوالی که دارم اینه که این مقدار ویژه چی هست و چطوری مقدار ویژه یک دیتاست یا یک ویژگی عددی از دیتاست محاسبه میشه؟

تکنیک PCA رو بخونید همراه با یک مثال عملی سرچ کنید منابع انگلیسی زیاد هست...اولین قدم این است که به ازای هر ستون در دیتاست شما می تونید یک مقدار ویژه و بعد از اون بردار ویژه رو محاسبه کنید...مثلا توی R شما به راحتی می تونید از دستور eigen استفاده کنید برای گرفتن مقادیر ویژه داده

افتخار آکادمی داده، همسفر بودن با شما در راه یادگیری علم داده است. 

سلام شبتون بخیر
من داده ای دارم که میخوام با R  روی اون تحلیل های داده کاوی  کنم ولی دو تا چالش دارم یکی این که داده های من در چند شیت اکسله هر شیت جدولی از اطلاعات یک بیمار
که نمیدونم چطور باید در مجموع داده ها رو پردازش کنم  یکی دیگه هم این که در کل داده ای به این حجم رو چطور میشه import کرد  و آیا روند کار در R تغییر میکنه یا با همون پکیج های مربوط به داده کاوی میشه کار رو انجام داد؟

معمولا یه پارامتر برای نام شیت وجود داره و هر شیت رو با یه دیتافریم سیو کنید و نهایتا با هم ترکیب کنین اون دیتافریمارو  اگه داده هاتون زیر یک میلیون رکورده بسته به رمتون مشکل ندارین ولی اگه بیشتره باید سویچ کنین ب اسپارک

افتخار آکادمی داده، همسفر بودن با شما در راه یادگیری علم داده است. 

سلام دوستان خسته نباشید یه سوال داشتم خواهش میکنم کمکم کنید من از چهارتا الگوریتم یادگیری ماشین برا تشخیص بیماری استفاده کردم خب میانگین هرکدومو بدست اوردم حالا میخوام روش پیشنهادی خودمو اعمال کنم و نتیجه کلی رو بدست بیارم چطوری این کارو بکنم؟ یا نتیجه روش خودمم جدا بنویسم؟
شما میانگین روشها را نباید بگید. مقایسه روش خودتون با 4 روش . در مقالات نمونه اینکارها زیادند. یکی دوتا را نگاه کنید مقایسه روشها را متوجه میشید

افتخار آکادمی داده، همسفر بودن با شما در راه یادگیری علم داده است. 

گر امکان داره لطف کنین و در مورد الگوریتم های مناسب برای بحث Customers Segmentation و در ادامه Products Segmentation اظهار نظر بفرمایید.

نوع شرکت : پخش دارو
تعدا مشتری : ۱۰.۰۰۰
دیتای موجود : ۷ سال 

1-اینکه کلا Classification توی این قضیه مناسب تره یا Clustering
2-با توجه به مورد 1 کدوم الگوریتم بهتر جواب میده
3-توی چنتا مقاله Review که خوندم نتونستم نتیجه بگیرم کدوم روش مناسب تره ...
4-اگر کار مشابهی انجام شده لطفا بفرمایین
5-از دوستان اگر کسی میتونه توی بحث آموزش عملیاتی کردن این مورد خاص کمک کنه لطفا بفرمایین

 

هدف شما از سگمنت کردن چیه؟
اگر روی تشابه فروش هست قواعد انجمنی در مرحله اول‌و‌سپس تشکیل دیتای جدید با قواعد و خوشه بندی
اگر هدف بر اساس لویالتی مشتری ایجاد rfmمشتری و بعد خوشه بندی
اینکه کدام الگوریتم به ماهیت داده، چولگی داده، فیچرها و ... بستگی داره.عمدتا الگوریتمهای سنتربیس مانند k means جواب میدن

افتخار آکادمی داده، همسفر بودن با شما در راه یادگیری علم داده است. 

میبخشید دیتاستی درحوزه بیماری مزمن قلب یا دیابت میخوام که مقادیر از دست رفته نداشته باشه دوتا از uci  دان کردم دارای مقادیر ازدست رفته هستند!!!

جواب: مقادیر از دست رفته مشکل بزرگی رو ایجاد نمی کنه 
با توجه به اینکه معمولا در واقعیت همیشه مقادیر از دست رفته رو بعنوان قسمتی از فرآیند جمع آوری داده ها داریم
میگم مشکل بزرگی رو ایجاد نمی کنه ، یعنی براش راهکارهای بسیار ساده ای وجود داره که خیلی ساده تر از باقی شرایط در پاکسازی داده ها هست. 
اگر تعداد رکوردهایی که داده از دست رفته دارن ، کم هست ، رکوردها رو حدف کنید. 
اگر ستونی که داده از دست رفته داره ، زیاد هست ، شاید ناچار بشید اون فیلد رو حدف کنید.
میشه بعنوان یه راهکار میانگین تمام مقادیر در ستون مربوطه رو بجای مقادیر از دست رفته قرار داد.
و حتی بعنوان راهکار بهتر ، میانگین تمام مقادیر از فیلد مربوطه به ازای کلاس مشخصی رو بجای مقادیر از دست رفته وابسته به همون کلاس قرار داد.

نتیجه گیری اینکه : بجای اینکه به دنبال دیتاست ای بگیردید که مقادیر از دست رفته نداشته باشه ، مناسب تر هست در فاز پاکسازی داده ها بر این مشکل غلبه کنید و تمرکز خودتون رو بروی صورت مسئله نگه دارید ، نه اینکه دیتاست ها رو به موارد خاصی محدود کنید.

افتخار آکادمی داده، همسفر بودن با شما در راه یادگیری علم داده است. 

سلام دوستان با استفاده از پارتیشن ميشه مشخص کرد چند درصد از داده ها آموزشی باشن و چند درصد تست آیا ميشه مشخص کرد که مثلا 10% سوم داده ها تست باشن و بقیه آموزش؟ یعنی میخوام خودم مشخص کنم کدوم داده ها تست باشن و کدوم آموزش
در کلمنتاین چنین امکانی وجود داره؟

اول توجه کن که کلاسی که پیش بینی را میخواهی روش انجام بدی باید بالانس باشه.بعد هم یه نود balance داشت فکر کنم در تشخیص تقلب که داده های انومالی داره داده را بالانس میکرد!

می تونید خودتون دستی فیلتر کنید.

افتخار آکادمی داده، همسفر بودن با شما در راه یادگیری علم داده است. 

با سلام
 دوستان کسی میدونه یک شبکه بیولوژیکی رو چطوری باید تحلیل کرد؟ و اینکه چه نرم افزار هایی برای این موضوع وجود داره؟

سلام
تحلیل شبکه های بیولوژیکی توسط نرم افزار گفی (Gephi) امکان پذیر است. 

افتخار آکادمی داده، همسفر بودن با شما در راه یادگیری علم داده است. 
سلام دوستان... آیا قوانین انجمنی میتونه در طبقه بندی باعث افزایش صحت پیش بینی بشه؟؟؟ میتونم صحت قابل قبولی بدست بیارم
خیر اینطور روش ها معمولا ارتباطات غیر خطی رو نمی تونند به خوبی استخراج کنند و بنابراین تقریبا سالهاست که استفاده در حوزه آکادمیک هم نمی شوند

افتخار آکادمی داده، همسفر بودن با شما در راه یادگیری علم داده است.