در این بخش پرسش و پاسخ های که در گروه های تلگرامی در حوزه علم داده رد و بدل می شود ارائه خواهد شد. بد نیست این مقدمه خوانده شود.
جامعهمان به شدت دارد کوتاهمدت میشود. چیزی شبیه مفهوم «جامعه کلنگی» کاتوزیان. کاتوزیان در مقالهای که بعدها بهصورت کتاب در آمد، جامعه ایران را کلنگی مینامد؛ بدین معنا که هر حکومت و هر مسئولی که آمد، هر آنچه حکومت و مسئولین پیش از وی ساخته بودند را از بیخ و بن ویران، و خود از نو شروع به ساختن میکند. قاجارها یادگارهای صفوی را ویران کردند؛ پهلویها دستاوردهای قاجاریان را و جمهوری اسلامی، دستاوردهای پهلوی را. به همین ترتیب، هر رئیسجمهورمان در جمهوری اسلامی نیز، دستاوردهای رؤسای جمهور پیشین را از بیخ و بن ریشهکن کرد تا خود طرحی نو در اندازد؛ بیآنکه بداند رئیسجمهور بعدی، همین بلا را سر خود او خواهد آورد.
به همین شیوه، همین که فیسبوک با استقبال ایرانیان روبرو میشود، فیلتر میگردد؛ تلگرام هم همین طور. در بسیاری از این شبکهها، سرمایهی اجتماعیای شکل میگیرد که این روزها ایران به شدت به آن نیاز دارد. صدها استاد دانشگاه، روزنامهنگار، روحانی، شبکهی خبری داخلی و… در تلگرام توانستهاند اعتماد مردم را جلب کرده و سرمایهی اجتماعی ایرانیان را از دل همین کانالها شکل یا افزایش بدهند. با فیلتر شدن تلگرام، نه تنها دهها هزار کسب و کار تلگرامی از بین خواهد رفت، بلکه این سرمایهی اجتماعی که اهمیتش از آن کسب و کارها به مراتب بیشتر است نیز ویران خواهد شد. تا شبکه اجتماعی دیگری بین مردم جا بیفتد و سرمایهی اجتماعی دوبارهای جان بگیرد، بخش زیادی از این سرمایهها برای همیشه از ایران رخت بر خواهد بست. جامعهشناس فرانسوی، بوردیو، از امکان تبدیل سرمایهها به یکدیگر سخن میگوید. یعنی شما میتوانی از سرمایه اقتصادیات برای توسعه سرمایه اجتماعی سود ببری یا بالعکس. از میان برداشتن سرمایههای اجتماعی در تلگرام، زیانی برابر یا حتی بیشتر از نابودی سرمایههای اقتصادی دارد. مانند این است که مسئولین بگویند همه دارندگان حساب در فلان بانک، حسابشان که طی این چند سال و با تلاش و کوشش پسانداز کردهاند، مسدود و نابود شده و میتوانند از ابتدا در بهمان بانک حساب باز کرده و دوباره از اول شروع به پسانداز کنند.
بیگمان سرمایهی اجتماعیای که در آینده و شبکه اجتماعی دیگری شکل بگیرد نیز، همچون همین فیسبوک و تلگرام، هیچ تضمینی بر ماندگاریاش نیست. بدین شیوه، صدها سال است در چرخهای از ساختن و ویران کردن دچار شدهایم و پیشرفت بر پایه داشتهها و انباشتههای پیشین را، تنها در کشورهای همسایهای میبینیم که روز به روز از ما بیشتر فاصله میگیرند.
منبع : https://t.me/moghaddames
با توجه به فیلتر تلگرام و عدم دسترسی افراد علاقه مند به حوزه علم داده در مدت های آتی، آکادمی داده تصمیم گرفت سوال ها و جواب های مفید که ممکن است مورد سوال دهها تن باشد را در مقالاتی ارائه دهد. البته باید در نظر داشت که تضمینی بر درستی پاسخ ها وجود ندارد ولی قطعا می تواند در راه رسیدن به پاسخ صحیح تر راهگشا باشد. با توجه به ازدیاد این سوالات و پاسخ ها امکان منبع نویسی برای آن ها و اینکه سوال کننده و پاسخ دهنده چه کسانی بودند میسر نیست به همین دلیل به گروههای که این مباحث در آن ها مطرح شده است بسنده خواهد شد. با امید به این که برای علاقه مندان علم داده، داده کاوی، متن کاوی و علوم مرتبط مفید باشد.
افتخار آکادمی داده، همسفر بودن با شما در راه یادگیری علم داده است.
تفاوت گذاشتن بین آلارم های اشتباهی که تولید میشه ولی در اصل مشکل از بیمار نبوده و آلارم های واقعی که ناشی از ایجاد مشکل جدی در بیمار است.
افتخار آکادمی داده، همسفر بودن با شما در راه یادگیری علم داده است.
سنسورهای گوشی هوشمند یا ساعت های هوشمند چنین کارایی رو دارن؟ واینکه سنسورهاروبه چه صورت به بیمار وصل میکنیم؟ ممنون میشم بزرگواری کنید راهنمایی کنید
بعضی از گوشی ها و ساعتها یک سری علائم رو به شما میدند، عمدتاً ضربان قلب، ولی اتصال گوشی هوشمند (اونهایی که خودشون سنسور دارن، فقط یک مدل سامسونگ من دیدم سنسور رو خودش نصب بود به صورت اکسسوری نبود جداگانه) به بیمار راحت نیست، اساسا برای اتصال تعبیه نشدن تا الآن سنسورهایی که من دیدم (ساعت و فقط یک مدل گوشی) حجم خون نوک انگشت و تغیراتش رو اندازه میگیره (PPG) که از روی همون ضربان رو محاسبه میکنه، خود تغییرات حجم خون نوک انگشت بدون پردازش برای ضربان قلب یک شاخص از میزان کارکرد سیستم سمپاتیک محسوب میشه، یک سرچ بکنید تو نت احتمال زیاد اکسسوریهایی که با گوشی هوشمند سیگنالهای زیادی به شما بدهند هست (مثل فشار خون، GSR، PPG، تنفسی)
افتخار آکادمی داده، همسفر بودن با شما در راه یادگیری علم داده است.
سلام دوستان، من برای پروژم باید از دیتاست یکسری متافیچر استخراج کنم یکی از اون متافیچرها مقدار ویژه (eigenvalues )است. حالا سوالی که دارم اینه که این مقدار ویژه چی هست و چطوری مقدار ویژه یک دیتاست یا یک ویژگی عددی از دیتاست محاسبه میشه؟
تکنیک PCA رو بخونید همراه با یک مثال عملی سرچ کنید منابع انگلیسی زیاد هست...اولین قدم این است که به ازای هر ستون در دیتاست شما می تونید یک مقدار ویژه و بعد از اون بردار ویژه رو محاسبه کنید...مثلا توی R شما به راحتی می تونید از دستور eigen استفاده کنید برای گرفتن مقادیر ویژه داده
افتخار آکادمی داده، همسفر بودن با شما در راه یادگیری علم داده است.
من داده ای دارم که میخوام با R روی اون تحلیل های داده کاوی کنم ولی دو تا چالش دارم یکی این که داده های من در چند شیت اکسله هر شیت جدولی از اطلاعات یک بیمار
که نمیدونم چطور باید در مجموع داده ها رو پردازش کنم یکی دیگه هم این که در کل داده ای به این حجم رو چطور میشه import کرد و آیا روند کار در R تغییر میکنه یا با همون پکیج های مربوط به داده کاوی میشه کار رو انجام داد؟
معمولا یه پارامتر برای نام شیت وجود داره و هر شیت رو با یه دیتافریم سیو کنید و نهایتا با هم ترکیب کنین اون دیتافریمارو اگه داده هاتون زیر یک میلیون رکورده بسته به رمتون مشکل ندارین ولی اگه بیشتره باید سویچ کنین ب اسپارک
افتخار آکادمی داده، همسفر بودن با شما در راه یادگیری علم داده است.
افتخار آکادمی داده، همسفر بودن با شما در راه یادگیری علم داده است.
گر امکان داره لطف کنین و در مورد الگوریتم های مناسب برای بحث Customers Segmentation و در ادامه Products Segmentation اظهار نظر بفرمایید.
نوع شرکت : پخش دارو
تعدا مشتری : ۱۰.۰۰۰
دیتای موجود : ۷ سال
1-اینکه کلا Classification توی این قضیه مناسب تره یا Clustering
2-با توجه به مورد 1 کدوم الگوریتم بهتر جواب میده
3-توی چنتا مقاله Review که خوندم نتونستم نتیجه بگیرم کدوم روش مناسب تره ...
4-اگر کار مشابهی انجام شده لطفا بفرمایین
5-از دوستان اگر کسی میتونه توی بحث آموزش عملیاتی کردن این مورد خاص کمک کنه لطفا بفرمایین
هدف شما از سگمنت کردن چیه؟
اگر روی تشابه فروش هست قواعد انجمنی در مرحله اولوسپس تشکیل دیتای جدید با قواعد و خوشه بندی
اگر هدف بر اساس لویالتی مشتری ایجاد rfmمشتری و بعد خوشه بندی
اینکه کدام الگوریتم به ماهیت داده، چولگی داده، فیچرها و ... بستگی داره.عمدتا الگوریتمهای سنتربیس مانند k means جواب میدن
افتخار آکادمی داده، همسفر بودن با شما در راه یادگیری علم داده است.
میبخشید دیتاستی درحوزه بیماری مزمن قلب یا دیابت میخوام که مقادیر از دست رفته نداشته باشه دوتا از uci دان کردم دارای مقادیر ازدست رفته هستند!!!
جواب: مقادیر از دست رفته مشکل بزرگی رو ایجاد نمی کنه
با توجه به اینکه معمولا در واقعیت همیشه مقادیر از دست رفته رو بعنوان قسمتی از فرآیند جمع آوری داده ها داریم
میگم مشکل بزرگی رو ایجاد نمی کنه ، یعنی براش راهکارهای بسیار ساده ای وجود داره که خیلی ساده تر از باقی شرایط در پاکسازی داده ها هست.
اگر تعداد رکوردهایی که داده از دست رفته دارن ، کم هست ، رکوردها رو حدف کنید.
اگر ستونی که داده از دست رفته داره ، زیاد هست ، شاید ناچار بشید اون فیلد رو حدف کنید.
میشه بعنوان یه راهکار میانگین تمام مقادیر در ستون مربوطه رو بجای مقادیر از دست رفته قرار داد.
و حتی بعنوان راهکار بهتر ، میانگین تمام مقادیر از فیلد مربوطه به ازای کلاس مشخصی رو بجای مقادیر از دست رفته وابسته به همون کلاس قرار داد.
نتیجه گیری اینکه : بجای اینکه به دنبال دیتاست ای بگیردید که مقادیر از دست رفته نداشته باشه ، مناسب تر هست در فاز پاکسازی داده ها بر این مشکل غلبه کنید و تمرکز خودتون رو بروی صورت مسئله نگه دارید ، نه اینکه دیتاست ها رو به موارد خاصی محدود کنید.
سلام دوستان با استفاده از پارتیشن ميشه مشخص کرد چند درصد از داده ها آموزشی باشن و چند درصد تست آیا ميشه مشخص کرد که مثلا 10% سوم داده ها تست باشن و بقیه آموزش؟ یعنی میخوام خودم مشخص کنم کدوم داده ها تست باشن و کدوم آموزش
در کلمنتاین چنین امکانی وجود داره؟
اول توجه کن که کلاسی که پیش بینی را میخواهی روش انجام بدی باید بالانس باشه.بعد هم یه نود balance داشت فکر کنم در تشخیص تقلب که داده های انومالی داره داده را بالانس میکرد!
می تونید خودتون دستی فیلتر کنید.
افتخار آکادمی داده، همسفر بودن با شما در راه یادگیری علم داده است.
با سلام
دوستان کسی میدونه یک شبکه بیولوژیکی رو چطوری باید تحلیل کرد؟ و اینکه چه نرم افزار هایی برای این موضوع وجود داره؟
سلام
تحلیل شبکه های بیولوژیکی توسط نرم افزار گفی (Gephi) امکان پذیر است.