پرسش و پاسخ های تلگرامی 3

پرسش و پاسخ های تلگرامی 3

آکادمی داده

۱۳۹۷/۰۳/۱۸


  • 97 بازدید

در این بخش پرسش و پاسخ های که در گروه های تلگرامی در حوزه علم داده رد و بدل می شود ارائه خواهد شد. بد نیست این مقدمه خوانده شود.

جامعه‌مان به شدت دارد کوتاه‌مدت می‌شود. چیزی شبیه مفهوم «جامعه کلنگی» کاتوزیان. کاتوزیان در مقاله‌ای که بعدها به‌صورت کتاب در آمد، جامعه ایران را کلنگی می‌نامد؛ بدین معنا که هر حکومت و هر مسئولی که آمد، هر آنچه حکومت و مسئولین پیش از وی ساخته‌ بودند را از بیخ و بن ویران، و خود از نو شروع به ساختن می‌کند. قاجارها یادگارهای صفوی را ویران کردند؛ پهلوی‌ها دستاوردهای قاجاریان را و جمهوری اسلامی، دستاوردهای پهلوی را. به همین ترتیب، هر رئیس‌جمهورمان در جمهوری اسلامی نیز، دستاوردهای رؤسای جمهور‌ پیشین ‌را از بیخ و بن ریشه‌کن کرد تا خود طرحی نو در اندازد؛ بی‌آنکه بداند رئیس‌جمهور بعدی، همین‌ بلا را سر خود او خواهد آورد.

به همین شیوه، همین که فیس‌بوک با استقبال ایرانیان روبرو می‌شود، فیلتر می‌گردد؛ تلگرام هم همین طور. در بسیاری از این شبکه‌ها، سرمایه‌ی اجتماعی‌ای شکل می‌گیرد که این روزها ایران به شدت به آن نیاز دارد. صدها استاد دانشگاه، روزنامه‌نگار، روحانی، شبکه‌ی خبری داخلی و… در تلگرام توانسته‌اند اعتماد مردم را جلب کرده و سرمایه‌ی اجتماعی ایرانیان را از دل همین کانالها شکل یا افزایش بدهند. با فیلتر شدن تلگرام، نه تنها ده‌ها هزار کسب و کار تلگرامی از بین خواهد رفت، بلکه این سرمایه‌ی اجتماعی که اهمیتش از آن کسب و کارها به مراتب بیشتر است نیز ویران خواهد شد. تا شبکه اجتماعی دیگری بین مردم جا بیفتد و سرمایه‌ی اجتماعی دوباره‌ای جان بگیرد، بخش زیادی از این سرمایه‌ها برای همیشه از ایران رخت بر خواهد بست. جامعه‌شناس فرانسوی، بوردیو، از امکان تبدیل سرمایه‌ها به یکدیگر سخن می‌گوید. یعنی شما می‌توانی از سرمایه اقتصادی‌ات برای توسعه سرمایه اجتماعی سود ببری یا بالعکس. از میان برداشتن سرمایه‌های اجتماعی در تلگرام، زیانی برابر یا حتی بیشتر از نابودی سرمایه‌های اقتصادی دارد. مانند این است که مسئولین بگویند همه دارندگان حساب در فلان‌ بانک،‌ حساب‌شان که‌ طی این‌ چند سال و‌ با تلاش و کوشش پس‌انداز کرده‌اند، مسدود و نابود شده و ‌می‌توانند از ابتدا در بهمان ‌بانک ‌حساب باز کرده ‌و دوباره از اول شروع به پس‌انداز کنند.

 بی‌گمان سرمایه‌ی اجتماعی‌ای که در آینده و شبکه اجتماعی دیگری شکل بگیرد نیز، همچون همین فیس‌بوک و تلگرام، هیچ تضمینی بر ماندگاری‌اش نیست. بدین شیوه، صدها سال است در چرخه‌ای از ساختن و ویران کردن دچار شده‌ایم و پیشرفت بر پایه داشته‌ها و انباشته‌های پیشین‌ را، تنها در کشورهای همسایه‌ای می‌بینیم که روز به روز از ما بیشتر فاصله می‌گیرند.

منبع : https://t.me/moghaddames

با توجه به فیلتر تلگرام و عدم دسترسی افراد علاقه مند به حوزه علم داده در مدت های آتی، آکادمی داده تصمیم گرفت سوال ها و جواب های مفید که ممکن است مورد سوال دهها تن باشد را در مقالاتی ارائه دهد. البته باید در نظر داشت که تضمینی بر درستی پاسخ ها وجود ندارد ولی قطعا می تواند در راه رسیدن به پاسخ صحیح تر راهگشا باشد. با توجه به ازدیاد این سوالات و پاسخ ها امکان منبع نویسی برای آن ها و اینکه سوال کننده و پاسخ دهنده چه کسانی بودند میسر نیست به همین دلیل به گروههای که این مباحث در آن ها مطرح شده است بسنده خواهد شد. با امید به این که برای علاقه مندان علم داده، داده کاوی، متن کاوی و علوم مرتبط مفید باشد.

افتخار آکادمی داده، همسفر بودن با شما در راه یادگیری علم داده است. 

سلام. کسی میتونه روش جایگذاری  matrix factorization چگونه مقادیر گمشده رو جایگزین میکنه؟
ماتریس را به ماتریسهای تجزیه تبدیل میکنه و ضرب این ماتریسها میشه ماتربس اصلی با مقادیر پر شده. یک‌مقدار اولیه مثل صفر یا میانگین به مقادیر گمشده‌میدید
 
افتخار آکادمی داده، همسفر بودن با شما در راه یادگیری علم داده است. 

سلام. ببخشید اگر دیتاستمون  همه فیچرهاش مقادیر عددی هستند.. حالا من اگه بخام بیام با  روش نزدیکترین همسایگی جایگزینی مقادیر گمشده رو انجام بدم.. حتما باید قبلش داده ها رو استاندارد و نرمال کنم و از روشهای نرمال سازی استفاده کنم؟؟

در الگوریتمی هایی که براساس معیارهای فاصله،  Similarity و... کار می کنند میبایست ویژگی‌ها را نرمال یا Feature Scaling نمایید که الگوریتم KNN هم جز این الگوریتم ها هست.

افتخار آکادمی داده، همسفر بودن با شما در راه یادگیری علم داده است. 

ببخشید موضوعات جالب برای داده کاوی درحوزه سلامت رو جایب میشه پیدا کرد؟؟

حوزه‌های بسیار کاربردی و جذاب در بخش علم داده در سلامت وجود دارد. تلفیق کاربردهایی مانند پردازش متون نسخه‌های پزشکی، پردازش تصویر تصاویر پزشکی، تحلیل دادگان ابزارهای هوشمند(iot) مورد استفاده در صنعت سلامت، تحلیل دادگان کلان بخش سلامت و.... تنها بخشی از این کاربردها هست. منتهی دست یابی به دادگان مناسب همواره یکی از چالش‌های ورود متخصصین علم داده به حوزه سلامت بوده است.

افتخار آکادمی داده، همسفر بودن با شما در راه یادگیری علم داده است. 
میشه یه منبع برای شروع کار پیشنهاد بدین! مثلا در حوزه پردازش متون
دو نکته قابل مطرح شدن هست. گام اول یادگیری فرایندها و الگوریتم‌های متن‌کاوی هست که فارغ از حوزه سلامت باید فرا بگیرد. در این بخش برای شروع دوره‌های آنلاین متن‌کاوی وب‌سایت Coursera توصیه می‌شود. کتاب‌های خوبی هم توسط انتشارات‌های Packt و... هم منتشر شده است. پس از انتخاب زبان برنامه نویسی مانند پایتون یا R یا نرم افزارهای این بخش هم آموزش های مختلفی بنا به این ابزارها در اینترنت وجود دارد. بابت بخش دوم جهت پیاده سازی عملیاتی در بحش سلامت نیاز به کسب دانش در این حوزه و مطالعه مقالات جدید این صنعت هستید.
 
افتخار آکادمی داده، همسفر بودن با شما در راه یادگیری علم داده است. 
 
سلام عزیزان ببخشید یه سوال یه سری داده خام دارم در حوزه بیمه  که خودم میخوام برچسب گذاری کنم!  البته به صورت نامتوازن.. عده ای رو به  عنوان متقلب لیبل گذاری کنم. ممکنه راهنمایی بفرمایید چه روش یا روشهایی محکمه پسند خواهد بود؟ ممنون میشم
هیچ روشی...اگر واقعا کسی تقلب نکرده و مشهود نیست براتون یعنی نکرده...اما می شه از روش های مثلا outlier detection استفاده کرد و یک عده ای رو که متفاوت هستند با بقیه رو پیدا کیرد

افتخار آکادمی داده، همسفر بودن با شما در راه یادگیری علم داده است. 

سلام عزیزان ببخشید miss value ها رو در رپید ماینر چگونه باید اصلاح کنم ؟
مثلا اگر داده هاتون کمی و پیوسته هست میتونین با میانگین پر کنید. روش های دیگه هم هست ولی من اطلاعی ندارم
 

افتخار آکادمی داده، همسفر بودن با شما در راه یادگیری علم داده است. 

سلام دنبال پایگاه داده ای میگردم  که مثلا نظرات پزشک به صورت متن(مثل نامه ها و داده های مشاهده ای بالینی) باشه که بتونم با توجه به محتوای اسناد اونها رو تحلیل کنم

قبلاً به مقاله دیدم کار شده بود روی متن نسخه ها فک کنم برای تامین اجتماعی بود

افتخار آکادمی داده، همسفر بودن با شما در راه یادگیری علم داده است. 
 
سلام دوستان تو فصل سوم پایان نامه میشه بفرمایید برای پایان نامه کاربردی داده. کاوی یه بخشی دارم به اسم توصیف ازمون دقیقا نمیدونم تو این بخش چه چیزی باید. توضیح بدم ممنون میشم  راهنماییم کنید
در خصوص روش های پردازش داده و همچنین مدلهاتون بحث کنید و پارامترهایی که بررسی کردید در اونها

افتخار آکادمی داده، همسفر بودن با شما در راه یادگیری علم داده است. 

يك سوال دارم لطفا راهنمايي بفرماييد  روي ٤٤٠ركورد داده هاي پزشكي كار مي كنم كه هر ركورد ١٧مشخصه دارد من اين ١٧مشخصه را قبل و بعد از ابتلا بررسي كرده ام ايرادي كه به كارم گرفته شده اين است كه چگونه تاثير مشخصه ها بر هم را هم بررسي كنم مثلا يك ركور شامل سن و فشار خون است فشار قبل و بعد بيماري بررسي شده مي گويند شما بايد تاثير داشتن سن بر مشخصه فشار را هم بررسي كني!
شما تحلیل تک متغیره انجام دادید باید تحلیلتون رو چند متغیره کنید با روش هایی مثل رگرسیون این موضوع قابل حل است
 
افتخار آکادمی داده، همسفر بودن با شما در راه یادگیری علم داده است. 
 
سلام. برای بدست آوردن قوانین مربوط به تاثیر گذاری متغیرهای مثل Recency، تعداد ویزیتور، تعداد ویزیت، Frequency (بر فروش(Monetary)، برای داده های موجود، متغیر Frequency با Monetary   همبستگی (Correlation) برابر 1 دارد. حالا برای ساخت مدل با درخت تصمیم راه درست چیه؟
1.  بعد نرمالسازی متغیر جدید از ترکیب این دو ساخته و به عنوان لیبل در نظر گرفته بشه؟
مثلا به نام FM= Frequency+ Monetary
2.  متغیر Frequency رو اصلا وارد مدل نکنیم.
سوال جالبی هست، فقط جوابش یه ذره نیاز به بحث داره، اگه این دوتا رو توی یک سیستم خطی بررسی میکنید، میشه حذف کرد، اما اگه سیستمتون خطی نباشه، شاید توی سطح بالا اینا اطلاعات مهمی داشته باشن. مساله بعدی هم مولتی کولینیاریتی هست، اگه با ترکیب اینا، دقت افزایش نیافت میشه حذف کرد،
 

افتخار آکادمی داده، همسفر بودن با شما در راه یادگیری علم داده است. 

 من روی داده هایRFM خوشه بندی kmean با استفاده از رپیدماینر انجام دادم.در مرحله پیش پردازش هم نرمالسازی و هیستوگرام روی داده هام انجام دادم. اما نتایج خوشه ها خیلی نزدیک به هم هستن و عملا نمیشه تفاوتی بین خوشه ها پیدا کرد.در 3000 داده یکی ار خوشه ها حدود2000 داده شده. آیا روشی برای بهبود خوشه ها وجود دارد؟
داده شما چوله است. باید الگوریتم را برای دیتای خودتان کاستومایز کنید
 
افتخار آکادمی داده، همسفر بودن با شما در راه یادگیری علم داده است. 
 
سلام،کسی میتونه در چندخط لطفا،توضیح مختصری ازmining social networkرو ،یکم شفاف،بگه؟
به صورت کلی تحلیل های مبتنی بر Content و Context به وسیله  متن کاوی، وب کاوی و تحلیل گراف در این حوزه قابل انجام هست.  در متن کاوی به تحلیل محتواهای متنی منتشر شده در شبکه های اجتماعی توجه می شود و در حوزه تحلیل گراف هم ساختارهای دوستی و ارتباطی موجود در شبکه اجتماعی در جهت شناسایی الگوهای پنهان استفاده می شود