پرسش و پاسخ های تلگرامی 5

پرسش و پاسخ های تلگرامی 5

آکادمی داده

۱۳۹۷/۰۳/۱۸


  • 118 بازدید

در این بخش پرسش و پاسخ های که در گروه های تلگرامی در حوزه علم داده رد و بدل می شود ارائه خواهد شد. بد نیست این مقدمه خوانده شود.

جامعه‌مان به شدت دارد کوتاه‌مدت می‌شود. چیزی شبیه مفهوم «جامعه کلنگی» کاتوزیان. کاتوزیان در مقاله‌ای که بعدها به‌صورت کتاب در آمد، جامعه ایران را کلنگی می‌نامد؛ بدین معنا که هر حکومت و هر مسئولی که آمد، هر آنچه حکومت و مسئولین پیش از وی ساخته‌ بودند را از بیخ و بن ویران، و خود از نو شروع به ساختن می‌کند. قاجارها یادگارهای صفوی را ویران کردند؛ پهلوی‌ها دستاوردهای قاجاریان را و جمهوری اسلامی، دستاوردهای پهلوی را. به همین ترتیب، هر رئیس‌جمهورمان در جمهوری اسلامی نیز، دستاوردهای رؤسای جمهور‌ پیشین ‌را از بیخ و بن ریشه‌کن کرد تا خود طرحی نو در اندازد؛ بی‌آنکه بداند رئیس‌جمهور بعدی، همین‌ بلا را سر خود او خواهد آورد.

به همین شیوه، همین که فیس‌بوک با استقبال ایرانیان روبرو می‌شود، فیلتر می‌گردد؛ تلگرام هم همین طور. در بسیاری از این شبکه‌ها، سرمایه‌ی اجتماعی‌ای شکل می‌گیرد که این روزها ایران به شدت به آن نیاز دارد. صدها استاد دانشگاه، روزنامه‌نگار، روحانی، شبکه‌ی خبری داخلی و… در تلگرام توانسته‌اند اعتماد مردم را جلب کرده و سرمایه‌ی اجتماعی ایرانیان را از دل همین کانالها شکل یا افزایش بدهند. با فیلتر شدن تلگرام، نه تنها ده‌ها هزار کسب و کار تلگرامی از بین خواهد رفت، بلکه این سرمایه‌ی اجتماعی که اهمیتش از آن کسب و کارها به مراتب بیشتر است نیز ویران خواهد شد. تا شبکه اجتماعی دیگری بین مردم جا بیفتد و سرمایه‌ی اجتماعی دوباره‌ای جان بگیرد، بخش زیادی از این سرمایه‌ها برای همیشه از ایران رخت بر خواهد بست. جامعه‌شناس فرانسوی، بوردیو، از امکان تبدیل سرمایه‌ها به یکدیگر سخن می‌گوید. یعنی شما می‌توانی از سرمایه اقتصادی‌ات برای توسعه سرمایه اجتماعی سود ببری یا بالعکس. از میان برداشتن سرمایه‌های اجتماعی در تلگرام، زیانی برابر یا حتی بیشتر از نابودی سرمایه‌های اقتصادی دارد. مانند این است که مسئولین بگویند همه دارندگان حساب در فلان‌ بانک،‌ حساب‌شان که‌ طی این‌ چند سال و‌ با تلاش و کوشش پس‌انداز کرده‌اند، مسدود و نابود شده و ‌می‌توانند از ابتدا در بهمان ‌بانک ‌حساب باز کرده ‌و دوباره از اول شروع به پس‌انداز کنند.

 بی‌گمان سرمایه‌ی اجتماعی‌ای که در آینده و شبکه اجتماعی دیگری شکل بگیرد نیز، همچون همین فیس‌بوک و تلگرام، هیچ تضمینی بر ماندگاری‌اش نیست. بدین شیوه، صدها سال است در چرخه‌ای از ساختن و ویران کردن دچار شده‌ایم و پیشرفت بر پایه داشته‌ها و انباشته‌های پیشین‌ را، تنها در کشورهای همسایه‌ای می‌بینیم که روز به روز از ما بیشتر فاصله می‌گیرند.

منبع : https://t.me/moghaddames

با توجه به فیلتر تلگرام و عدم دسترسی افراد علاقه مند به حوزه علم داده در مدت های آتی، آکادمی داده تصمیم گرفت سوال ها و جواب های مفید که ممکن است مورد سوال دهها تن باشد را در مقالاتی ارائه دهد. البته باید در نظر داشت که تضمینی بر درستی پاسخ ها وجود ندارد ولی قطعا می تواند در راه رسیدن به پاسخ صحیح تر راهگشا باشد. با توجه به ازدیاد این سوالات و پاسخ ها امکان منبع نویسی برای آن ها و اینکه سوال کننده و پاسخ دهنده چه کسانی بودند میسر نیست به همین دلیل به گروههای که این مباحث در آن ها مطرح شده است بسنده خواهد شد. با امید به این که برای علاقه مندان علم داده، داده کاوی، متن کاوی و علوم مرتبط مفید باشد.

افتخار آکادمی داده، همسفر بودن با شما در راه یادگیری علم داده است. 

با سلام. چند تا سوال داشتم قبلا هم پرسیده بودم ولی کامل جواب نگرفتم. محبت میکنید اگر راهنمایی بفرمایید. من لیسانس سخت افزار دارم و تخصصم شبکه است با مفاهیم bi و دیتا ماینینگ بصورت مختصر آشنام.

ولی میخواستم بپرسم که

1-برای اینکه توو این حوزه تخصص پیدا کنم باید چه مسیری رو طی کنم؟

2-آکادمیک و از طریق دانشگاه اقدام کنم بهتره یا آزاد و خودخوان؟

3- بصورت کلی چه تخصص هایی توو حوزه ی داده کاوی وجود داره؟ یعنی در روند اجرای پروژه های داده کاوی چه افرادی با چه تخصص هایی وجود دارند که من بتونم یکی از اون مهارت ها و نقش ها رو انتخاب کنم؟

در صورتی که با مفاهیم داده کاوی آشنا هستید برای اینکه تخصص پیدا کنید در کنار شرکت در دوره های آنلاین سایت های مانند coursera, Edx و...  باید چندین پروژه عملی انجام دهید و با چندین نرم افزار مطرح داده کاوی توانایی کار کردند داشته باشید.

همچنین در تیم های داده کاوی معمولا نقش های چون تحلیل گر آماری،  متخصص هوش مصنوعی و یادگیری ماشین،  متخصص مصورسازی،  کلان داده،  پایگاه داده و برنامه نویس لازم هست.

 
افتخار آکادمی داده، همسفر بودن با شما در راه یادگیری علم داده است. 

با سلام دوستان عزیز ازتون کمک میخوام میشه لطف کنید بمن بگید برای پردازش متن فارسی چه محیط برنامه نویسی استفاده کنم بهتره؟

پایتون و آر .  هر دو اما روی متن کاوی فارسی در پایتون بیشتر انعطاف خواهید داشت مخصوصا با پکیج هضم

افتخار آکادمی داده، همسفر بودن با شما در راه یادگیری علم داده است. 

من دنبال دیتاست در زمینه ی تجاری مخصوصا خرده فروشی میگردم. کسی از دوستان دیتاستی در مورد مثلا نظرات مشتریان و کامنت های مشتریان در فروشگاه هایی مثل آمازون و... رو دارن.؟ لطفا راهنماییم کنین.ممنون

شما می توانید با جمع آوری نظرات به صورت Crawl به چنین اطلاعاتی دست پیدا کنید.  البته چنین داده هایی باید قبلا جمع آوری شده باشند.

افتخار آکادمی داده، همسفر بودن با شما در راه یادگیری علم داده است. 

کلا بهتره ایده های داده کاوی رو توی rapid minnerیا wekaیا matlab یا matlab تست کرد و اگه مثلا در این نرم افزار ها از درخت تصمیم یا شبکه عصبی استفاده کردیم،حالا بخوایم در قالب یک محصول اختصاصی بفروشیم به سازمانی یا مثلا تحت سیستم یا وب و یا موبایل سفارشی ش بکنیم بهتره که با جاوا و پایتون استفاده کنیم. پیشنهاد من جاوا هستش

در کل در بین زبان های برنامه نویسی در حال حاضر به ترتیب زبان های R,  پایتون و جاوا دارای کتابخانه های غنی در حوزه داده کاوی هستند.  در حوزه کلان داده نیز به ترتیب جاوا،  پایتون،  R و Scala

برای پروژه های عملیاتی درصورتی که خروجی مدل به صورت الگو باشد می توان در هر زبان برنامه نویسی استفاده کرد ولی درصورتی که بخواهید مدل رو به صورت batch یا Real time مورد بررسی قرار دهید توصیه استفاده از پایتون و جاوا هست. در حوزه متن کاوی هم پایتون عملکرد بهتری در حوزه پردازش زبان طبیعی فارسی دارد

 
افتخار آکادمی داده، همسفر بودن با شما در راه یادگیری علم داده است. 
 

سلام دوستان. یه سوال داشتم.برای انجام پیش پردازش اسناد در حوزه متن کاوی، بهتره از امکاناتی که ابزارهایی چون rapidminer و R دارند برای اموری مثل ریشه یابی استفاده کرد یا کد نوشت؟ و خصوصا اینکه آیا وزن دهی tf-idf در رپیدماینر، از دقت کافی برخورداره یا نه؟ چون در یکی از فروم های رپیدماینر در رابطه با فرمول tf-idf بحث شده بود و طبق فرمول ln گیری صورت نمی گرفت. چرا که احتمالا بخش هایی از کار هستند که احتیاج به کدنویسی خاصی خواهند داشت و به طور کامل با عملگرهای رپیدماینر قابل پیاده سازی نیستند.

بهترین زبان جهت متن کاوی زبان فارسی زبان پایتون هست.  کتابخانه هضم که توسط دانشجویان دانشگاه علم و صنعت نوشته شده است تمامی ابزارهای پیش پردازش متون شامل ریشه یابی،  نرمال سازی و...  را دارد.  همچنین کتابخانه ها بسیار مطرحی در حوزه متن کاوی و یادگیری ماشین نیز دارد.

افتخار آکادمی داده، همسفر بودن با شما در راه یادگیری علم داده است. 

از دوستان داده کاوی در گوگل کسی کار کرده...؟؟؟؟؟ من ساجست های گوگل رو با کلمات کلیدی که نزدیک به 7 هزار کلمه بهش دادم با پایتون در 2 روز و 60 هزار کلمه مختلف جمع کردم و میخواستم تحلیل کنم...کسی از دوستان موضوع پیشنهادی نداره که رو اون موضوع زوم بشم؟؟؟؟؟؟؟

شما می توانید از تمامی روش های متن کاوی در صورت مسئله خود استفاده کنید.  بعنوان مثال شناسایی قواعد انجمنی و باهم نمایی کلمات پیشنهادی گوگل بایکدیگر،  خوشه بندی کلمات استخراج شده و...

 

افتخار آکادمی داده، همسفر بودن با شما در راه یادگیری علم داده است. 

سلام دوستان. وقت بخیر. دوستان یک مشورت کلی می خواستم به نظرتون اگر برم روی شبکه عصبی و ماشین بردار پشتیبان svm و پزشکی و داده کاوی کار کنم برای پایان نامه بهتر است یا روی بیگ دیتا و داده کاوی؟  با یکی از دوستانم مشورت کردم و میگن شبکه های عصبی و همین داده کاوی بیشتر توی بورس است و برای پذیرش دکترا این موارد خیلی بهتر خواهد بود تا مسائل دیگر، حتی برای پذیرش دکترا در کشورهای دیگر.

نمی دونم گیج شدم، میگن موارد دیگه زود کیفیتش رو از دست میده ولی شبکه عصبی و پردازش تصویر همیشه توی بورس هست و بوده !! و یک جورایی میشه گفت آینده ما به انتخاب همین موضوع پایان نامه بسیار بستگی داره. ممنون میشم کمک کنید.

تمامی این روش ها و متدها باید ابزاری برای حل یک مشکل یا مسئله باشد و  اگر بتوانید با هر ابزار،  متد یا روشی مانند داده کاوی،  آمار،  کلان داده و... این مسئله را حل کنید قطعا در آینده هم   می توانید از آن استفاده کنید

افتخار آکادمی داده، همسفر بودن با شما در راه یادگیری علم داده است. 
 

سلام وقت بخیر؛ من تو تعریف نرون در شبکه عصبی به مشکل خوردم در واقع نمی دونم چه چیزی رو به عنوان نرون معرفی می کنند ممنون میشم راهنماییم کنید. تشکر از پاسختون یه سوال دارم مدل تک نرون به چه شکل است منم این برداشت رو داشتم که هر قسمت یه نرون هست اما با این برداشتم نتونستم مدل تک نرون رو تصور کنم

نرون های لایه پنهان در حقیقت پارامترهای رگرسیونی هستند که باید تعریف بشوند...نرون های لایه ورودی متغیرهای پیش بینی کننده و نرون های لایه خروجی متغیری هست که باید پیش بینی شود. توی هر نرون در حقیقت دو عملکرد جمع و فعالسازی اتفاق می افته که از یکسری تابع بسیار ساده استفاده می شه....توی جمع که جمع هست و توی فعالسازی تابعی استفاده می شه که چون خروجی این جمع ممکنه از یک بیشتر بشه و نرمال نباشه این تابع خروجی را نرمال می کنه...در نهایت اگر مدل رگرسیون و روش کار رگرسیون را بخوانید فق خواهید دید که نرن های لایه پنهان همان پارامترهای رگرسیون هستند که تعدادشان زیاد شده . به همه پیشنهاد می کنم فصل شبکه عصبی این کتاب را بخوانید. اگر می خواهید درک خوبی از ساختار شبکه عصبی پیدا کنید و پارامترها و تخمین زدن را متوجه شوید این کتاب معجزه است

افتخار آکادمی داده، همسفر بودن با شما در راه یادگیری علم داده است. 

یه کتابخونه python در مورد متن کاوی فارسی وجود داره به اسم هضم، آیا بهتر از اون رو کسی در حوزه متن کاوی فارسی سراغ داره؟ اگه معرفی کنین که ممنون میشم

نرمال سازی هضم بد نیست. البته خود این نرمال ساز از pre_per مژگان سراجی استفاده می‌کنه. به نظرم یه نگاهی هم به کارهای مژگان سراجی بندازید. اصولا کارهای پردازش متنی به نوع متن خیلی بستگی داره. به عنوان مثال اگه متنتون غیرفرمال باشه روشهای پیاده سازی شده هضم و pre_per هیچ کمکی بهتون نمی‌کنه.

http://stp.lingfil.uu.se/~mojgan/

 
افتخار آکادمی داده، همسفر بودن با شما در راه یادگیری علم داده است. 
 

سلام رده بند j48 چه خاصیتی داره که حتی از روش های رده بندی جمعی هم روی یک دیتاست خاص بهتر جواب میده، تقریبا همه شاخص هاش بهتره. واینکه چرا تو رپید ماینر این رده بند رو نداریم و فقط با اکستنشن وکا میشه اضافه ش کرد؟

سلام. رده بندی درخت تصمیم هست. اگر منظورتون از روشهای جمعی، ensemble method ها هستند، لزوما اینجوری نیست و دیتاست های زیادی وجود داره که روشهای انسمبل بهتر ج میدن. بله رده بند درخت تصمیم هست، و رو دیتاست خاصی که من دارم حتی با وجود نامتوازن بودن از بین یازده رده بند j48بهترین نتیجه رو داده و من دلیلش رو نمیدونم چی تحلیل کنم

افتخار آکادمی داده، همسفر بودن با شما در راه یادگیری علم داده است. 

ببخشید تو این گروه کسی به طور کلی در حوزه opinion mining و sentiment analysis کار کرده؟

در حوزه زبان فارسی کارهای در حوزه آنالیز معنایی متن صورت گرفته ولی اکثرا به صورت رایگان ارائه نمی گردد.  برای آشنایی ابتدا با زبان انگلیسی شروع کنید.  کتابخانه های متن کاوی پایتون ویژگی های آنالیز احساس در زبان انگلیسی را پوشش می دهند

 
افتخار آکادمی داده، همسفر بودن با شما در راه یادگیری علم داده است.