پرسش و پاسخ های تلگرامی 4

پرسش و پاسخ های تلگرامی 4

آکادمی داده

۱۳۹۷/۰۳/۱۸


  • 77 بازدید

در این بخش پرسش و پاسخ های که در گروه های تلگرامی در حوزه علم داده رد و بدل می شود ارائه خواهد شد. بد نیست این مقدمه خوانده شود.

جامعه‌مان به شدت دارد کوتاه‌مدت می‌شود. چیزی شبیه مفهوم «جامعه کلنگی» کاتوزیان. کاتوزیان در مقاله‌ای که بعدها به‌صورت کتاب در آمد، جامعه ایران را کلنگی می‌نامد؛ بدین معنا که هر حکومت و هر مسئولی که آمد، هر آنچه حکومت و مسئولین پیش از وی ساخته‌ بودند را از بیخ و بن ویران، و خود از نو شروع به ساختن می‌کند. قاجارها یادگارهای صفوی را ویران کردند؛ پهلوی‌ها دستاوردهای قاجاریان را و جمهوری اسلامی، دستاوردهای پهلوی را. به همین ترتیب، هر رئیس‌جمهورمان در جمهوری اسلامی نیز، دستاوردهای رؤسای جمهور‌ پیشین ‌را از بیخ و بن ریشه‌کن کرد تا خود طرحی نو در اندازد؛ بی‌آنکه بداند رئیس‌جمهور بعدی، همین‌ بلا را سر خود او خواهد آورد.

به همین شیوه، همین که فیس‌بوک با استقبال ایرانیان روبرو می‌شود، فیلتر می‌گردد؛ تلگرام هم همین طور. در بسیاری از این شبکه‌ها، سرمایه‌ی اجتماعی‌ای شکل می‌گیرد که این روزها ایران به شدت به آن نیاز دارد. صدها استاد دانشگاه، روزنامه‌نگار، روحانی، شبکه‌ی خبری داخلی و… در تلگرام توانسته‌اند اعتماد مردم را جلب کرده و سرمایه‌ی اجتماعی ایرانیان را از دل همین کانالها شکل یا افزایش بدهند. با فیلتر شدن تلگرام، نه تنها ده‌ها هزار کسب و کار تلگرامی از بین خواهد رفت، بلکه این سرمایه‌ی اجتماعی که اهمیتش از آن کسب و کارها به مراتب بیشتر است نیز ویران خواهد شد. تا شبکه اجتماعی دیگری بین مردم جا بیفتد و سرمایه‌ی اجتماعی دوباره‌ای جان بگیرد، بخش زیادی از این سرمایه‌ها برای همیشه از ایران رخت بر خواهد بست. جامعه‌شناس فرانسوی، بوردیو، از امکان تبدیل سرمایه‌ها به یکدیگر سخن می‌گوید. یعنی شما می‌توانی از سرمایه اقتصادی‌ات برای توسعه سرمایه اجتماعی سود ببری یا بالعکس. از میان برداشتن سرمایه‌های اجتماعی در تلگرام، زیانی برابر یا حتی بیشتر از نابودی سرمایه‌های اقتصادی دارد. مانند این است که مسئولین بگویند همه دارندگان حساب در فلان‌ بانک،‌ حساب‌شان که‌ طی این‌ چند سال و‌ با تلاش و کوشش پس‌انداز کرده‌اند، مسدود و نابود شده و ‌می‌توانند از ابتدا در بهمان ‌بانک ‌حساب باز کرده ‌و دوباره از اول شروع به پس‌انداز کنند.

 بی‌گمان سرمایه‌ی اجتماعی‌ای که در آینده و شبکه اجتماعی دیگری شکل بگیرد نیز، همچون همین فیس‌بوک و تلگرام، هیچ تضمینی بر ماندگاری‌اش نیست. بدین شیوه، صدها سال است در چرخه‌ای از ساختن و ویران کردن دچار شده‌ایم و پیشرفت بر پایه داشته‌ها و انباشته‌های پیشین‌ را، تنها در کشورهای همسایه‌ای می‌بینیم که روز به روز از ما بیشتر فاصله می‌گیرند.

منبع : https://t.me/moghaddames

با توجه به فیلتر تلگرام و عدم دسترسی افراد علاقه مند به حوزه علم داده در مدت های آتی، آکادمی داده تصمیم گرفت سوال ها و جواب های مفید که ممکن است مورد سوال دهها تن باشد را در مقالاتی ارائه دهد. البته باید در نظر داشت که تضمینی بر درستی پاسخ ها وجود ندارد ولی قطعا می تواند در راه رسیدن به پاسخ صحیح تر راهگشا باشد. با توجه به ازدیاد این سوالات و پاسخ ها امکان منبع نویسی برای آن ها و اینکه سوال کننده و پاسخ دهنده چه کسانی بودند میسر نیست به همین دلیل به گروههای که این مباحث در آن ها مطرح شده است بسنده خواهد شد. با امید به این که برای علاقه مندان علم داده، داده کاوی، متن کاوی و علوم مرتبط مفید باشد.

افتخار آکادمی داده، همسفر بودن با شما در راه یادگیری علم داده است. 

سلام. موضوع پایان نامه من متن کاوی است و برای بخشی از آن باید یک سری کلمات مثبت و منفی را از متن گزارشات استخراج کنم. می خواستم بپرسم از چه نرم افزاری استفاده کنم؟

اگر بدنبال انجام پایان نامه و کاری هستید که به انجام آن افتخار کنید روش کار این نیست که دنبال راه حل آماده ای مثل یک نرم افزار باشید... باید به روش فکر کنید و اینکار با مرور منابع و مقالات میسر است.. این قدم اول است... بعد خود مسیر بنمایدت راه...

 
افتخار آکادمی داده، همسفر بودن با شما در راه یادگیری علم داده است. 

برای درس داده کاوی مقطع کارشناسی که برای دانشجویان سال آخر ارائه میشه, چه لیست پروژه هایی برای تعریف به عنوان پروژه کلاسی پیشنهاد می کنید؟ سایت ایرانی هست که داده های داخلی به درد بخور را برای کار پژوهشی منتشر کند؟

یکی از تجربه های موفق در این حوزه وب سایت www.boute.ir هست.  در این وب سایت که مخصوص دانشجویان کارشناسی درس هوش مصنوعی دانشگاه علم و صنعت( دکتر مینایی ) است دانشجویان در طول این درس یک پروژه کامل را پیاده سازی می کنند و معمولا مقالات خوبی از همین پروژه ها حاصل می شود.

افتخار آکادمی داده، همسفر بودن با شما در راه یادگیری علم داده است. 

بهترین نرم افزار متن کاوی چیه؟

نرم افزارهایی مانند رپیدماینر، Knime و..     ماژول های متن کاوی دارند ولی بهترین ابزار در متن کاوی استفاده از زبان های برنامه نویسی مانند پایتون و R می باشد

افتخار آکادمی داده، همسفر بودن با شما در راه یادگیری علم داده است. 

سلام  دیتاستی از کلمات فارسی میتونید بهم معرفی کنید؟

برای اینکه ببینید چه مجموعه اسناد فارسی موجود هست به سایت دادگان مراجعه کنید http://dadegan.ir/

روزنامه همشهری بهتون میده اگر مراجعه کنید . من برای متن کاوی ازشون گرفتم .

 
افتخار آکادمی داده، همسفر بودن با شما در راه یادگیری علم داده است. 
 

دوستا سلام. آیا در متن کاوی هم میشه قواعد وابستگی رو  پیاده سازی کرد. لطفا اگه مطلبی یا مقاله ای در این مورد دارید در اینجا قرار بدید.چون در داده های عددی این کار مشخص تره. مثلا مشتری که پنکه خریده بعدش اتو خریده ولی در داده متنی ما باید دنبال چه قواعدی باشیم. ممنون

باهم ایی کلمات رو می توانید با این روش بدست بیارید

افتخار آکادمی داده، همسفر بودن با شما در راه یادگیری علم داده است. 

دوستان سلام. در رپیدماینر به منظور متن کاوی و حذف کلمات اضافی filter sropword(ditionary) استفاده کردم و برای این کار یک فایل notepad ایجاد کردم و برخی از کلماتی که میخوام حذف بشن را در اون وارد کردم. متاسفانه موقع خروجی گرفتن باز اون کلمات نشون داده میشن. به نظرتون مشکل از کجاست. ممنون

با متن فارسی دارید کار می کنید

 

افتخار آکادمی داده، همسفر بودن با شما در راه یادگیری علم داده است. 

سلام دنبال پایگاه داده ای میگردم  که مثلا نظرات پزشک به صورت متن(مثل نامه ها و داده های مشاهده ای بالینی) باشه که بتونم با توجه به محتوای اسناد اونها رو تحلیل کنم

قبلاً به مقاله دیدم کار شده بود روی متن نسخه ها فک کنم برای تامین اجتماعی بود

افتخار آکادمی داده، همسفر بودن با شما در راه یادگیری علم داده است. 

سلام. میخوام روی یک متن با رپیدماینر داده کاوی انجام بدم.متنم پر از اسامی خاصه که نیازی بهشون ندارم. چه طور میتونم این اسامی خاص رو حذف کنم؟آیا stop word میتونه تو این زمینه کمکم کنه. و این اسامی خاص رو بهش اضافه کنم. متن من انگلیسیه. ممنون

سلام. می تونید این کلمات رو  در یک فایل .txt وارد و ذخیره کنید. بعد از این کار از عملگر حذف ایست‌واژه با فایل استفاده کنید. در واقع به نوعی stop word removal چندمرحله‌ای انجام میشه.

افتخار آکادمی داده، همسفر بودن با شما در راه یادگیری علم داده است. 

سلام. دوستان چون تازه وارد بازار کار شدم و از اوضاع چندان مطلع نیستم، ممنون میشم اگه بگین هوش مصنوعی در ایران چه بصورت تئوری و مخصوصا عملی کاربرد داره و در حال استفاده است؟ مثلا میدونم در حوزه پردازش تصویر و تشخیص چهره و پلاک کاربر داره

در زمینه های مختلفی کار میشه. در متن کاوی و پردازش گفتار هم کارهای خوبی انجام شده ولی هنوز شرکت های و کلن کارهای هوش مصنوعی در ایران اول راهه. و بازار خوبی براش میشه متصور بود اگر با ایده های کاربردی سراغش برین

 
افتخار آکادمی داده، همسفر بودن با شما در راه یادگیری علم داده است. 
 

یکسوال داشتم. من برای متن کاوی برهم کنش پروتئین corpus هایی دارم که xml هستند. برای پردازش اولیه اون میخوام از لایبرری opennlp استفاده کنم. ولی نمیتونم تمام داده های کورپوس رو به این لایبرری بدم. اول میخوام sentence detection داشته باشه و بعد برخی کلمات لاتین رو میخوام تغییر بده.

در درجه اول اینکه من از روش های مبتنی بر جاوا برای خوندن xml استفاده کردم ولی در این کتابخانه جواب نداد و اصلا اجرا نشد.

در مرحله بعدی وقتی خواستم کلمات یونانی مثل آلفا و بتا رو به کلمه تبدیل کنم و از فاز قبلیش که سنتنس دیتکشن هست استفاده کردم (خروجی مرحله سنتنس دیتکشن ورودی مرحله unified greek  هستش) فرمت ها به هم ریخت و کلا علائمی مثل . و ، و .... نادیده میگیره که برای فاز بعدیش خیلی مهمه. کسی میتونه توی این زمینه به من کمک کنه؟ ممنونم از همگی

در فاز خوندن xml می توانید از برخی نرم افزارهای آماده موجود یا برخی سایت های رایگان استفاده کنید و نیازی به کد نویسی در صورتی که اجباری نباشد نیست!

در مرحله پردازش زبان طبیعی باید encoding مناسب رو انتخاب کنید مانند utf8.

 

افتخار آکادمی داده، همسفر بودن با شما در راه یادگیری علم داده است. 

داده های فارسی رو می تونم با وکا پیش پردازش کنم?

باید جستجو کنید ولی وکا در حوزه متن کاوی و بخصوص حوزه فارسی پیشنهاد نمی شود. رپیدماینر و پایتون خوب هستند

 
افتخار آکادمی داده، همسفر بودن با شما در راه یادگیری علم داده است. 
 

برای تحلیل گر آماری چه کار باید کنم?

دوره Data science دانشگاه John Hopkins سایت کرسرا که مبتی بر زبان R هست برای تبدیل شدن به یک تحلیلگر آماری مناسب هست.  همچنین باید برخی کتب پایه آماری رو نیز مطالعه کنید