در این بخش پرسش و پاسخ های که در گروه های تلگرامی در حوزه علم داده رد و بدل می شود ارائه خواهد شد. بد نیست این مقدمه خوانده شود.
جامعهمان به شدت دارد کوتاهمدت میشود. چیزی شبیه مفهوم «جامعه کلنگی» کاتوزیان. کاتوزیان در مقالهای که بعدها بهصورت کتاب در آمد، جامعه ایران را کلنگی مینامد؛ بدین معنا که هر حکومت و هر مسئولی که آمد، هر آنچه حکومت و مسئولین پیش از وی ساخته بودند را از بیخ و بن ویران، و خود از نو شروع به ساختن میکند. قاجارها یادگارهای صفوی را ویران کردند؛ پهلویها دستاوردهای قاجاریان را و جمهوری اسلامی، دستاوردهای پهلوی را. به همین ترتیب، هر رئیسجمهورمان در جمهوری اسلامی نیز، دستاوردهای رؤسای جمهور پیشین را از بیخ و بن ریشهکن کرد تا خود طرحی نو در اندازد؛ بیآنکه بداند رئیسجمهور بعدی، همین بلا را سر خود او خواهد آورد.
به همین شیوه، همین که فیسبوک با استقبال ایرانیان روبرو میشود، فیلتر میگردد؛ تلگرام هم همین طور. در بسیاری از این شبکهها، سرمایهی اجتماعیای شکل میگیرد که این روزها ایران به شدت به آن نیاز دارد. صدها استاد دانشگاه، روزنامهنگار، روحانی، شبکهی خبری داخلی و… در تلگرام توانستهاند اعتماد مردم را جلب کرده و سرمایهی اجتماعی ایرانیان را از دل همین کانالها شکل یا افزایش بدهند. با فیلتر شدن تلگرام، نه تنها دهها هزار کسب و کار تلگرامی از بین خواهد رفت، بلکه این سرمایهی اجتماعی که اهمیتش از آن کسب و کارها به مراتب بیشتر است نیز ویران خواهد شد. تا شبکه اجتماعی دیگری بین مردم جا بیفتد و سرمایهی اجتماعی دوبارهای جان بگیرد، بخش زیادی از این سرمایهها برای همیشه از ایران رخت بر خواهد بست. جامعهشناس فرانسوی، بوردیو، از امکان تبدیل سرمایهها به یکدیگر سخن میگوید. یعنی شما میتوانی از سرمایه اقتصادیات برای توسعه سرمایه اجتماعی سود ببری یا بالعکس. از میان برداشتن سرمایههای اجتماعی در تلگرام، زیانی برابر یا حتی بیشتر از نابودی سرمایههای اقتصادی دارد. مانند این است که مسئولین بگویند همه دارندگان حساب در فلان بانک، حسابشان که طی این چند سال و با تلاش و کوشش پسانداز کردهاند، مسدود و نابود شده و میتوانند از ابتدا در بهمان بانک حساب باز کرده و دوباره از اول شروع به پسانداز کنند.
بیگمان سرمایهی اجتماعیای که در آینده و شبکه اجتماعی دیگری شکل بگیرد نیز، همچون همین فیسبوک و تلگرام، هیچ تضمینی بر ماندگاریاش نیست. بدین شیوه، صدها سال است در چرخهای از ساختن و ویران کردن دچار شدهایم و پیشرفت بر پایه داشتهها و انباشتههای پیشین را، تنها در کشورهای همسایهای میبینیم که روز به روز از ما بیشتر فاصله میگیرند.
منبع : https://t.me/moghaddames
با توجه به فیلتر تلگرام و عدم دسترسی افراد علاقه مند به حوزه علم داده در مدت های آتی، آکادمی داده تصمیم گرفت سوال ها و جواب های مفید که ممکن است مورد سوال دهها تن باشد را در مقالاتی ارائه دهد. البته باید در نظر داشت که تضمینی بر درستی پاسخ ها وجود ندارد ولی قطعا می تواند در راه رسیدن به پاسخ صحیح تر راهگشا باشد. با توجه به ازدیاد این سوالات و پاسخ ها امکان منبع نویسی برای آن ها و اینکه سوال کننده و پاسخ دهنده چه کسانی بودند میسر نیست به همین دلیل به گروههای که این مباحث در آن ها مطرح شده است بسنده خواهد شد. با امید به این که برای علاقه مندان علم داده، داده کاوی، متن کاوی و علوم مرتبط مفید باشد.
افتخار آکادمی داده، همسفر بودن با شما در راه یادگیری علم داده است.
سلام دوستان، یه سوال داشتم من میخوام بفهمم خرید بعدی مشتری من از مغازه ام چیه باید چیکار کنم.
یعنی یه سری دیتا دارم که میگن هر مشتری تو چه تاریخی چه چیزی خریده.
حالا میخوام بدست بیارم که خرید بعدی مشتری م چی هست و خیلی بهترش هم میشه اینکه بفهمم مشتری کی میاد و چی رو میخره؟!
باسلام. الگوریتم های پیش بینی کننده در موضوع طبقه بندی به شما کمک می کنند.
از داده کاوی میشه استفاده کرد و توی سایت ها بگرد این مثال ها زیاد است. کتاب مفاهیم داده کاوی مهدی اسماعیلی را بخوان البته پی دی افش هست اما بعضی فصول را نداره همون سه فصل اول دید شما را باز می کنه.
الگوی پر تکرار:یک الگو که غالبا در یک مجموعه داده رخ می ده:این الگو ها می توان:
-مجموعه از ایتم ها:به طور مثال نان و شیر باشد
زیر مجموعه ای از توالی ها:پس از دوربین کارت حافظه خرید می شود
زیر ساخت ها:مانند زیر گراف و زیر درخت
-و غیر...
واما انگیزه (Motivation)
-چه محصولاتی اغلب با هم خریداری می شوند-کاغذ و خودکار
-خرید های بعدی بعد از خرید کامپیوتر چیست؟ و یکی از برنامه های کاربردی آن آنالیز سبد خرید هست و بازار یابی و آنالیز سلسله عملیات فروش و… و اما دسته بندی(classification): تشخیص تقلب (Fraud detection) بازار یابی هدف مند(Target Marketing) تشخیصات پزشکی و ......
یکی از بر نامه های کاربردی آن: مدیر بازار یاب یک شرکت می خواهد داده ها را تحلیل نماید وحدس بزند آیا مشتری قدیمی شرکت محصولات جدید را خواهد خرید؟؟؟ شما با توجه به نیاز خود یکی از این موارد را انتخاب کنید
در حالت کلی می توان فعالیت پیشبینی را به دو گروه تخمین (رگرسیون با خروجی پیوسته) و کلاس بندی (با خروجی گسسته) تقسیم نمود. بحث شما در حوزه کلاس بندی می باشد. خود کلاس بندی به دو گروه Diagnosis (اکنون چه اتفاقی افتاده است) و Prognosis (در آینده ) چه چیزی رخ خواهد داد تقسیم می شود.
درصورتیکه زمان وقوع یک اتفاق در آینده مد نظر است باید از راهکارهای Prognosis استفاده نمایید. در این راهکار ، براساس دیتاهای موجود ، مدلی تولید می شود که به پیش بینی آینده می پردازد. و حتی زمان وقوع یک رخداد را تخمین می زند. بعنوان مثال اگر بخواهیم براساس داده های موجود ، مدلی تولید نماییم که در آن به بررسی اینکه شخصی اکنون دچار سرطان است یا نه بپردازیم ، راهکار تشخیص (Diagnosis) می باشد ولی درصورتیکه بخواهیم بیایم که آیا در آینده (و کی) فردی مبتلا به صرطان می شود راهکار پیش آگهی (Prognosis) می باشد.
و البته راهکار بینابینی نیز وجود دارد. درصورتیکه مایل باشیم تا ابراز کنیم که احتمال خرید چیزی در آینده وجود دارد ولی زمان رخداد آن برایمان اهمیتی نداشته باشد ، می توان از سیستمهای تشخیص ای استفاده نمود که بعنوان مثال پیشنهاد بدهند. در این صورت بنظر می رسد که تکنیکی شبیه به Association Rule mining کارا باشد.
افتخار آکادمی داده، همسفر بودن با شما در راه یادگیری علم داده است.
سلام دوستان
ممنون از گروه من یه سوالی داشتم : این درسته که وقتی تعداد labelها کم هست و هزینه برچسب گذاری زیاد هست از یادگیری فعال استفاده کنیم؟ و یادگیری فعال چه طوری میتونه به این موضوع کمک کنه ؟
خیر ربطی به لیبل خیلی نداره...در اکتیو لرنینگ هدف اینه که با تعداد نم نه کمتر مدلسازی انجام بشه
افتخار آکادمی داده، همسفر بودن با شما در راه یادگیری علم داده است.
در درخت تصمیمم یکی از حالت های لیبل recall, precission خیلی پایینی دارن به نسبت بقیه حالتها. و از یکی از اساتید پرسیدم گفتن به صورت کلی لیبلت نسبت به تعداد فیچر ها زیاد هست. گفتم شاید راهی باشه که درخت بهینه تری بدست بیارم
سلام به طور کل کوچکترین ارتباطی بین تعداد کلاس های لیبل با تعداد متغیرها وجود ندارد...در نهایت شاید تعداد متغیرها کم باشد اما مشکل اینجاست که توازن بین رده های متغیر هدف چطوری است مثلا اگر ۱۰۰ رکورد دارید چند درصد برای رده ۱ چند درصد برای رده و ... هستند...شاید مشکل کم بودن تعداد رده باعث این اتفاق شده.
افتخار آکادمی داده، همسفر بودن با شما در راه یادگیری علم داده است.
سلام. روز بخیر. برای برچسب گذاری اسناد در r، برای انجام رده بندی چه روشی وجود دارد؟من روشم svm هست. اما داده هام class label ندارند. می خواستم بدونم روش درست برای برچسب گذاری چیست؟ فکر می کنم سوالم رو خوب مطرح نکردم. یکبار در گروه دیدم که دوستان گفتم با تعریف ویژگی. برای این کار من فایل کلاس ها رو جداگانه لود کردم و با دستور attr ویژگی برچسب ایجاد کردم. اما در مرحله merge اسناد و ایجاد corpus برای پیش پردازش در tm این ویژگی در مجموعه ویژگی اسناد نشان داده نمی شود. در منبعی دیدم که گفته بود یک بردار برای کلاس اسناد تعریف کنید و آن را به آخرین ستون dataframe الحاق کنید. کدام روش صحیح است و چطور باید از این برچسب برای محاسبه مقادیر در انتخاب ویژگی استفاده کرد؟
تمامی روش های رده بندی که دسته های اصلی درخت تصمیم و شبکه عصبی و نزدیکترین همسایگی و بیز و رگرسیون و بردار پشتیبان و بر پایه قاعده و روش های جمعی و ... هستند
افتخار آکادمی داده، همسفر بودن با شما در راه یادگیری علم داده است.
سلام دوستان
Tokenizing داده ها در دسته بندی اسناد چه مفهومی داره ؟
Tokenization فرآیندی هست که یک متن رو به یک سری توکن، تبدیل میکنه توکن میتونه جمله، عبارت یا کلمه و یا حتی کاراکتر در نظر گرفته بشه
توی مورد شما، اسناد باید به برداری از کلمات تبدیل بشن. این فرآیند توکنایز برای هر زبان، پیچیدگی های خاص اون زبان رو باید در نظر بگیره مثلا توی فارسی به علت پیچیدگی ها و ابهامات رسم الخط فارسی، کلماتی مثل «می رسم» باید یک کلمه در نظر گرفته بشه و نویسه فاصله اینجا جداکننده نیست.همینجور برای نویسه نقطه وقتی قبل و بعدش عدد باشه،جدا کننده نیست 12.38 و ...
افتخار آکادمی داده، همسفر بودن با شما در راه یادگیری علم داده است.
عذر خواهم کتابی به زبان فارسی برای اموزش R نیست?
یه کتابی رو دکتر تیمور پور ارایه دادن
افتخار آکادمی داده، همسفر بودن با شما در راه یادگیری علم داده است.
یه سوال داشتم و اون اینکه وجود ۱۱۵۰۰ سند یا بیست هزار سند در متنکاوی، چیز عجیبی نیست. اما متاسفانه در بعضی از مراحل پردازش این اسناد، مثل اعمال مدل یا تبدیل انواع داده ها به هم در نرمافزار r با کمبود رم و خطای تخصیص حافظه مواجه میشم. باید چه کنم؟ آیا روشی وجود دارد که به واسطه آن، پردازس خارج از رم انجام شود؟ این در حالیه که سایر بخش ها مثل پیشپردازش و غیره در زمانی کمتر از ده دقیقه برای این تعداد انجام می شود!
دقیقا چه اعمالی را برروی متن می خواهید انجام بدهید؟ این مدت زمان برای این تعداد متن بسیار زیاد هست!
پیش پردازش، pos ، استخراج روابط وردنت، انتخاب ویژگی، رده بندی svm و pca. یعنی زمان حدود شش دقیقه برای پردازش کامل متن زیاد است؟ البته به جز پردازش های معنایی.
با توجه به تجربیاتی که بنده با زبان پایتون داشته ام این زمان کمی زیاد هست!در صورتی که متن ها بیشتر گردد قطعا زمان بسیار بیشتری خواهد گرفت
افتخار آکادمی داده، همسفر بودن با شما در راه یادگیری علم داده است.
سلام دوستان
Stemming و stoplist در دسته بندی اسناد چه کاربردی دارن؟
سلام. ایست واژه ها، لغاتی پرتکراری هستند که بارمعنایی ندارند، حروف اضافه، حروف ربط، افعال معین و قس علی هذا ایست واژه محسوب میشن که معمولا موقع ایندکس کردن اسناد از فهرست واژگان حذف میشن. ریشه یابی هم که تو دو سطح استمینگ و لم یابی انجام میشه باعث میشه شما به جای ذخیره همه اشکال صرفی یک کلمه ، فقط ریشه اون رو ذخیره کنین، که این کار هم باعث افزایش میزان ارتباط اسناد با کوئری میشه، هم حجم فایل ایندکسینگ رو کاهش میده
افتخار آکادمی داده، همسفر بودن با شما در راه یادگیری علم داده است.
سلام دوستان من با استفاده از nltkو الگوریتم tfidf کلمات کلیدی رو توی پایتون استخراج کرد.نیاز به نمایش به صورت ابرکلمات دارم ولی نمیتونم نسخه پایتونشو(3.5) نصب کنم . اول یه خطا داد که بعد سرچ فهمیدم بایدvisualcppbuildtools رو نصب کنم .ولی دوباره که pip install wordcloudمیزنم.خطای زیر رو می گیره:command'cl.exe' failed:no such file or directory چطور حل میشه ؟ممنون
از طریق نصب conda و wheel هم امتحان کردید؟اصلا از anaconda استفاده کردید برای نصب یا نسخه تکی رو دارید؟این نسخه یک نسخه توزیعی هست که شامل تعدادی از پکیج ها می شه و خیلی از کانفلیکت های نصب پکیج ها رو از بین می بره...در نهایت مثل کامند pip اینجا یه کامند conda هست...اگر این مسخه رو ندارید مهم نیست برید سراغ راه حل دوم یعنی دانلود فایل اصلی پکیج و بعد اون رو نصب کنید..
افتخار آکادمی داده، همسفر بودن با شما در راه یادگیری علم داده است.