مجموعه داده همشهری

مجموعه داده همشهری

آکادمی داده

۱۳۹۷/۰۳/۱۰


  • 235 بازدید

طبقه بندی متون یکی از زیر مجموعه های متن کاوی است. در این مقاله درمورد دو مجموعه داده معتبر طبقه بندی متون در زبان فارسی صحبت خواهد شد. در پردازش متون سعی می شود دانشی از متون خام استخراج گردد. در طبقه بندی متون هدف مشخص کردن گروه متن است به طور مثال نظری که در یک وب سایت درج شده است یک نظر انتقادی یا غیر انتقادی است. در این مثال انتقادی و غیر انتقادی بودن دو گروه برای طبقه بندی نظرات را تشکیل می دهند.  طبقه بندی متون قدمت بسیاری در حوزه متن کاوی دارد این موضوع از سال 1960  میلادی مورد توجه محققین بوده است ولی با رونق کامپیوتر و نرم افزار مانند دیگر موضوعات هوش مصنوعی و داده کاوی در دهه 90 میلادی توجه به این موضوع در این دهه رشد چشمگیری داشت و مورد توجه قرار گرفت.

مجموعه داده همشهری مربوط به متن اخبار و گروه اخبار های منتشر شده در روزنامه همشهری مربوط به سال های 1375-1387 می باشد. در دیتاست همشهری نسخه یک،  166 هزار خبر به همراه گروه خبر وجود دارد. یکی از مشکلاتی که محققین داخلی با این مجموعه داده داشته اند فرمت xml این دیتاست است. تیم فنی دیتاهارت برای اینکه این مجموعه داده برای انجام پردازش و ایجاد مدل های طبقه بندی آماده تر باشد آن را به فرمت اکسل تبدیل کرده است. در این فرمت دو ستون وجود دارد که یکی مربوط به متن خبر و دیگری برچسب گروه خبر می باشد. در کنار فرمت اکسل، فرمت csv نیز در ارائه می گردد. مالکیت معنوی این دیتاست متعلق به مرکز تحقیقات مخابرات ایران می باشد.

از طریق لینک زیر می توانید نمونه این مجموعه داده را مشاهده بفرمایید:

http://dataheart.ir/upload/public/176461515653557.xlsx

در وب  سایت دیتاهارت نسخه های متفاوتی از این مجموعه داده عرضه شده است که محققین عزیز که به دنبال فرمت اکسل یا csv این دیتاست هستند می توانند از آن ها استفاده نمایند در زیر این دیتاست ها معرفی شده است:

مجموعه داده همشهری شامل ده هزار سند در ده گروه خبری در فرمت اکسل

مجموعه داده همشهری شامل ده هزار سند در فرمت اکسل و csv

مجموعه داده کامل همشهری نسخه 1 شامل 166 هزار سند در فرمت اکسل و csv

کپی برداری بدون ذکر منبع، براساس قانون جرایم اینترتی و مادۀ 12 فصل سوم قانون جرایم رایانه ای غیر قانونی بوده و مجازات جزای نقدی و حبس دارد و شرعا نیز حرام است! 

اگر در زمینه متن کاوی در حال تحقیق یا پیاده سازی پروژه یا پایان نامه هستید برای گرفتن مشاوره یا دادن سفارش انجام با ما تماس بگیرید.  آکادمی داده در تلگرام، واتزآپ و تمامی پیام رسان های ایرانی(سروش، آی گپ، بله، گپ و ویسپی) با شماره 09120637751 حضور دارد برای ارتباط از طریق ایمیل آدرس جیمیل: dataacademyir@gmail.com می باشد. 

افتخار آکادمی داده، همسفر بودن با شما در راه یادگیری علم داده است.