آشنایی با دو مجموعه داده معتبر طبقه بندی متون در زبان فارسی

آشنایی با دو مجموعه داده معتبر طبقه بندی متون در زبان فارسی

آکادمی داده

۱۳۹۶/۱۱/۰۴


  • 181 بازدید

طبقه بندی متون[1] یکی از زیر مجموعه های متن کاوی[2] است. در این مقاله درمورد دو مجموعه داده[3] معتبر طبقه بندی متون در زبان فارسی صحبت خواهد شد. در پردازش متون سعی می شود دانشی از متون خام استخراج گردد. در طبقه بندی متون هدف مشخص کردن گروه متن است به طور مثال نظری که در یک وب سایت درج شده است یک نظر انتقادی یا غیر انتقادی است. در این مثال انتقادی و غیر انتقادی بودن دو گروه برای طبقه بندی نظرات را تشکیل می دهند.  طبقه بندی متون قدمت بسیاری در حوزه متن کاوی دارد این موضوع از سال 1960  میلادی مورد توجه محققین بوده است ولی با رونق کامپیوتر و نرم افزار مانند دیگر موضوعات هوش مصنوعی و داده کاوی در دهه 90 میلادی توجه به این موضوع در این دهه رشد چشمگیری داشت و مورد توجه قرار گرفت.

همانطور که گفته شد هدف از طبقه بندی متون، طبقه بندی کردن متن داده شده در گروه خود است به طور مثال:"تیم فوتبال بارسلونا موفق به قهرمانی شد."   آیا این خبر ورزشی است یا سیاسی؟ 

در ادامه دو مجموعه داده  معتبر طبقه بندی متون در زبان فارسی یعنی مجموعه داده  پرسیکا و مجموعه داده  همشهری معرفی می گردد. هر دو مجموعه داده  در وب سایت دیتاهارت عرضه شده است.

مجموعه داده پردازش شده پرسیکا برای طبقه بندی متون خبری فارسی توسط محققین داخلی عرضه شده است. این کورپوس شامل 11 هزار عنوان خبر می باشد که در 11 گروه برچسب گزاری شده اند. یکی از اشکالات این کورپوس عدم مناسب بودن برای پردازش توسط ابزارهای داده کاوی و متن کاوی بود. تیم دیتاهارت با پردازش بر روی این دیتاست توانست آن را به فرمت مود قبول این ابزارها از جمله فایل اکسل و CSV   تبدیل کند. همان طور که در تصاویر مشخص است این مجموعه داده برای انجام تحقیقات متن کاوی و طبقه بندی متون فارسی آماده است.

در لینک های زیر نمونه دیتاست گفته شده آورده شده است. 

http://dataheart.ir/upload/public/122371503546015.xlsx 

http://dataheart.ir/upload/public/20001503546059.csv

مجموعه داده همشهری مربوط به متن اخبار و گروه اخبار های منتشر شده در روزنامه همشهری مربوط به سال های 1375-1387 می باشد. در دیتاست همشهری نسخه یک،  166 هزار خبر به همراه گروه خبر وجود دارد. یکی از مشکلاتی که محققین داخلی با این مجموعه داده داشته اند فرمت xml این دیتاست است. تیم فنی دیتاهارت برای اینکه این مجموعه داده برای انجام پردازش و ایجاد مدل های طبقه بندی آماده تر باشد آن را به فرمت اکسل تبدیل کرده است. در این فرمت دو ستون وجود دارد که یکی مربوط به متن خبر و دیگری برچسب گروه خبر می باشد. در کنار فرمت اکسل، فرمت csv نیز در ارائه می گردد. مالکیت معنوی این دیتاست متعلق به مرکز تحقیقات مخابرات ایران می باشد.

از طریق لینک زیر می توانید نمونه این مجموعه داده را مشاهده بفرمایید:

http://dataheart.ir/upload/public/176461515653557.xlsx

 

[1] Text Classification

[2] Text Mining

[3] Dataset