طبقه بندی متون یکی از اصلی ترین شاخه های علم متن کاوی و پردازش زبان طبیعی است. در ادامه با مفهوم این عبارت بیشتر آشنا خواهیم شد.
طبقه بندی متون چیست؟
طبقه بندی متون[1] یکی از زیر مجموعه های متن کاوی[2] است. متن کاوی برروی پردازش متون تمرکز دارد . در پردازش متون سعی می شود دانشی از متون خام استخراج گردد. در طبقه بندی متون هدف مشخص کردن گروه متن است به طور مثال نظری که در یک وب سایت درج شده است یک نظر انتقادی یا غیر انتقادی است. در این مثال انتقادی و غیر انتقادی بودن دو گروه برای طبقه بندی نظرات را تشکیل می دهند. طبقه بندی متون قدمت بسیاری در حوزه متن کاوی دارد این موضوع از سال 1960 میلادی مورد توجه محققین بوده است ولی با رونق کامپیوتر و نرم افزار مانند دیگر موضوعات هوش مصنوعی و داده کاوی در دهه 90 میلادی توجه به این موضوع در این دهه رشد چشمگیری داشت و مورد توجه قرار گرفت.
همانطور که گفته شد هدف از طبقه بندی متون، طبقه بندی کردن متن داده شده در گروه خود است به طور مثال:"تیم فوتبال بارسلونا موفق به قهرمانی شد." آیا این خبر ورزشی است یا سیاسی؟
قبل از توجه به این علم طبقه بندی متون به صورت دستی انجام می شد. که همانطور که می دانیم انجام دستی این امور مشکلات بسیاری داشت مثل اینکه کسی که عمل طبقه بندی را انجام می دهد باید دانش کافی درباره گروههای مختلف را داشته باشد و در کنار این کاری بسیار وقت گیر و پر مصرف است که در دنیای امروزی انجام این اعمال با استفاده از سیستم های نرم افزاری انجام می شود.
در این حوزه مثلا متن خبری به سیستم داده می شود و سیستم بر اساس مدل یادگیری خود اقدام به طبقه بندی این خبر به گروههای مختلف از جمله گروههای اقتصادی, سیاسی و یا گروههای دیگری می کند. البته مثال خبری یکی از قدیمی ترین مثال های این حوزه تحقیقاتی است و این حوزه تحقیقاتی بسیار پویاست. برای مثال در شرکت اسنپ همه روزه هزاران پیام متنی برای شرکت ارسال می شود. این شرکت بسیار علاقه مند است تا بتواند با استفاده از روش های طبقه بندی متون، این پیام ها را با دقت بالا طبقه بندی نمیاد. چند پیام مربوط به شکایت مشتریان است یا چند پیام مرتبط با بخش پشتیبانی است؟ این سوالات می تواند توسط طبقه بندی پیام ها انجام شود.
در اولین سال ها برای ایجاد مدل طبقه بندی از روشهای کلاسیک یادگیری ماشین استفاده می شد و در این رویکرد ابتدا نمونه هایی از گروههای مختلف به صورت دستی جداسازی می شد و سپس با این استفاده از این نمونه ها و الگوریتم های ماشین یادگیری، اقدام به ایجاد مدل طبقه بندی می کردند. در کارهای بعدی انجام شده روش های دیگر نیز مورد توجه قرار گرفتند و از روش های بدون نظارت و یا ترکیبی نیز برای ایجاد مدل استفاده شد.
طبقه بندی متون در زبان فارسی
طبقه بندی متون در زبان فارسی نیز از سالیان مورد توجه بوده است و اولین تلاش ها برای طبقه بندی متون خبری همشهری ارائه شده است. برای این منظور مجموعه داده همشهری تهیه شده و مورد استفاده محققین قرار گرفت. اولین تلاش ها در سال های 2005 آغاز شد و سعی شد با استفاده از روشهای احتمالی طبقه بندی متون خبری فارسی انجام گردد. بعد از آن نیز تلاش های بسیار انجام شده است ولی طبقه بندی متون فارسی جای کار بیشتری دارد.
اگر به پژوهش در حوزه متن کاوی علاقه مند هستید توصیه می شود حتما مجموعه بی نظیر هفتاد و چهار مقاله فارسی در زمینه متن کاوی و مجموعه های مشابه آن را تهیه بفرمایید.
اگر در زمینه متن کاوی در حال تحقیق یا پیاده سازی پروژه یا پایان نامه هستید برای گرفتن مشاوره یا دادن سفارش انجام با ما تماس بگیرید. آکادمی داده در تلگرام (https://t.me/dataacademy) حضور دارد برای ارتباط از طریق ایمیل آدرس جیمیل: dataacademyir@gmail.com می باشد.
افتخار آکادمی داده، همسفر بودن با شما در راه یادگیری علم داده است.