درباره متن کاوی و مفاهیم مرتبط با آن

درباره متن کاوی و مفاهیم مرتبط با آن

آکادمی داده

۱۳۹۷/۰۳/۰۴


  • 52 بازدید

متن کاوی را میتوان به عنوان متدها و الگوریتمهایی از فیلدهای یادگیری ماشین و آماری برای متنها با هدف پیدا کردن الگوهای مفید در نظر گرفت. برای این هدف پیش پردازش کردن متون ضروری است. در بسیاری از روشها، متدهای استخراج اطالعات، پردازش کردن زبان طبیعی یا برخی پیش پردازشهای ساده برای استخراج داده از متون استفاده میشود. سپس میتوان الگوریتمهای داده کاوی را بر روی داده های استخراج شده اعمال کرد.

دلیل اصلی به کار بردن روشهای داده کاوی برای اسناد متنی، ساختار بندی کردن آنهاست. ساختارهای دیتابیس معرف عبارتند از: کاتالوگهای کتابخانه یا ایندکسهای کتاب مشکل ایندکسهای طراحی شده به صورت دستی، زمان مورد نیاز برای نگهداری آنها است. بنابراین برای منابع اطالعاتی که خیلی تغییر میکنند مثل وب مناسب نیستند. متدهای موجود برای ساختاربندی کردن مجموعه ها عبارتند از :روشهای رده بندی و روشهای خوشهبندی. ترکیب این روشها با روشهای ساختاربندی )خوشه بندی و رده بندی( ابزارهای قدرتمندی برای کاوش الگوهای مفید در مجموعههای متنی فراهم میکنند.

متن کاوی فرآیندی است که شامل فیلدهای تکنولوژیکی فراوانی است. بازیابی اطالعات، داده کاوی و هوش مصنوعی و زبانشناسی محاسباتی همه فیلدهایی هستند که در این زمینه، نقشی را دارا هستند. اما به طور کلی دو فاز اصلی در فرآیند متن کاوی میتوان در نظر گرفت. اولین فاز پیش پردازش مستندات است.

خروجی این فاز می تواند دو شکل مختلف داشته باشد. :

  • مبتنی برسند
  •  مبتنی بر مفهوم

 در فرمت نمایش مبتنی بر سند، آنچه که مهم است، نحوه ی نمایش بهتر برای مستندات است. مثال تبدیل اسناد به یک فرمت میانی و نیمه ساخت یافته، یا بکار بردن یک ایندکس بر روی آنها یا هر نوع نمایش دیگری که کار کردن با اسناد را کاراتر می کند. هر موجودیت در این نمایش در نهایت باز هم یک سند خواهد بود. در نوع دوم نمایش اسناد بهبود بخشیده میشود، مفاهیم و معانی موجود در سند و نیز ارتباط میان آنها و هر نوع اطالعات مفهومی دیگری که قابل استخراج است، از متن استخراج می شود. در این نوع نمایش دیگر با مستندات به عنوان یک موجودیت مواجه نیستیم بلکه با مفاهیمی که از این مستندات استخراج شده اند، رو به رو هستیم. قدم بعدی استخراج دانش از این فرمهای میانی نمایش اسناد است. بر اساس نحوه ی نمایش یک سند، روش استخراج دانش از یک سند متفاوت است. نمایش مبتنی بر سند، برای گروه بندی، طبقه بندی، تجسمسازی و نظایر اینها استفاده می شود، درحالیکه نمایش مبتنی بر مفهوم برای یافتن روابط میان مفاهیم، ساختن اتوماتیک تزاروس و آنتولوژی و نظایر آن بکار می رود.

منبع: تحلیل احساسات در شبکه اجتماعی توییتر با تکنیک متن کاوی، پیکری

کپی برداری بدون ذکر منبع، براساس قانون جرایم اینترتی و مادۀ 12 فصل سوم قانون جرایم رایانه ای غیر قانونی بوده و مجازات جزای نقدی و حبس دارد و شرعا نیز حرام است!