کاربرد استخراج کلمات کلیدی در متن کاوی

کاربرد استخراج کلمات کلیدی در متن کاوی

آکادمی داده

۱۳۹۶/۱۱/۱۵


  • 314 بازدید

استخراج کلمات کلیدی در متن‌کاوی و علوم زیر مجموعه ای آن نقش مهمی ایفا می کند به همین دلیل سعی خواهد شد در این مقاله درباره این موضوع و کارهای انجام شده در این حوزه مطالب مفیدی ارائه شود. کارهای انجام شده بسیاری در حوزه انجام شده است و مقالات زیادی نیز برای بررسی این کارهای انجام شده ارائه شده که در این مجال بخشی از آن ها را مورد بررسی قرار خواهیم داد. در این قسمت سعی خواهد شد تحقیقاتی که روی استفاده از استخراج کلمات کلیدی در متن کاوی انجام شده و کارهایی که با استفاده از استخراج کلمات کلیدی ارائه شده معرفی گردد.
ژانگ و دوستانش در سال 2003 سعی کرده اند با استفاده از استخراج کلمات کلیدی عمل خلاصه سازی صفحات وب را انجام دهند. خلاصه سازی صفحات وب یکی از موضوعات مهم در حوزه متن‌کاوی است. در دنیای انفجار وب که تعداد و حجم اطلاعات به بی نهایت میل می کند خلاصه سازی مطالب غیر قابل اجتناب است. مححقین و پژوهشگران حوزه متن‌کاوی و پردازش زبان طبیعی از دیزباز به دنبال رسیدن به خلاصه مفید و سدمند متن هستند تا به این شکل بتوانند به جای خواندن کل متن، درصد قابل استفاده را مطالعه و جمع بندی نمایند.
در این تحقیق نیز یک روش شش مرحله ای ارئه شده است که در مرحله چهارم استخراج کلمات کلیدی انجام می شود. در روش ارائه شده ابتدا در مراحل اول و دوم صفحه وب و سپس صفحه متن استخراج می شود. در این مراحل هدف جمع آوری متن نهایی برای پردازش و خلاصه سازی است. بعد از جمع آوری متن نهایی برای پردازش نوبت به فیلتر کردن محتوای غیرمفید می شود. در تمامی روش های داده کاوی مرحله ای به نام انتخاب ویژگی وجود دارد که در آن مرحله از بین تمام ویژگی ها تعدادی ویژگی برای ایجاد مدل و یا پردازش نهایی انتخاب می شود. در روش ارائه شده نیز بعد از جمع آوری و پیش پردازش مجموعه داده، پاراگراف های مهم تر انتخاب شده و بقیه غربال می شود. بعد از این مراحل نوبت به مرحله استخراج کلمات کلیدی می رسد. در این مرحله کلمات کلیدی پاراگراف های انتخاب شده متن با استفاده از روش های استخراج کلمات کلیدی انتخاب شده است. روشی که برای استخراج کلمات کلیدی استفاده شده بر این اصل استوار است که کلمات برجسته، یا لینک دار دارای اهمیت بیشتری هستند و به عنوان کلمه کلیدی استخراج می شوند محققین بر این ادعا هستند که استخراج کلمات کلیدی در صفحات وب از متن سنتی متفاوت است.  بعد از این مرحله بر اساس جملاتی که کلمات کلیدی در آن ها حضور دارند اقدام به انتخاب جملات کلیدی می کنند. این روش به دنبال استخراج کلمات کلیدی از وب بر اساس ساختار صفحات وب است.

اگر به پژوهش در حوزه متن کاوی علاقه مند هستید توصیه می شود حتما مجموعه بی نظیر هفتاد و چهار مقاله فارسی در زمینه متن کاوی  و مجموعه های مشابه آن را تهیه بفرمایید.

اگر در زمینه متن کاوی در حال تحقیق یا پیاده سازی پروژه یا پایان نامه هستید برای گرفتن مشاوره یا دادن سفارش انجام با ما تماس بگیرید.  آکادمی داده در تلگرام (https://t.me/dataacademyحضور دارد برای ارتباط از طریق ایمیل آدرس جیمیل: dataacademyir@gmail.com می باشد.  

 

افتخار آکادمی داده، همسفر بودن با شما در راه یادگیری علم داده است.