کاربرد استخراج کلمات کلیدی در متن کاوی

کاربرد استخراج کلمات کلیدی در متن کاوی

آکادمی داده

۱۳۹۶/۱۱/۱۵


  • 271 بازدید

استخراج کلمات کلیدی در متن‌کاوی و علوم زیر مجموعه ای آن نقش مهمی ایفا می کند به همین دلیل سعی خواهد شد در این مقاله درباره این موضوع و کارهای انجام شده در این حوزه مطالب مفیدی ارائه شود. کارهای انجام شده بسیاری در حوزه انجام شده است و مقالات زیادی نیز برای بررسی این کارهای انجام شده ارائه شده که در این مجال بخشی از آن ها را مورد بررسی قرار خواهیم داد. در این قسمت سعی خواهد شد تحقیقاتی که روی استفاده از استخراج کلمات کلیدی در متن کاوی انجام شده و کارهایی که با استفاده از استخراج کلمات کلیدی ارائه شده معرفی گردد.
ژانگ و دوستانش در سال 2003 سعی کرده اند با استفاده از استخراج کلمات کلیدی عمل خلاصه سازی صفحات وب را انجام دهند. خلاصه سازی صفحات وب یکی از موضوعات مهم در حوزه متن‌کاوی است. در دنیای انفجار وب که تعداد و حجم اطلاعات به بی نهایت میل می کند خلاصه سازی مطالب غیر قابل اجتناب است. مححقین و پژوهشگران حوزه متن‌کاوی و پردازش زبان طبیعی از دیزباز به دنبال رسیدن به خلاصه مفید و سدمند متن هستند تا به این شکل بتوانند به جای خواندن کل متن، درصد قابل استفاده را مطالعه و جمع بندی نمایند.
در این تحقیق نیز یک روش شش مرحله ای ارئه شده است که در مرحله چهارم استخراج کلمات کلیدی انجام می شود. در روش ارائه شده ابتدا در مراحل اول و دوم صفحه وب و سپس صفحه متن استخراج می شود. در این مراحل هدف جمع آوری متن نهایی برای پردازش و خلاصه سازی است. بعد از جمع آوری متن نهایی برای پردازش نوبت به فیلتر کردن محتوای غیرمفید می شود. در تمامی روش های داده کاوی مرحله ای به نام انتخاب ویژگی وجود دارد که در آن مرحله از بین تمام ویژگی ها تعدادی ویژگی برای ایجاد مدل و یا پردازش نهایی انتخاب می شود. در روش ارائه شده نیز بعد از جمع آوری و پیش پردازش مجموعه داده، پاراگراف های مهم تر انتخاب شده و بقیه غربال می شود. بعد از این مراحل نوبت به مرحله استخراج کلمات کلیدی می رسد. در این مرحله کلمات کلیدی پاراگراف های انتخاب شده متن با استفاده از روش های استخراج کلمات کلیدی انتخاب شده است. روشی که برای استخراج کلمات کلیدی استفاده شده بر این اصل استوار است که کلمات برجسته، یا لینک دار دارای اهمیت بیشتری هستند و به عنوان کلمه کلیدی استخراج می شوند محققین بر این ادعا هستند که استخراج کلمات کلیدی در صفحات وب از متن سنتی متفاوت است.  بعد از این مرحله بر اساس جملاتی که کلمات کلیدی در آن ها حضور دارند اقدام به انتخاب جملات کلیدی می کنند. این روش به دنبال استخراج کلمات کلیدی از وب بر اساس ساختار صفحات وب است.

اگر در حال پژوهش در حوزه متن کاوی هستید، سوالات و اشکالات خود را از طریق تلگرام با آکادمی داده در میان بگذارید. با عضو شدن در کانال تلگرام آکادمی داده از مقالات جدید و دیتاست های منتشر شده مطلع شوید. 

کپی برداری بدون ذکر منبع، براساس قانون جرایم اینترتی و مادۀ 12 فصل سوم قانون جرایم رایانه ای غیر قانونی بوده و مجازات جزای نقدی و حبس دارد و شرعا نیز حرام است! 

اگر در زمینه متن کاوی در حال تحقیق یا پیاده سازی پروژه یا پایان نامه هستید برای گرفتن مشاوره یا دادن سفارش انجام با ما تماس بگیرید.  آکادمی داده در تلگرام، واتزآپ و تمامی پیام رسان های ایرانی(سروش، آی گپ، بله، گپ و ویسپی) با شماره 09120637751 حضور دارد برای ارتباط از طریق ایمیل آدرس جیمیل: dataacademyir@gmail.com می باشد. 

افتخار آکادمی داده، همسفر بودن با شما در راه یادگیری علم داده است.