منظور از کلمات ایست واژه چیست؟

منظور از کلمات ایست واژه چیست؟

آکادمی داده

۱۳۹۶/۰۷/۱۱


  • 675 بازدید

ایست واژه (stopword) به حروف اضافه‌ای گفته می‌شود که مفهومی را منتقل نمی‌کنند. در پردازش متون به دنبال کلماتی هستیم که دررسیدن به مدل طبقه‌بندی دقیق‌تر ما را یاری کند. ولی آیا تمام کلمات متن برای پردازش و رسیدن به مدل طبقه‌بندی مفید است؟ به‌طور مثال حروف اضافه در متون، در پیدا کردن الگوی پنهان در متن نقشی ایفا نمی‌کنند. بنابراین بهتراست در مرحله پیش‌پردازش حذف شوند. در حذف ایست واژه‌ها به دنبال حذف کلمات زائد برای رسیدن به پردازش متن بهینه‌تر و به‌صرفه‌تر هستیم. مثل «اگر»، «ولی»، «و»، «که»  ازجمله ایست واژه‌هایی هستند که باید در مراحل پیش‌پردازش فارسی حذف شوند. همچنین کلمات انگلیسی to, for, about   و صدها کلمه دیگر در زبان انگلیسی به‌عنوان ایست واژه محسوب می‌شوند.

  امروزه در اکثر روش‌های پردازش متون مرحله حذف ایست واژه‌ها به‌عنوان کلمات زائد انجام می‌پذیرد. لیست کلمات ایست واژه یکی از معضلات برای زبان فارسی است زیرا برای این زبان همچنان یک ایست واژه کامل ارائه نشده است و از ایست واژه‌های جمع‌آوری‌شده به‌صورت دستی استفاده می‌شود.

دو لیست ایست واژه فاریس در دسترس است یکی لیست ایست واژه شامل 814 ایست واژه که در پروژه دیتاست همشهری جمع آوری شده است. این لیست از طریق لینک زیر در دسترس است:

http://dataheart.ir/upload/public/422331501075102.txt

لیست دیگر شامل 542 ایست واژه فارسی می باشد که از طریق لینک زیر می توانید دانلود کنید:

http://dataheart.ir/upload/public/233211484547775.txt

حذف ایست واژه‌ها یکی از مراحل آماده‌سازی متن در علوم متن کاوی می‌باشد. می‌توان ادعا کرد که در تمامی روش‌های متن‌کاوی و به طبع آن در روش‌های طبقه بندی متون  انجام مراحل آماده‌سازی متن اجتناب‌ناپذیر است. با انجام مرحله حذف ایست واژه، متون برای انجام پردازش بر روی آن ها آماده تر می شود. زیرا کلمات اضافی قبل از شروع ایجاد مدل حذف می شوند. با این کار از بار اجرای الگوریتم به مقدار زیادی کاسته می شود. با کاستن تعداد واژه ها محاسبات برایر سیدن به تعداد واژه بهینه نیز کاهش پیدا می کند و مدل های استخراج دانش از متن با سرعت بیشتری تولید می شود. 

کپی برداری بدون ذکر منبع، براساس قانون جرایم اینترتی و مادۀ 12 فصل سوم قانون جرایم رایانه ای غیر قانونی بوده و مجازات جزای نقدی و حبس دارد و شرعا نیز حرام است! 

اگر در زمینه متن کاوی در حال تحقیق یا پیاده سازی پروژه یا پایان نامه هستید برای گرفتن مشاوره یا دادن سفارش انجام با ما تماس بگیرید.  آکادمی داده در تلگرام، واتزآپ و تمامی پیام رسان های ایرانی(سروش، آی گپ، بله، گپ و ویسپی) با شماره 09120637751 حضور دارد برای ارتباط از طریق ایمیل آدرس جیمیل: dataacademyir@gmail.com می باشد. 

افتخار آکادمی داده، همسفر بودن با شما در راه یادگیری علم داده است.