مفهوم استخراج کلمات کلیدی

مفهوم استخراج کلمات کلیدی

آکادمی داده

۱۳۹۶/۱۱/۱۵


  • 261 بازدید

استخراج کلمات کلیدی یکی از زیرشاخه‌های متن‌کاوی است. متن‌کاوی حوزه‌ای است که با متن سروکار دارد.  بخش قابل‌توجهی از اطلاعات قابل‌دسترس در پايگاه داده هاي متني كه شامل مجموعه بزرگي از اسناد متنی هستند در منابع بسیار مختلف و گسترده ذخیره‌شده‌اند. پايگاه داده هاي متني به علت افزايش مقدار اطلاعات موجود به فرم الكترونيكي سريع رشد مي كنند.  امروزه بيشتر اطلاعات در صنعت، کسب و کار و سازمان هاي ديگر به صورت الكترونيكي و به فرم پایگاه داده متنی ذخیره‌شده‌اند. داده هاي ذخيره شده در بيشتر پایگاه  داده هاي متنی، داده های نيمه ساختاريافته هستند، چون نه به طور كامل غيرساخت يافته هستند و نه به طور كامل ساخت يافته هستند. به زبان ساده،  متن‌کاوی یعنی جستجوی الگوها در متن غیرساخت یافته. متن‌کاوی برای کشف اتوماتیک دانش مورد علاقه یا مفید از متن نیمه ساخت یافته استفاده می شود. بدون عمل متن‌کاوی پردازش کردن پایگاه داده های متنی غیرساخت یافته باید به صورت دستی توسط کاربران انجام شودکه این امر بسیار طاقت فرساست. بنابراین می توان گفت هدف متن‌کاوی اتوماتیک کردن مقدار زیادی از کار کاربران است. گاهي اوقات به جاي واژه  متن‌کاوی  از واژه های "کاوش داده هاي متني"و نيز نام  معروف "کشف دانش در متن" استفاده مي شود. متن‌کاوی تكيه اش روي پيدا كردن دانش جديد از متن است  در این مورد انتخاب کلمات کلیدی بسیار کمک کننده و راهگشاست. یک انتخاب اتوماتیک عبارات مهم و متعلق به موضوع از بدنه سند را، انتخاب اتوماتیک کلمات کلیدی می گویند.  در واقع هدف استخراج مجموعه ای از عبارات است که به موضوع اصلی مرتبط هستند یعنی اگر خواننده ه آن کلمات نگاهی بیاندازد متوجه شود موضوع متن درباره چه چیزی است. به طور مثال در خبرهای خبرگزاری ها می توان عناوینی مانند برچسب مشاهده کرد که به کلمات کلیدی متن اشاره دارد. به زبان ساده تر، استخراج کلمات کلیدی درباره پیداکردن کلمات مهم و کلیدی در متن است.
با دانستن کلمات کلیدی در یک متن، راحت تر می توانیم آن متن را سازماندهی و تحلیل کنیم. بدین شکل که فهمیدن ویژگی ها ، مفاهیم و تم اصلی متن توسط استخراج کلمات کلیدی آن امکان پذیر است.

اگر در حال پژوهش در حوزه متن کاوی هستید، سوالات و اشکالات خود را از طریق تلگرام با آکادمی داده در میان بگذارید. با عضو شدن در کانال تلگرام آکادمی داده از مقالات جدید و دیتاست های منتشر شده مطلع شوید.

کپی برداری بدون ذکر منبع، براساس قانون جرایم اینترتی و مادۀ 12 فصل سوم قانون جرایم رایانه ای غیر قانونی بوده و مجازات جزای نقدی و حبس دارد و شرعا نیز حرام است! 

اگر در زمینه متن کاوی در حال تحقیق یا پیاده سازی پروژه یا پایان نامه هستید برای گرفتن مشاوره یا دادن سفارش انجام با ما تماس بگیرید.  آکادمی داده در تلگرام، واتزآپ و تمامی پیام رسان های ایرانی(سروش، آی گپ، بله، گپ و ویسپی) با شماره 09120637751 حضور دارد برای ارتباط از طریق ایمیل آدرس جیمیل: dataacademyir@gmail.com می باشد. 

افتخار آکادمی داده، همسفر بودن با شما در راه یادگیری علم داده است.