منظور از موجودیت های نام دار چیست؟

منظور از موجودیت های نام دار چیست؟

آکادمی داده

۱۳۹۶/۱۱/۰۳


  • 401 بازدید

در این مقاله درباره موجودیت‌های نام دار صحبت خواهد شد. ابتدا مفهوم موجودیت‌های نام دار مورداشاره قرار می‌گیرد سپس کاربردهای ممکن برای استفاده از این نام‌ها بحث می‌شود. سپس در مورد مجموعه داده عرضه‌شده در وب‌سایت دیتاهارت اطلاعاتی ارائه خواهد شد. 
اسامی اشخاص، سازمان‌ها و یا مکان‌ها در علم پردازش زبان طبیعی به‌عنوان موجودیت‌های نامدار شناخته می‌شوند. به‌طور مثال به جمله زیر توجه فرمایید:
"عباس کیارستمی، عکاس، نقاش، نویسنده، فیلسوف و کارگردان مطرح ایرانی در شهر پاریس از کشور فرانسه درگذشت." 
در جمله بالا "عباس کیارستمی" یک شخص شناخته‌شده، شهر پاریس و کشور فرانسه به‌عنوان موجودیت‌های مکانی مورداشاره قرارگرفته است. به‌طور ساده و در یک جمله در شناسایی موجودیت‌های نام دار به دنبال شناسایی و استخراج نام‌های خاص مکانی و فردی هستیم.
در علوم پردازش زبان طبیعی و متن‌کاوی که به دنبال استخراج دانش از متون هستیم شناسایی این موجودیت‌های نام دار بسیار مهم و اثر گزار است. دانستن موجودیت‌های نام دار درروش‌های و مفاهیم مختلف علوم یادشده دررسیدن به روش‌های بهینه‌تر بسیار مؤثر است. در زبان فارسی نیز با توجه به رشد روزافزون علوم متن‌کاوی و پردازش زبان طبیعی، فهم و استخراج موجودیت‌های نام دار دارای اهمیت ویژه است. 
کاربردهای بسیاری برای تشخیص موجودیت‌های نام دار در علوم متن‌کاوی وجود دارد. طبقه‌بندی متون، نظرکاوی یا عقیده کاوی، سیستم‌های پرسش و پاسخ، خلاصه‌سازی متون و بسیاری دیگر از کاربردها. در ادامه در مورد این کاربردها توضیحاتی ارائه می‌شود. 
طبقه‌بندی متون : طبقه‌بندی متون به دنبال دسته‌بندی متن‌های خام در گروه‌های از پیش تعریف‌شده است. دانستن موجودیت‌های مکانی  و فردی می‌تواند دررسیدن به مدل‌های طبقه‌بندی متون بسیار اثر گزار باشد. به‌طور مثال در یک متن ورزشی وجود نام‌هایی مانند تراکتورسازی تبریز، پیروزی یا استقلال تهران بسیار محتمل است و شناسایی این کلمات با استفاده از روش‌های تشخیص موجودیت‌های نامدار به رسیدن به مدل‌های طبقه‌بندی قوی‌تر اخبار ورزشی منتهی می‌شود. 
نظرکاوی یا عقیده کاوی: نظرکاوی یا عقیده کاوی یا تحلیل احساسات به دنبال طبقه‌بندی نظرات و احساسات افراد در گروه‌های مثبت، منفی و در برخی مواقع خنثی است.  نظرکاوی به دنبال رسیدن به احساسات نهفته در متن است بدین ترتیب دانستن مخاطب این احساس نیز بسیار حائز اهمیت است. دولت روحانی بسیار عالی عمل کرده است. در این جمله می‌توان با استفاده از تشخیص موجودیت‌های نامدار مخاطب احساس نهفته را شناسایی کرد. 
سیستم پرسش و پاسخ: در سیستم‌های پرسش و پاسخ پتانسیل بسیاری برای استفاده از روش تشخیص موجودیت‌های نامدار وجود دارد. پاسخ بسیاری از سؤالات یک متن مانند کی؟ کجا؟چه زمانی؟ چه مقدار ؟ در نام‌های اشخاص، مکان‌ها و سازمان‌ها موجود در متن قرار دارد. می‌توان با استفاده از یک سیستم تشخیص موجودیت‌های نامدار از متن این موارد را استخراج کرد.
خلاصه‌سازی متون: خلاصه‌سازی متون به دنبال استخراج مفهوم اصلی متن می‌باشد. استفاده از موجودیت‌های نامدار می‌تواند به رسیدن به یک سیستم خلاصه ساز توانمند کمک بسیار کند. 
با توجه به اهمیت موجودیت‌های نامدار در پردازش زبان طبیعی و متن‌کاوی، تیم فنی دیتاهارت موجودیت‌های نام دار در زبان فارسی را استخراج کرده است. شرکت های تجاری، سازمان‌های دولتی و محققین عزیز می‌توانند از این مجموعه داده برای تحقیقات خود استفاده نمایند. در این مجموعه داده بیش از سیصد هزار موجودیت نامدار فارسی استخراج شده و عرضه شده است. برای تهیه این دیتاست می توانید از لینک اقدام نمایید. 

کپی برداری بدون ذکر منبع، براساس قانون جرایم اینترتی و مادۀ 12 فصل سوم قانون جرایم رایانه ای غیر قانونی بوده و مجازات جزای نقدی و حبس دارد و شرعا نیز حرام است! 

اگر در زمینه متن کاوی در حال تحقیق یا پیاده سازی پروژه یا پایان نامه هستید برای گرفتن مشاوره یا دادن سفارش انجام با ما تماس بگیرید.  آکادمی داده در تلگرام، واتزآپ و تمامی پیام رسان های ایرانی(سروش، آی گپ، بله و ویسپی) با شماره 09120637751 حضور دارد برای ارتباط از طریق ایمیل آدرس جیمیل: dataacademyir@gmail.com می باشد. 

افتخار آکادمی داده، همسفر بودن با شما در راه یادگیری علم داده است.