سختی و پیچیدگی زبان فارسی در حوزه متن کاوی

سختی و پیچیدگی زبان فارسی در حوزه متن کاوی

آکادمی داده

۱۳۹۶/۰۷/۲۱


  • 524 بازدید

برخلاف زبان‌های ديگر ازجمله زبان انگليسي، متن‌کاوی براي زبان فارسي بـه دليـل پيچيـدگي بسيار با مشكلات متعددي روبه‌رو است. ازآنجاکه هدف اين پژوهش نظركاوي اسـت، داده‌های به‌کاررفته به‌صورت نظر و به شكل محاوره‌ای نوشته‌شده است. پـس علاوه بر پیچیدگی‌های متون فارسي و مشكلات تحليلي آن، مسائلي نيز بهدليل محاوره‌ای بودن زبان، به وجود می‌آید كه پژوهش را دشوارتر می‌کند. همان‌طور كه سارايي و باقري نيز معتقدند نظركاوي در زبان فارسي با مشكلاتي روبه‌رو است؛ اين مشكلات به دليل كمبـود ابـزار و راه‌های مختلـف، وجـود پسوندهاي متفاوت، فاصله‌گذاری کلمه‌ها و استفاده از کلمه‌های غيررسـمي و محاوره‌ای شـكل می‌گیرد.
كمبود ابزار مناسب براي زبان فارسي: در زبان فارسـي به‌منظور پیش‌پردازش و تحليـل متن‌های فارسي، ابزار زيادي وجود ندارد، اما برخلاف زبان فارسي، ابزارها و روش‌های متعـددي براي نظركاوي و تحليل متن در زبان‌های مختلف ازجمله زبان انگليسي در دسـترس اسـت كـه می‌توان از آن‌ها در مراحل مختلف نظركاوي استفاده كرد. كمبود ابزار براي پردازش متون فارسي، نظركاوي را دشوارتر می‌کند.
کلمه‌های غيررسمي و محاوره‌ای: وقتي نوشتار به‌صورت غيررسمي و محاوره‌ای باشد، شـكل کلمه‌ها تغيير می‌کند، گاهي براي يك كلمه، اشكال مختلفي به شکل محاوره‌ای به چشم می‌خورد. ممكن است کلمه‌ها به شکل رسمي يا محاوره‌ای نوشته شـوند كـه افـراد هـر دو شـكل آن را در نظرها به کار می‌برند. تغيير شكل کلمه‌ها در قالب محاوره‌ای با حذف، اضافه و تغيير حروف همراه است. براي مثال كلمة «نمی‌توانم» در شكل محاوره‌ای به‌صورت «نميتونم» بـا حـذف «الـف» بيان می‌شود، يا كلمة «دارد» با تغيير حـرف «د» بـه «ه» به‌صورت «داره» نوشـته می‌شود. کلمه‌های ديگري نيز در زبان محاوره‌ای به کار می‌روند كـه بـه شـكل كـاملاً متفـاوتي از شـكل رسمي آن ظاهر می‌شوند، براي مثال كلمة «براي» به‌صورت «واسه» نوشته می‌شود.
پيشوندها و واژه‌های غيرساده: در زبان فارسي واژه‌ها به دو دسـتة سـاده و غيرسـاده تقسـيم می‌شوند. کلمه‌های ساده تنها از يك جزء معنادار ساخته‌شده‌اند و واژه‌های غيرساده بيشتر از يك جزء معنادار، دارند. واژه‌های غيرساده در سه شكل مشتق، مركب و مشتق ـ مركب به کار می‌روند. هر واژ غیر ساده‌ای با افزودن پسوندها و پيشوندهاي مختلفي ساخته می‌شود. مشكل کلمه‌های غيرساده، فاصله‌گذاری آن است. در شكل نوشـتاري کلمه‌ها، اغلـب بـين اجـزاي مختلـف واژ غيرساده، فاصله‌ای گذاشته می‌شود و اين فاصله تشخيص واژه را دشوار می‌کند. براي مثال كلمة «خودنويس» كه در زبان فارسي واژ مركبي محسوب می‌شود، در حالـت نوشـتاري آن ممكـن است به‌صورت «خود نويس» نوشته شود، فاصله ميـان خـود و نـويس، تشـخيص آن را دشـوار می‌کند.
فاصله‌گذاری: در زبان فارسي براي فاصله‌گذاری از فاصله و نیم‌فاصله استفاده می‌شود. فاصـله براي جداسازي کلمه‌ها از يكديگر است و از نیم‌فاصله براي فاصله بين اجزاي مختلف يك كلمـه كاربرد دارد. براي مثال، در عبارت «كتاب خوب»، دو واژه متفاوت وجود دارد كه براي جداسـازي آن‌ها از فاصله استفاده می‌شود، اما بااینکه عبارت‌های «خودنويس»، «خاطره‌انگیز» و «کتاب‌ها» يك واژه‌اند، آن‌ها را با نیم‌فاصله جدا می‌کنند. در حالت محاوره‌ای، اغلب ايـن نیم‌فاصله ناديـده گرفته می‌شود، درنتیجه تشخيص چنين واژه‌هایی به‌دقت بيشتري نياز دارد. برگرفته از مقاله سعیده علیمردانی

کپی برداری بدون ذکر منبع، براساس قانون جرایم اینترتی و مادۀ 12 فصل سوم قانون جرایم رایانه ای غیر قانونی بوده و مجازات جزای نقدی و حبس دارد و شرعا نیز حرام است! 

اگر در زمینه متن کاوی در حال تحقیق یا پیاده سازی پروژه یا پایان نامه هستید برای گرفتن مشاوره یا دادن سفارش انجام با ما تماس بگیرید.  آکادمی داده در تلگرام، واتزآپ و تمامی پیام رسان های ایرانی(سروش، آی گپ، بله و ویسپی) با شماره 09120637751 حضور دارد برای ارتباط از طریق ایمیل آدرس جیمیل: dataacademyir@gmail.com می باشد. 

افتخار آکادمی داده، همسفر بودن با شما در راه یادگیری علم داده است.