پیش پردازش متون فارسی یا نرمال سازی متون فارسی

پیش پردازش متون فارسی یا نرمال سازی متون فارسی

آکادمی داده

۱۳۹۶/۱۱/۲۳


  • 261 بازدید

یکی از مراحل اولیه برای متن کاوی پیش پردازش آن است در این مقاله در مورد پیش پردازش متون فارسی صحبت خواهد شد. پس بعد از آماده سازی اوليه متون، فاز پيش پردازش انجام مي شود. در واقع پيش پردازش، اولين گام در جهت تطابق مستندات متني با نمايش آنها در يك قالب مناسب مي باشد. ثابت شده است كه تنها 33 درصد از كلمات در يك متن مفيد هستند و مي توان از آنها براي استخراج اطلاعات استفاده نمود. اغلب كلمات در راستاي رساندن منظور و هدف اصلي استفاده مي شوند و بعضاً تكراري مي باشند.

اما پردازش زبان فارسی از جهاتی با پردازش زبان انگلیسی تفاوت دارد. در زبان انگلیسی تمامی حروف و تمامی کلمات جدا از هم و با قانونی مشخص نوشته می شوند و این در حالی است که در زبان فارسی بعضی از حروف به هم چسبیده هستند، برخی از حروف جدا ازهم نوشته می شوند، بعضی از کلمات یکپارچه اند، بعضی از کلمات با فاصله یا نیم فاصله به دو یا چند بخش تقسیم می شوند. تمامی حوزه های مرتبط با پردازش زبان طبیعی به نحوی با متون واقعی سروکار دارند. صورت های غیر استاندارد نویسه ها و کلمات به وفور در این نوع متون نوشته دیده می شوند. قبل از این که بتوان از این متون به منظور استفاده در سیستم های تبدیل متن به گفتار، ترجمه ماشینی، بازشناسی حروف فارسی، خلاصه ساز فارسی، جستجو در متون فارسی و غیره استفاده کرد و یا در پایگاه داده ذخیره نمود، باید ابتدا پیش پردازشی روی آن ها انجام گیرد تا صورت های غیر استاندارد به شکل استاندارد تبدیل گردند. اگر حروف، نشانه های نگارشی و کلمات فارسی به شکل یکسانی نوشته نشوند، متون مورد استفاده قابل تحلیل توسط سامانه های رایانه ای نخواهند بود. طی فرایند نرمال سازی، علایم نگارشی، حروف، فاصله های بین کلمات، اختصارات و غیره بدون ایجاد تغییرات معنایی در متن به شکل استاندارد تبدیل می گردند. بنابراین، بایستی از یک استاندارد مشترک برای پیش پردازش و پردازش متون استفاده کرد. این استاندارد مشترک در واقع همان یونیکد است.

در حقیقت، پیش پردازش وظیفه نگاشت متن داده شده به یک نماي منطقی را بر عهده دارد. به عبارت دیگر استخراج ویژگی و وزن دهی و کاهش ابعاد در این قسمت انجام می گیرد. بسته به کاربرد، استخراج ویژگی می تواند بسیار ساده و یا بسیار مفصل باشد. تحلیل واژگانی شامل عملیات مربوط به یکسان سازي متن، قواعد مربوط به نشانه گذاري ها و مرزبندي بین کلمات می باشد. بعد از این مرحله عموما دسته اي از کلمات بی ارزش که متناوبا تکرار می شوند و بار معنایی خاصی ندارند: مانند حرف ربط "و"، "که"،" تا"،" وقتی که"، "اگر"، "اما"،" این که"، حرف اضافه"به"، "با"، "از"، "در" ، فعل ربطی "است"، "بود"، "شد" و حرف تعریف "یک" از متن داده شده حذف می شوند. سپس با استفاده از الگوریتم هاي ریشه یابی، به منظور بهینه سازي ویژگی هاي استخراج شده، کلمات ریشه یابی می شوند. در نهایت با استفاده از گروه هاي اسمی کلمات دسته بندي می گردند. تحلیل هاي ساختاري بیشتر به اطلاعات سطح بالاتر همچون پاراگراف بندي بر می گردد. کلمات و اطلاعات استخراج شده براي وزن دهی به قسمت بعدي ارسال می شود. یکی از ساده ترین راه ها براي کاهش ابعاد ویژگی ها در قسمت بعد، می تواند حذف ویژگی هایی باشد که وزن آن ها از حد معینی کمتر است.