پیش پردازش در متن (نرمال سازی متون فارسی)

پیش پردازش در متن  (نرمال سازی متون فارسی)

آکادمی داده

۱۳۹۷/۰۳/۲۷


  • 149 بازدید

پس بعد از آماده سازی اولیه متون، فاز پیش پردازش انجام می شود. در واقع پیش پردازش، اولین گام در جهت تطابق مستندات متنی با نمایش آنها در یك قالب مناسب می باشد. ثابت شده است كه تنها 33 درصد از كلمات در یك متن مفید هستند و می توان از آنها برای استخراج اطلاعات استفاده نمود. اغلب كلمات در راستای رساندن منظور و هدف اصلی استفاده می شوند و بعضاً تكراری می باشند. 
اما پردازش زبان فارسی از جهاتی با پردازش زبان انگلیسی تفاوت دارد. در زبان انگلیسی تمامی حروف و تمامی کلمات جدا از هم و با قانونی مشخص نوشته می شوند و این در حالی است که در زبان فارسی بعضی از حروف به هم چسبیده هستند، برخی از حروف جدا ازهم نوشته می شوند، بعضی از کلمات یکپارچه اند، بعضی از کلمات با فاصله یا نیم فاصله به دو یا چند بخش تقسیم می شوند. تمامی حوزه های مرتبط با پردازش زبان طبیعی به نحوی با متون واقعی سروکار دارند. صورت های غیر استاندارد نویسه ها و کلمات به وفور در این نوع متون نوشته دیده می شوند. قبل از این که بتوان از این متون به منظور استفاده در سیستم های تبدیل متن به گفتار، ترجمه ماشینی، بازشناسی حروف فارسی، خلاصه ساز فارسی، جستجو در متون فارسی و غیره استفاده کرد و یا در پایگاه داده ذخیره نمود، باید ابتدا پیش پردازشی روی آن ها انجام گیرد تا صورت های غیر استاندارد به شکل استاندارد تبدیل گردند. اگر حروف، نشانه های نگارشی و کلمات فارسی به شکل یکسانی نوشته نشوند، متون مورد استفاده قابل تحلیل توسط سامانه های رایانه ای نخواهند بود. طی فرایند نرمال سازی، علایم نگارشی، حروف، فاصله های بین کلمات، اختصارات و غیره بدون ایجاد تغییرات معنایی در متن به شکل استاندارد تبدیل می گردند. بنابراین، بایستی از یک استاندارد مشترک برای پیش پردازش و پردازش متون استفاده کرد. این استاندارد مشترک در واقع همان یونیکد است. 
در حقیقت، پیش پردازش وظیفه نگاشت متن داده شده به یک نمای منطقی را بر عهده دارد. به عبارت دیگر استخراج ویژگی و وزن دهی و کاهش ابعاد در این قسمت انجام می گیرد. بسته به کاربرد، استخراج ویژگی می تواند بسیار ساده و یا بسیار مفصل باشد. تحلیل واژگانی شامل عملیات مربوط به یکسان سازی متن، قواعد مربوط به نشانه گذاری ها و مرزبندی بین کلمات می باشد. بعد از این مرحله عموما دسته ای از کلمات بی ارزش که متناوبا تکرار می شوند و بار معنایی خاصی ندارند: مانند حرف ربط "و"، "که"،" تا"،" وقتی که"، "اگر"، "اما"،" این که"، حرف اضافه"به"، "با"، "از"، "در" ، فعل ربطی "است"، "بود"، "شد" و حرف تعریف "یک" از متن داده شده حذف می شوند. سپس با استفاده از الگوریتم های ریشه یابی، به منظور بهینه سازی ویژگی های استخراج شده، کلمات ریشه یابی می شوند. در نهایت با استفاده از گروه های اسمی کلمات دسته بندی می گردند. تحلیل های ساختاری بیشتر به اطلاعات سطح بالاتر همچون پاراگراف بندی بر می گردد. کلمات و اطلاعات استخراج شده برای وزن دهی به قسمت بعدی ارسال می شود. یکی از ساده ترین راه ها برای کاهش ابعاد ویژگی ها در قسمت بعد، می تواند حذف ویژگی هایی باشد که وزن آن ها از حد معینی کمتر است.

کپی برداری بدون ذکر منبع، براساس قانون جرایم اینترتی و مادۀ 12 فصل سوم قانون جرایم رایانه ای غیر قانونی بوده و مجازات جزای نقدی و حبس دارد و شرعا نیز حرام است! 

اگر در زمینه متن کاوی در حال تحقیق یا پیاده سازی پروژه تجاری یا پایان نامه هستید برای گرفتن مشاوره یا دادن سفارش انجام با ما تماس بگیرید.  آکادمی داده در تلگرام، واتزآپ و تمامی پیام رسان های ایرانی(سروش، آی گپ، بله و ویسپی) با شماره 09120637751 حضور دارد برای ارتباط از طریق ایمیل آدرس جیمیل: dataacademyir@gmail.com می باشد. 

افتخار آکادمی داده، همسفر بودن با شما در راه یادگیری علم داده است.