پیش پردازش دادهها(نظرات) در نظر کاوی

پیش پردازش  دادهها(نظرات) در نظر کاوی

آکادمی داده

۱۳۹۷/۰۳/۰۴


  • 62 بازدید

در این مرحله برحسب کاربرد، متن موردنظر در چند گام آماده سازی میگردد، در زبان فارسی چالشهای بسیار زیادی در زمینه پیش پردازش  متن وجود دارد، یکی از مهمترین مشکلات بحث فاصله در نوشتار فارسی است، در بعضی اوقات فاصله به عنوان جداکننده کلمات ظاهر میگردد در بعضی اوقات در بین حروف یک کلمه، پیشوندها و پسوندها قرار میگیرد و در بعضی اوقات نوشته نمیشود علاوه بر این در همه حالات گفته شده ممکن است بهجای فاصله، نیمفاصله نیز استفاده شود. برای مثال کلمه " می خواهم، میخواهم ، میخواهم " سه حالت نوشتاری مختلف دارد.

 موارد گفته شده فقط نمونهای از این چالشها بود در مقاله شمس فرد به تفصیل این چالشها بررسی شده است

گام اول: شکست جمله براساس علائم خاص نگارشی مانند (».«،»;«،»،«،»!«،»؟«،»:«) صورت پذیرفته و سپس جمله به کلمات تشکیل دهنده تقسیم میگردد.

گام دوم: حذف ایست واژه ها- ایست واژه ها لغاتی هستند که علیرغم تکرار فروان در متن، از لحاظ معنایی دارای اهمیت کمی هستند مثل ”اگر“، ”و“، ”ولی“،“که“ و غیره. در نگاه اولیه کلمات ربط و تعریف، ایست واژه به نظر می آیند؛ در عین حال بسیاری از افعال، افعال کمکی، اسم ها، قیدها و صفات نیز ایست واژه شناخته شده اند. در اغلب کاربردهای متن، حذف این کلمات، نتایج پردازش را به شدت بهبود میدهد و سبب کاهش بار محاسبات و افزایش سرعت خواهد شد. به همین دلیل این کلمات غالباً در مرحله پیش پردازش ، حذف می شوند.

 گام سوم: ریشه یابی و حذف پیشوندها و پسوندها- در این مرحله به منظور یکسان سازی اشکال مختلف یک کلمه، یکپارچه سازی و همچنین اعمال پردازشهای بعدی می بایست کلمات، ریشه یابی شوند. ریشه یابی به فرآیند تبدیل کلمات به فرم ریشه ای و پایه ای آنها اشاره می نماید. یکی از چالش هایی که در زبان فارسی وجود دارد این است که کاربران ممکن است جملات خود را به صورت رسمی و یا به شکل غیررسمی (گفتاری) بیان کنند. در اینجا به ریشه یابی نیاز است که بتواند با هر دو گروه از کلمات کار خود را به درستی انجام دهد.

برگرفته از مقاله افزایش هوشتجاری براساس تحلیل عقاید در نقدهای فارسی، عزیزی-خادمی

کپی برداری بدون ذکر منبع، براساس قانون جرایم اینترتی و مادۀ 12 فصل سوم قانون جرایم رایانه ای غیر قانونی بوده و مجازات جزای نقدی و حبس دارد و شرعا نیز حرام است! 

اگر در زمینه نظر کاوی یا عقیده کاوی در حال تحقیق یا پیاده سازی پروژه یا پایان نامه هستید برای گرفتن مشاوره یا دادن سفارش انجام با ما تماس بگیرید.  آکادمی داده در تلگرام، واتزآپ و تمامی پیام رسان های ایرانی(سروش، آی گپ، بله، گپ و ویسپی) با شماره 09120637751 حضور دارد برای ارتباط از طریق ایمیل آدرس جیمیل: dataacademyir@gmail.com می باشد. 

افتخار آکادمی داده، همسفر بودن با شما در راه یادگیری علم داده است.