مفهوم خلاصه سازی متن در علم متن کاوی

مفهوم خلاصه سازی متن در علم متن کاوی

آکادمی داده

۱۳۹۷/۰۳/۰۶


  • 97 بازدید

امروزه با رشد سریع اطلاعات و داده ها، یافتن اطلاعات مناسب و كارا از اهمیت خاصی برخوردار است. هدف از خلاصه سازی  متن، فراهم كردن ای خلاصه از محتویات مطابق با اطلاعات مورد نیاز كاربر است. بنابراین كاربران میتوانند با سرعت بیشتری به اطلاعات موجود در متن دسترسی پیدا .كنند خلاصه سازی  در اصل فرآیند فشرده سازی  یك منبع است، به كه طوری نتیجه كار شامل اطلاعات مهم آن منبع باشد. به عبارت دیگر استخراج قسمتهای مهم از یك یا چند متن را خلاصه سازی  گویند.

خلاصه سازی  می تواند به دو صورت انجام شود:

1-         خلاصه سازی  استخراجی : جملات مهم به همان كه صورتی در متن اصلی بیان شدند شناسایی و لفظ به لفظ در متن خلاصه كپی می شوند.

2-         خلاصه سازی  چكیده : جملات متن خلاصه برگرفته از متن اولیه هستند. به عبارت دیگر جملات خلاصه عینا در متن اصلی وجود ندارند. از دیدگاه دیگر، خلاصه سازی  را می توان به دو روش كلاسیك و نیز روش مبتنی بر یادگیری پیاده سازی نمود

در روش خلاصه سازی  كلاسیك، پس از پیش پردازش متن ورودی، با توجه به نشانگرهای جمله مانند نقطه، آن را به جملات موجود تقسیمبندی میكنیم. سپس هر جمله به صورت برداری از ( ویژگیها و مقدار آن ویژگی در جمله)  نمایش داده می شود.  این ویژگیها مانند موقعیت جمله، متوسط تكرار كلمات در آن جمله و تعداد كلمات موجود در عنوان از پیش تعریف شده  هستند. همچنین ارزش و اهمیت هر ویژگی نیز ثابت میباشد. بنابراین به هرجمله با توجه به مقدار و ارزش آن ویژگی، امتیازی داده میشود و در نهایت با توجه به مجموع امتیاز هر جمله، جملات دارای با ارزش بالاتر در خلاصه قرار میگیرند. در روش خلاصه سازی  بر اساس تكنیكهای یادگیری ماشین پس از پیشپردازش متن ورودی، با توجه به نشانه های خاص، آن را به جملات و زیرجملات میشكنیم. سپس هر جمله با یك مجموعه ویژگی مانند موقعیت جمله، متوسط تكرار كلمات در آن جمله و تعداد كلمات موجود در عنوان بیان می شود. این ویژگیها توسط یك بردار ویژگی برای آن جمله در نظر گرفته می شوند. چالش مهمی كه در اینجا وجود دارد انتخاب ویژگیهای صحیح برای هر جمله و نیز تعیین اهمیت هر ویژگی می باشد. در خلاصه ساز  كلاسیك به هر یك از ویژگیها ارزش ثابتی داده میشود، اما در این نوع خلاصه ساز ها به یك الگوریتم یادگیری ناظر و همچنین مجموعه آموزشی جهت آموزش طبقه بند  و ارزش ویژگیها نیاز است.

 به عبارت دیگر در ابتدا یك طبقه بندی  كننده مانند دسته بندی  كننده بیز و یا شبكه عصبی را انتخاب مینماییم. سپس با ورود یك مجموعه آموزشی از جملات كه به صورت بردار ویژگی نمایش داده شده اند به طبقه بند انتخابی، و با توجه به اینكه جمله مورد نظر در خلاصه موجود است یا خیر، به هر ویژگی ضریب اهمیت پویایی داده می شود. حال به ازای هر متن اولیه كه به عنوان مجموعه تست شناخته میشود، ابتدا آن متن به جملاتی تقسیم شده و هر جمله به صورت بردار ویژگی نمایش  داده می شود. سپس هر بردار ویژگی به خلاصه ساز  آموزش دیده وارد شده و با توجه به مقدار كلاس خروجی، تعیین میشود آیا آن جمله در خلاصه وجود دارد یا خیر. همچنین با استفاده از این روش می توان با ورود انواع ویژگی و بررسی خلاصه به دست آمده ویژگی ها های نامرتبط را تعیین و از مجموعه ویژگی حذف نمود. به عبارت دیگر با استفاده از تكنیكهای یادگیری ماشین میتوان ضرایب و اهمیت هر یك از ویژگیهای جملات را تعیین نماییم. خلاصه سازی  به این روش، Precision و Recall بیشتری نسبت به تكنیك كلاسیك خلاصه ساز  كه در آن ضرایب ثابتی به عنوان اهمیت ویژگیهای تعریف شده  برای جملات در نظر گرفته میشود داراست. همچنین حذف ویژگیهای زائد میتواند سبب افزایش دقت خلاصه ساز  شود.

خلاصه سازی متون با تكنیك های مبتنی بر یادگیری ماشین، شهرآئینی

کپی برداری بدون ذکر منبع، براساس قانون جرایم اینترتی و مادۀ 12 فصل سوم قانون جرایم رایانه ای غیر قانونی بوده و مجازات جزای نقدی و حبس دارد و شرعا نیز حرام است! 

اگر در زمینه خلاصه سازی متون در حال تحقیق یا پیاده سازی پروژه یا پایان نامه هستید برای گرفتن مشاوره یا دادن سفارش انجام با ما تماس بگیرید.  آکادمی داده در تلگرام، واتزآپ و تمامی پیام رسان های ایرانی(سروش، آی گپ، بله، گپ و ویسپی) با شماره 09120637751 حضور دارد برای ارتباط از طریق ایمیل آدرس جیمیل: dataacademyir@gmail.com می باشد. 

افتخار آکادمی داده، همسفر بودن با شما در راه یادگیری علم داده است.