ترجمه سرآغاز کتاب بینگ لیو درباره نظرکاوی

ترجمه سرآغاز کتاب بینگ لیو درباره نظرکاوی

آکادمی داده

۱۳۹۶/۰۸/۱۹


  • 488 بازدید

کسانی که با موضوع نظرکاوی(عقیده کاوی یا تحلیل احساسات) سرکار داشته اند حتما نام بینگ لیو را شنیده اند. یکی از پیشتازان حوزه نظرکاوی در دنیا. این محقق کتابی با عنوان نظرکاوی در سال 2015 منتشر کرده است که در این مقاله ترجمه سرآغاز آن توسط آکادمی داده ارائه می شود. ترجمه این کتاب در آکادمی داده موجود بوده و برای تهیه آن با آکادمی داده تماس بگیرید.

​نظر و احساس و مفاهیم مرتبط با آن مانند سنجش[1]، ارزیابی[2]، رفتار[3]، میل[4] ، هیجان[5] و حالت[6] همگی دربارة احساسات و عقاید هستند. آنها اصول روانشناسی انسان و تاثیر گذارهای کلیدی بر روی رفتار ما هستند. عقاید و درک ما از واقعیت به همراه انتخابی که میکنیم، تا حد قابل توجه ای مبتنی بر این است که دیگران چگونه دنیا را میبینندلنگر. به این دلیل دیدگاه ما از جهان بسیار تحت تاثیر دیدگاه دیگران است و هرگاه که نیاز داریم که یک تصمیم بگیریم، اغلب به دنبال نظر دیگران هستیم. این امر نه تنها برای افراد درست است، بلکه برای سازمانها نیز صدق میکند. از دیدگاه کاربردی نقطه نظر، ما به طور ذاتی میخواهیم که عقاید افراد و احساسات افراد را نسبت به هر موضوع مورد عقیده‌ای کاوش کنیم، و این کار وظیفة تحلیل احساس است. به طور دقیق تر، تحلیل احساس که عقیده کاوی نیز نامیده میشود، حوزة مطالعاتی ای است که قصد دارد عقاید و احساسات را با استفاده از روشهای محاسباتی و از طریق پردازش زبان طبیعی استخراج کند.

آغاز و رشد سریع تحلیل احساس همزمان بود با آغاز و رشد رسانه های اجتماعی بر روی وب، مثل نقد ها، بحث های انجمن[7]، بلاگها، میکروبلاگها[8]. زیرا برای اولین بار در تاریخ ما حجم وسیعی از داده ها را به شکل دیجیتال به صورت ذخیره شده داشتیم. این داده ها محتوی تولید شده توسط کاربر[9]  نامیده میشد و پژوهشگران را برانگیخت تا آنها را کاوش کنند تا دانش مفید را در آنها کشف کنند. این امر طبیعتا باعث مسالة تحلیل احساس یا نظرکاوی میشود زیرا تمامی این داده ها پر از عقاید هستند. اینکه این داده ها پر از نظر است تعجب بر انگیز نیست، زیرا دلیل اصلی ای که افراد پیامهایی را بر روی پلتفرم های[10] رسانه های اجتماعی ارسال میکنند این است که دیدگاه و عقاید خودشان را بیان کنند و از اینرو تحلیل احساس هستة اصلی تحلیل رسانه اجتماعی است. قبل از اوایل 2000، تحلیل احساس به یکی از حوزه های پژوهشی فعال در پردازش زبان طبیعی تبدیل شد. این حوزه به صورت گسترده در داده کاوی، وب کاوی و بازیابی اطلاعات مطالعه شد. در واقع این پژوهش از علوم کامپیوتر به علوم مدیریت و علوم اجتماعی به دلیل اهمیتش در کسب و کار و جامعه نیز گسترده شد. در سالهای اخیر، فعالیت های صنعتی حول تحلیل احساس نیز پیشرفت کرده اند. شرکت های نوپای بیشماری به وجود آمدند. شرکت های بسیار بزرگ مانند مایکروسافت، گوگل، هلت پاکارد[11]، و ادوبی[12] سیستم های داخلی خود را ساختند. سیستم های تحلیل احساس کاربردهایی را در تمامی حوزه های کسب و کار، سلامت، حکومتی و اجتماعی پیدا کردند.

در حالی که هیچ الگوریتم معجزه آسایی نمیتواند مسالة تحلیل احساس را حل کند، سیستم های بسیاری قادر به فرآهم سازی اطلاعات مفیدی برای پشتیبانی از کاربردهای زندگی واقعی بودند. من باور دارم که حالا زمان خوبی برای مستند سازی دانشی است که ما در پژوهش بدست آوردیم و این کار را در یک کتاب انجام میدهیم. واضح است که من ادعا نمیکنم که همه چیزی را که در این صنعت میگذرد میدانم، زیرا کسب و کارها الگوریتم هایشان را منتشر یا افشا نمیکنند. از اینرو من خودم سیستم تحلیل احساسی را در یک شرکت نوپا ساخته ام که به کار سرویس گیرنده هایی آمده که بر روی پروژه های مجموعه داده های رسانه های اجتماعی و در حوزه های بسیار مختلفی کار میکردند. در طول این سالها توسعه دهندگان بسیاری از سیستم های تحلیل احساس در این صنعت به طور تقریبی گفتند که از چه الگوریتم هایی استفاده کرده اند. از اینرو من ادعا میکنم که دانش قابل قبولی از سیستم های عملی و ظرفیت هایشان و تجربه ای دست اول در حل مشکلات دنیای واقعی دارم. من تلاش کردم تا آن قطعات اطلاعاتی و دانش غیر محرمانه را در این کتاب بیاوردم.

در نوشتن این کتاب من تلاش داشتم تا رویکردی متوازن داشته باشم و با تحلیل مساله تحلیل احساس از زاویة زبان شناسی به خوانندگان کمک کنم تا ساختار زیربنایی مساله و سازه های زبانی ای که معمولا برای بیان عقاید و احساسات به کار میرود را درک کنند و روشهای محاسباتی ای را برای تحلیل و خلاصه سازی عقاید ارائه نمودم. مانند بسیاری دیگر از اعمال پردازش زبان طبیعی، اکثر تکنیک های محاسباتی منتشر شده از یادگیری ماشین یا الگوریتم های داده کاوی با کمک نشانه های[13] متنی یا خصیصه ها[14] استفاده کردند. با اینحال اگر ما تنها بر این الگوریتم های محاسباتی تمرکز کنیم، بینش عمیق نسبت به مساله را از دست خواهیم داد که باعث عقب ماندگی پیشرفت محاسباتی مان خواهد شد. اکثر الگوریتم های یادگیری ماشینی مانند جعبه های سیاهی هستند که مدل قابل تفسیر برای انسان ندارند. وقتی که اشتباهی پیش میاید، سخت است که دلیل آن را پیدا کنیم و آن را درست کنیم.

در ارائة ساختار و منظرهای زبان شناسی، من سنت زبان شناسی را در نوشتنم رعایت نمیکنم زیرا دانش و روشی که دانش زبان شناسی سنتی ارائه میشود عموما برای افرادی است که آن را درک میکنند، نه برای کامپیوترهایی که این دانش در آنها به کار گرفته شده است تا مسائل دنیای واقعی را حل کنند. در حالی که دانش انسان و دستورالعمل ها برای کامپیوتر ها میتواند بسیار مشترک باشد، تفاوت های عمده ای نیز دارد. مثلا در این مورد وقتی که من بر روی مسالة نظرکاوی در جملات شرطی کار میکنم، من چندین کتاب زبان شناسی دربارة شرطی ها میخوانم. با این حال در کمال نا باوری هیچ دانش زبان شناسی ای را یافت نمیکنم که قابل پیاده سازی کامپیوتری باشد تا به مساله کمک کند. من باور دارم که این امر تا حدی بدین دلیل است که فناوری های محاسباتی امروزی به کافی بالغ نیستند که توانایی و ظرفیت درک به اندازة انسان ها را داشته باشند و اکثر دانش زبان شناسی هم برای استفادة کامپیوتر ها ایجاد نشده است.

خصوصیت دیگر این کتاب این است که همانند مقالات زبان شناسی سنتی نه تنها این کتاب دربارة مطالعات زبان برای درک فی نفسة انسان، بلکه دربارة کاربردهایی عملی از کاوش احساس و نظر بیان شده در زبان طبیعی است که نه تنها قصد شناخت احساس و نظر بیان شده و قطبیت (یا گرایش) آن را دارد، بلکه به استخراج بخش های دیگر اطلاعات مهم همراه با نظر و احساس نیز میپردازد. برای مثال، ما میخواهیم که موجودیت های دنیای واقعی یا موضوعاتی را که یک احساس یا نظر دربارة آن است را مشخص کنیم. این موجودیت ها یا موضوعات اهداف[15] نظر (یا احساس) نامیده میشوند. استخراج اهداف نظر نیز در عمل بسیار مهم است. برای مثال در جمله «من از افزایش مالیات فقرا احساس انزجار میکنم»، اگر ما تنها دریابیم که جمله احساس منفی و/یا یک هیجان انزجار را از سوی نویسنده بیان میکند، در عمل مفید نیست. ولی اگر بتوانیم دریابیم که احساس منفی نسبت به «افزایش مالیات فقرا» است که اهداف احساس یا هیجان منفی میباشد، اطلاعات ارزشمند تر میشود. امیدوارم که این کتاب بتواند زبان شناسان را تشویق کند تا نظریه ای جامع دربارة احساس و نظر و مفاهیم مرتبط با آنها ایجاد کنند.

من این کتاب را به عنوان یک متن مقدماتی برای حوزة تحلیل احساس و مطالعه ای مروری نوشتم. در بعضی جاها یکی از آنها و در جاهایی دیگر ترکیبی از جفت آنها است. دلیل این شیوة ارائة ترکیبی یا تقریبا نامعمول این است که تکنیک ها و الگوریتم های بالغ کمی برای تحلیل احساس وجود داشتند، در حالی که پژوهشگران بسیاری تلاش دارند تا هر زیرمساله[16] را حل کنند. در بسیاری از موارد ما میتوانیم از دقت نتایج منتشر شده در مقاله ها ببینیم که آنها هنوز برای کار اصلی آماده نیستند. دلیل دیگر برای شیوة ترکیبی ارائة این کتاب این است که اکثر روش های پژوهشی موجود کاربردهای مستقیم یادگیری ماشین[17] و الگوریتم های داده کاوی ای هستند که از خصیصه های متن استفاده میکنند. بدلیل اینکه بیشتر کتاب های یادگیری ماشین و داده کاوی این الگوریتم ها را به صورت گسترده تحت پوشش قرار میدهند، از اینرو این الگوریتمها در این کتاب با جزئیات آورده نشده اند. این کتاب همچنین وارد اصول زبان شناسی یا پردازش زبان طبیعی، مثل برچسب گذاری بخشی از سخن[18]، تجزیه نحوی[19]، تجزیه سطحی[20] و دستور زبان نمیشود. در حالی که این موضوعات برای تحلیل احساسی بسیار مهم هستند، ولی در کتاب های بسیاری در ارتباط با پردازش زبان طبیعی پوشش داده شده اند. از اینرو این کتاب فرض را بر این میگذارد که خوانندگان اصول یادگیری ماشی و پردازش زبان طبیعی را میدانند.

من تلاش کردم تا تمامی پیشرفت های این حوزه را در این کتاب بیاورم. از اینرو این کتاب تقریبا جامع است. گواه این امر این است که این کتاب در ششصد انتشارات در سراسر کنفرانس ها و مجلات[21] ذکر شده است. من به شکل زیر کتاب را مرتب کردم. فصل 1 کتاب را معرفی میکند و انگیزه هایی را برای مطالعة تحلیل احساس ارائه میکند. ما میبینیم که تحلیل احساس شگفت انگیز است و با تقریبا کاربردهای نامحدود عملی، هنوز مساله ای چالش برانگیز است. بخش 2 مسالة تحلیل احساس را تعریف میکند و بسیاری از مشکلات مربوطة آن را شرح میدهد. ما میبینیم که اگرچه تحلیل احساس یک مساله پردازش زبان طبیعی است، ولی میتواند به صورت ساختاری تعریف شود. در تعاریف ما میتوانیم متن بدون ساختار را به داده های ساختاریافته تبدیل کنیم. این امر میتواند تحلیل های کمی و کیفی آینده را که برای کاربردهای زندگی واقعی مهم هستند را آسان کند. ما همچنین دیدیم که تحلیل احساس یک مسالة چند منظری[22] با زیر مساله های مرتبط و چالش برانگیز است.

بخش 3 موضوع دسته بندی[23] احساس سطح سند را مطالعه میکند که یک سند دارای نظر (مثلا یک نقد کالا) را که یک حس منفی یا مثبت را بیان میکند را دسته بندی میکند. بخش 4 مسالة دسته بندی مشابه ای را مطرح میکند، ولی بر روی جملات تکی تمرکز دارد. مسائل مربوطه در پیش بینی رتبة احساس، یادگیری انتقال[24] و دسته بندی احساسی چند زبانی نیز در این دو بخش مطرح میشوند.

بخش 5 و 6 به سطح ریزمقیاس[25] میپردازد تا مهم ترین موضوعات مبتنی بر وِجهِ[26] ی تحلیل احساس را مطرح کند، موضوعی که نه تنها احساس را، بلکه هدف احساس یا نظر را نیز شناسایی میکند. اکثر سیستم های کاربردی تحلیلی احساس و نظرکاوی در صنعت مبتنی بر این سطح ریزدانة تحلیل هستند. بخش 5 بر روی دسته بندی احساس وجه و بخش 6 بر روی استخراج وجه یا هدف است. 
بخش 7 پژوهشی را شرح میدهد که لغات نامه احساسی را کامپایل  میکند. یک لغت نامه احساسی فهرستی از کلمات و عبارات (مثل خوب، فوق العاده، بد، افتضاح) است که افراد اغلب برای بیان عقاید مثبت و منفی از آنها استفاده میکنند. بخش 8 عقاید بیان شده در جملات قیاسی را مطالعه میکند. بخش 9 بر روی خلاصه سازی نظر و جستجوی نظر تمرکز دارد. بخش 10 به شکلی متفاوت از احساس (موافق بودن یا نبودن) نگاهی می اندازد که در بحث ها و مناظرات آنلاین ابراز میشود و دارای تبادلات متقابل گسترده در میان شرکت کنندگان است. بخش 11 نیت کاوی را بررسی میکند که قصد کشف نیت های بیان شده در زبان را دارد. 
بخش 12 به یک موضوع بسیار متفاوت تغییر پیدا میکند: شناسایی عقاید آنلاین جعلی و فریب انگیز. بخش 13 به مسالة رتبه بندی نقد های آنلاین بر اساس مفید بودنشان رسیدگی میکند تا کاربران بتوانند مفید ترین نقد ها را زودتر بخوانند. بخش 14 کتاب را جمع بندی میکند و پژوهش های آینده را مطرح میکند. 
این کتاب برای دانشجویان، پژوهشگران و متخصصینی مناسب است که به تحلیل رسانه های اجتماعی و پردازش زبان طبیعی به طور کل و به طور خاص به تحلیل احساس و نظر کاوی علاقه مندند. این کتاب تنها برای مخاطبین علوم کامپیوتر نوشته نشده است، بلکه برای پژوهشگران و متخصصین علوم مدیریت و اجتماعی نیز مناسب است. احساسات مشتری و عقاید عموم برای بسیاری از حوزه های علوم اجتماعی و مدیریت و بازاریابی، اقتصاد، ارتباطات و علوم سیاسی دارای اهمیت است. مدرسان میتوانند برای دوره های پردازش زبان طبیعی، تحلیل شبکه های اجتماعی، محاسبات اجتماعی و متن و داده کاوی از این کتاب استفاده کنند. 

کپی برداری بدون ذکر منبع، براساس قانون جرایم اینترتی و مادۀ 12 فصل سوم قانون جرایم رایانه ای غیر قانونی بوده و مجازات جزای نقدی و حبس دارد و شرعا نیز حرام است! 

اگر در زمینه نظر کاوی یا عقیده کاوی در حال تحقیق یا پیاده سازی پروژه یا پایان نامه هستید برای گرفتن مشاوره یا دادن سفارش انجام با ما تماس بگیرید.  آکادمی داده در تلگرام، واتزآپ و تمامی پیام رسان های ایرانی(سروش، آی گپ، بله، گپ و ویسپی) با شماره 09120637751 حضور دارد برای ارتباط از طریق ایمیل آدرس جیمیل: dataacademyir@gmail.com می باشد. 

افتخار آکادمی داده، همسفر بودن با شما در راه یادگیری علم داده است. 

[1] evaluation[2] appraisal[3] attitude[4] affect[5] emotion[6] mood[7] Forum discussions[8] microblogs[9] User-generated content[10] platforms[11] Hewlett-Packard[12] Adobe[13] clues[14] features[15] targets[16] subproblem[17] Machine learning[18] Part-of-speech tagging[19] Syntactic parsing[20] Shallow parsing [21] journals[22] multifaceted[23] classification[24] Transfer learning[25] Fine-grained[26] Aspect-based