بهینه سازی دقت اعتماد در بین کاربران شبکه های اجتماعی آنلاین با استفاده از تکنیک متن کاوی داده ها در محیط آپاچی اسپارک

بهینه سازی دقت اعتماد در بین کاربران شبکه های اجتماعی آنلاین با استفاده از تکنیک متن کاوی داده ها در محیط آپاچی اسپارک

آکادمی داده

۱۳۹۷/۰۵/۲۳


  • 37 بازدید

در این سلسله مقالات به مفاهیم و کاربرد های داده‌کاوی، متن کاوی و علوم مرتبط با علم داده پرداخته می‌شود. با توجه به حجم عظیم مقالات تولید شده در زبان فارسی در حوزه داده کاوی و علم داده، آکادمی داده تصمیم گرفت مقالات فارسی منتشر شده در این حوزه را خلاصه برداری کرده و در اختیار علاقه مندان قرار دهد. این مقالات ابتدا با معرفی موضوع و کارهای انجام شده آغاز می شود و سپس مجموعه داده یا دیتاست تحقیق ارائه می شود و سپس پیاده سازی انجام شده در رپیدماینر، وکا یا پایتون ارائه شده و نتایج تحلیل می شود.

در این رشته نوشته ها ابتدا خلاصه ای از مقاله ارائه شده و سپس نتیجه گیری مقاله عینا آورده می گردد و سپس فایل پی دی اف آن نیز برای دانلود در اختیار محققین و پژوهشگران عزیز قرار می گیرد. 

 

در آزمون اول مشخص شد کاربرد دیکشنری تک کلمه ای در تشخیص کاربران مخرب کارایی پایینی در هر دو روش داشته است. در آزمون دوم با بهبود عملکرد هر دو روش نسبت به روش خبرگی نشان داده است، اما در بررسی صحت تشخیص کاربران مخرب با بررسی پستهای این کاربران به این نتیجه رسیدیم که استفاده از کلمات معکوس مخرب در دیکشنری برای تشخیص دقیقتر نیازمند است. در آزمون سوم نتایج به دست آمده از انجام آزمایش ها با روش پیشنهادی و مقایسه ی آن با روش دیگر، حاکی از دقت 88 % روش پیشنهادی و سرعت 1.26 برابر بیشتر از روش سری در بین 1000 کاربر می باشد، همچنین زمان اجرای موازی الگوریتم SGD با افزایش سرعت ( 0.38 ) نسبت به اجرای سری، بهبود عملکرد زمان اجرا را داشته است.  
مشاهده میشود، دقت روشهای ارزیابی بر اساس رویکرد پیشنهادی این پژوهش در قیاس با نظر خبرگی با 12 % خطا و دقت 88 % است و در قیاس با الگوریتم SGD با خطای  36 %و دقت 64 % حفظ نموده است. روش پیشنهادی 24 % عملکرد بالاتری نسبت به الگوریتم SGD داشته است، بنابراین الگوریتم SGD در دسته بندی تکی کلمات دارای عملکرد بالا ولی دقت پایینتر میباشد که در این پژوهش در دسته بندی دودویی کلمات دارای عملکرد و دقت بالاتر می باشد.  
با بررسی خبرگی پست ها دریافتیم بیشتر پست ها، کلمات مخرب را به حالت پرسشی، خبری یا عامیانه بیان کرده اند که در دیکشنری این کلمات مخرب محسوب میشوند و همین اوامر علت درصد خطای روش پیشنهادی می باشد و همچنین موضوعات قابل بحث کاربران در یک زمان مشخص و فعالیت کاربران مخرب درباره آن موضوع باعث کاهش یا افزایش کارایی دو روش مقایسه می شود که تشخیص بهبود برای این گروه از کلمات، استفاده از روش های هوش مصنوعی نیازمند است.  بنابراین نتایج حاصل از این پژوهش نشان میدهد که روش پیشنهادی دارای دقت بالایی در تشخیص میباشد. در پژوهشهای پیشین با تعیین مثبت، منفی یا خنثی بودن کلمات به تشخیص ریسک افراد پذیر بودن یم پردازند یا از جهتی دیگر با وزن دهی تمام کلمات به تحلیل جملات می پردازند که این امر زمان زیادی برای تحلیل خواهان است، در اینجا با وزن دهی مستقیم کلمات مخرب در زمان تحلیل صرفه جویی نموده ایم. همچنین بیشتر پژوهش های انجام شده به صورت سریال یا در بستر هدوپ اجرا شده اند و پژوهش های کمتری در محیط اسپارک پیاده سازی شده اند.
پیشنهادهای پژوهشی که در آینده می توان برای بهبود دقت اعتماد در شبکه های آنلاین اجتماعی نام برد : 
به روزرسانی دیکشنری 
-بررسی ها نشان می دهد کاربران در زمانهای متفاوت با توجه به اتفاقات آن زمان با مخفف سازی کلمات به شکل دهی و رایج ساختن آن کلمات به صورت کلمه ای جدید سوق داده شده اند. بنابراین به روزرسانی دیکشنری برای تشخیص کلمات مخرب جدید نیازمند است.
 -حذف کلمات بین جملات 
در روش پیشنهادی کلمات دودودیی پشت سرهم به مخرب وزن دهی شده اند، باید در نظر گرفت کلمات میتوانند به صورت تکی در ابتدا، میانه یا انتهای جمله بیان شوند که با حذف کلمات بعدی و در کنار هم قرار گرفتن آنها میتوان مخرب بودن آنها را تشخیص داد. بنابراین استفاده از روش N- gram به صورت n تایی برای تشخیص دقیقتر پیشنهاد میشود.  
-بررسی نام کاربری کاربران 
بررسی ها نشان می دهد که افراد مخرب دارای نام کاربری بدون ساختار، مانند ترکیب حروف و اعداد بدون معنی یا مستقیماً خود کلمه ی مخرب هستند. باید در نظر گرفت که افراد با نام کاربری مناسب هم می توانند مخرب باشند، بنابراین برای بالا بردن سطح اعتماد بررسی پیشنهاد ساختار نام ایمیل کاربران مطرح شود.
 – بررسی ساختار نام ایمیل 
همان طور که بررسی نام کاربری قابل توجه می باشد توجه به ساختار نام ایمیل امری مهم نیز می باشد. مشاهدات نشان داده است که بیشتر افراد مخرب دارای ایمیل های بدون ساختار، ترکیبی از اسم های مخرب یا استفاده از نام های بدون هویت که وجود خارجی ندارند، استفاده کرده اند.  ترکیب این دو روش می تواند افزایش دقت اعتماد را داشته باشد ولی در اکثر پژوهشهای انجام شده کمتر به این دو مورد توجه شده است. تاکنون پژوهشهای بسیاری در راستای پیدا کردن دقت اعتماد بالاتر در شبکه های اجتماعی آنلاین ارائه شده است، اما این مشکل همچنان پابرجا بوده و تاکنون روشی کارآمد در جهت رفع آن در تمامی جوامع آنلاین ارائه نشده است، بنابراین در این حوزه لزوم پژوهش بیشتر احساس می گردد.

 

این مقاله از طریق لینک قابل دسترسی است و محققین علاقه مند می توانند آن را به صورت رایگان دریافت نمایند. 

اگر به دنبال مجموعه مقالات فارسی در موضوعات مختلف هستید به لینک مراجعه بفرمایید. در این لینک مجموعه مقالات فارسی در حوزه های مختلف داده کاوی و متن کاوی ارائه شده است.

کپی برداری بدون ذکر منبع، بر اساس قانون جرائم اینترنتی و مادۀ 12 فصل سوم قانون جرائم رایانه ای غیر قانونی بوده و مجازات جزای نقدی و حبس دارد و شرعا نیز حرام است! 
اگر در زمینه متن کاوی در حال تحقیق یا پیاده سازی پروژه تجاری یا پایان نامه هستید برای گرفتن مشاوره یا دادن سفارش انجام با ما تماس بگیرید.  آکادمی داده در تلگرام، واتزآپ و تمامی پیام رسان های ایرانی(سروش، آی گپ، بله و ویسپی) با شماره 09120637751 حضور دارد برای ارتباط از طریق ایمیل آدرس جیمیل: dataacademyir@gmail.com می باشد. 


افتخار آکادمی داده، همسفر بودن با شما در راه یادگیری علم داده است.