بهبود فیلتر کردن ایمیل های اسپم بوسیله روش ترکیبی متن کاوی

بهبود فیلتر کردن ایمیل های اسپم بوسیله روش ترکیبی متن کاوی

آکادمی داده

۱۳۹۷/۰۵/۲۳


  • 75 بازدید

در این سلسله مقالات به مفاهیم و کاربرد های داده‌کاوی، متن کاوی و علوم مرتبط با علم داده پرداخته می‌شود. با توجه به حجم عظیم مقالات تولید شده در زبان فارسی در حوزه داده کاوی و علم داده، آکادمی داده تصمیم گرفت مقالات فارسی منتشر شده در این حوزه را خلاصه برداری کرده و در اختیار علاقه مندان قرار دهد. این مقالات ابتدا با معرفی موضوع و کارهای انجام شده آغاز می شود و سپس مجموعه داده یا دیتاست تحقیق ارائه می شود و سپس پیاده سازی انجام شده در رپیدماینر، وکا یا پایتون ارائه شده و نتایج تحلیل می شود.

در این رشته نوشته ها ابتدا خلاصه ای از مقاله ارائه شده و سپس نتیجه گیری مقاله عینا آورده می گردد و سپس فایل پی دی اف آن نیز برای دانلود در اختیار محققین و پژوهشگران عزیز قرار می گیرد. 

 

استفاده کنندگان اينترنت تاثير منفی اسپم در حساب ايميل خود را تجربه نموده اند. بسياری از پيغام های ناخواسته جعبه دريافت کاربران را پر می کنند که اين پيغام ها بايد بصورت مداوم پاک شوند تا به خدمات ايميل اجازه کارکردن بصورت معمولی را دهد. از دهه 70 که اولين مورد اسپم شناسايی شد، از آن زمان به بعد اسپم تبديل به مسئله ای جدی برای کابران، ارائه دهندگان خدمات اينترنتی )ISP ،)اپراتورهای شبکه، مديريت عمومی و سازمانی تبديل شدند. با وجود اينکه هيچ توافق عامی در رابطه با تاثير اسپم بر اينترنت و هزينه های مالی آن وجود ندارد، با اين حال برخی از آمار و ارقام گويا را ميتوان مالحظه نمود. روش های شناسايی مختلف هرکدام دارای نقطعه ضعف ها و قدرت های مختلف مي باشند و درنتيجه هرکدام مناسب محتوی شناسايی مختلفی هستند. دراين پژوهش به بررسی ادبيات موجود درمورد شناسايی بررسی های اسپم پرداختيم، که اين مستندات بين سالهای 2007 و 2014 ارئه شده بودند، هدف از اين کار نيز درک روند پژوهش مرتبط با شناسايی اسپم بررسی و فراهم آوردن بينش و جهات آينده درمورد شناسايی اسپم بررسی برای محققان و پژوهشگاران خواهد. با تحليل مقايسه ای نتايج، ملاحظه می شود که بدست آوردن الگوها بعنوان حمالت اسپم و بررسی های موجود در الگو کارآمد ترين روش جهت شناسايی بررسی های اسپم است. علاوه براين، ازنظر راهنمايی برای شناسايی بررسی های اسپم، تفاوت های زبانی و روانی بررسی های جعلی و حقيقی دارای تاثير قابل توجهی در شناسايی بررسی های اسپم هستند.  
پيش بينی فعاليت های اسپم کننده ها از طريق تحقيقات پيچيده و ديده بانی وضعيت محصولات مورد نظر، و فرآيند بررسی جزء اختلاف های مهم در مستندات مي باشند. مسلح کردن ابزارهای فيلترکننده اسپم در وب سايت های به اشتراک گذاراننده نظرات به اين روش باعث تقويت کارآيی ابزارهای شناسايی می شود. میتوان از مستندات موجود اين نتيجه گيری را کرد که شناسايی گروه های اسپم کننده ها بخشی از ناحيه شناسايی اسپم است که از آن غفلت شده است. تعدد اسپم کننده ها در گروه ها منجر به ازدياد بررسی های اسپم در فواصل زمانی بخصوص می شود. من تبع آن، با درنظر گرفتن اينکه پژوهش های متمرکز بر الگوهای شيوع جهت شناسايی بررسی های اسپم دقت بيشتری را در شناسايی حملات اسپم از خود نشان دادند، يکی از پيشنهادات پژوهش آينده بررسی الگوهای شيوع با استفاده از روش های بديع برای شناسايی گروه اسپم کننده ها مي باشد .
يکی از مسائل جدی و مهم در ناحيه شناسايی اسپم بررسی، عظمت مجموعه داده های استاندارد طلايی است. براساس مستندات موجود و تجربيات عملی بررسی های اسپم اين کار بسيار مشکل است. درنتيجه، اکثر محققان از بررسی های اسپم بوجود امده بصورت دستی به همراه مشخصه های خاص بعنوان اسپم استفاده نموداند. بررسی تفاوت های روانی و زبانی بين بررسی های حقيقی و جعلی يکی از روش های کارامد در شناسايی بررسی های اسپم است. ازاينرو، جهت آينده برای پژوهش های بعدی در اين ناحيه می تواند کاوش عميق مشخصه های زبانی و روانی)عاطفی( بررسی های اسپم جهت شناسايی اينکه آنها چگونه با بررسی های حقيقی تفاوت دارند باشد. سپس از اين ويژگی های با ارزش ميتوان در بهبود درستی سيستم های شناسايی استفاده نمود.
مدلی که در اين پژوهش معرفی شد، يک مدل ترکيبی ناهمگن میباشد. در زمينه الگوريتم انتخاب ويژگی و الگوريتم دسته بندی، مدل پيشنهادی دارای انعطاف باشد؛ به طوری پذيری خوبی می که به عنوان پيشنهاد برای کارهای آتی میتوان گفت که پژوهشگران می توانند در مرحله انتخاب ويژگی از الگوريتم های فيلتری نظير اطلاعات متقابل، ضريب همبستگی و نسبت احتمالات و همچنين ترکيبی از الگوريتمهای فيلتری و پوششی مانند ترکيب الگوريتمهايی نظير الگوريتم ژنتيک با ساير الگوريتمهای فيلتری و در مرحله يادگيری از الگوريتمهای تجمعی ديگر همانند  voting  و  stacking  که در اين پژوهش مطرح نشد، استفاده کنند.
در قسمت عملی، دلالت های ارائه داده شده توسط يافته های اين پژوهش، دانشمندان می توانند از تبادل های اين پژوهش جهت يافتن ويژگی ها و روش های موثر برای استفاده در تحقيق خود استفاده کنند. علاوه براين، مديران وب سايت های آنلاين می توانند به بحث های اين پژوهش جهت فرآهم آوردن روش های فيلترسازی مناسب برای وب سايت های خود استفاده کنند. کاربران اين وب سايت ها نيز می توانند دانشی از شناسايی اسپم کننده ها دست يابند. اما برای کمبودهای موجود در مستندات، پژوهش های آينده به استخراج موثرترين و کارامدترين ويژگی های بپردازند و همچنين مجموعه ای از ويژگی های کارامد جهت استفاده در روش های پيشنهادی در آينده را نيز ايجاد می نمايد.

 

این مقاله از طریق لینک قابل دسترسی است و محققین علاقه مند می توانند آن را به صورت رایگان دریافت نمایند. 

اگر به دنبال مجموعه مقالات فارسی در موضوعات مختلف هستید به لینک مراجعه بفرمایید. در این لینک مجموعه مقالات فارسی در حوزه های مختلف داده کاوی و متن کاوی ارائه شده است.

اگر به پژوهش در حوزه متن کاوی علاقه مند هستید توصیه می شود حتما مجموعه بی نظیر هفتاد و چهار مقاله فارسی در زمینه متن کاوی  و مجموعه های مشابه آن را تهیه بفرمایید.

اگر در زمینه متن کاوی در حال تحقیق یا پیاده سازی پروژه یا پایان نامه هستید برای گرفتن مشاوره یا دادن سفارش انجام با ما تماس بگیرید.  آکادمی داده در تلگرام (https://t.me/dataacademyحضور دارد برای ارتباط از طریق ایمیل آدرس جیمیل: dataacademyir@gmail.com می باشد.  


افتخار آکادمی داده، همسفر بودن با شما در راه یادگیری علم داده است.