هرزنامه و کارهای انجام شده برای شناسایی هرزنامه 3

هرزنامه و کارهای انجام شده برای شناسایی هرزنامه 3

آکادمی داده

۱۳۹۷/۰۳/۲۳


  • 88 بازدید

تاریخچه هرزنامه با تاریخچه اینترنت و وب مشابه است، از زمانی که وب وارد دنیای مجازی شد از همان زمان هرزنامه‌ها نیز وارد دنیای وب شدند. در سال های اولیه شروع وب و استفاده کاربران از ایمیل‌ها، کسانی که به دنبال تبلیغات محصول خود بودند این موضوع را فرصتی برای تبلیغ کالاهای خود دیدند، به همین دلیل در ابتدا و در دهه 90 میلادی هرزنامه‌ها بیشتر به صورت ایمیل ظاهر شدند. در این زمان کسانی که به دنبال تبلیغات محصولات خود بودند به‌راحتی ایمیل‌های تبلیغات خود را به هزاران نفر ارسال می کردند، بدین ترتیب به هدف خود که تبلیغ کالایشان بود می رسیدند. با پیشرفت وب انواع هرزنامه‌ها وارد دنیای مجازی شدند و شکل استفاده از آنها پیچیده تر شد. در ابتدا هرزنامه‌ها صرفا هدف تبلیغاتی داشتند ولی اکنون برای انتشار لینک های مخرب، تکثیر محتوای مستهجن و یا انتشار اخبار دروغ نیز استفاده می‌شود. گستردگی هرزنامه باعث شده است همچنان تحقیقات بسیاری برای متوقف کردن آن‌ها در جریان باشد. بنابر آمارهای مربوط در سال 2002 بیش از 36% از ایمیل ها را هرزنامه ها تشکیل می دادند، ولی در سال 2013 این رقم به 70% درصد افزایش پیدا کرده است.
در این قسمت مقالات مرتبط با شناسایی هرزنامه مورد اشاره قرار خواهد گرفت. شناسایی هرزنامه‌ها از زیر مجموعه های متن کاوی و کشف دانش از متن است و دارای سابقه بسیاری در بین محققین است. از زمانی که ارسال هرزنامه توسط تولید کنندگان هرزنامه شروع شد، محققین به دنبال ارائه راه‌حل‌هایی برای فیلتر کردن این هرزنامه‌ها بودند. روش ها و الگوریتم های متن کاوی در شناسایی هرزنامه ها کاربرد گسترده ای دارند و این فیلد مطالعاتی یکی از کاربردهای متن کاوی است. 
آقایان مقدم و علیپور به دنبال ارائه روشی برای فیلتر کردن ایمیل های هرز فارسی از ایمیل های سالم بوده اند. در این مقاله یک فیلتر ترکیبی بر روی مجموعه داده حاوی 640 ایمیل فارسی که شامل فیلترهای لیست سیاه، لیست سفید و بیزی می باشد برای مقابله با هرزنامه های فارسی ارائه شده است. هر ایمیل جدیدی که می رسد ابتدا با فیلتر لیست سفید مواجه می شود. این فیلتر فقط به ایمیل هایی که فرستندگانشان مورد تأیید است اجازه عبور می دهد. چنانچه فرستنده ایمیل در لیست افراد مورد اعتماد ما نباشد نوبت به فیلتر لیست سیاه می رسد که بررسی کند آیا فرستنده در لیست سیاه قرار دارد یا نه؟ اگر فرستنده در لیست سیاه قرار داشته باشد آن ایمیل به عنوان اسپم بلوکه می شود، در غیر این صورت ایمیل مورد نظر با سومین فیلتر روبرو می شود و فیلتر بیز براساس عدد اسپم نمای آن در موردش تصمیم گیری می کند. در واقع در مرحله سوم رویکرد یادگیری ماشین برای شناسایی هرزنامه ایمیل فارسی استفاده شده است.
نتایج پیاده سازی نشان می دهد که فیلتر مورد نظر از کارائی قابل توجهی برخوردار است هرچند که در مقایسه با زبان انگلیسی درصد خطای بیشتری دارد. در مواردی که ایمیل های ارسالی فقط متنی بودند، فیلتر مورد نظر کارایی بالای 80 درصدی از خود نشان داده است و دلیل کارایی کمتر آن نسبت به زبان انگلیسی نیز به این امر برمی گردد که زبان فارسی ذاتا یک زبان ریشه محور می باشد. بنا بر ادعای نویسندگان، استفاده از یک ریشه یاب مخصوص زبان فارسی که همه کلمات را به ریشه خود تبدیل کند ، می تواند دقت شناسایی هرزنامه ها را افزایش دهد. 

 

کپی برداری بدون ذکر منبع، براساس قانون جرایم اینترتی و مادۀ 12 فصل سوم قانون جرایم رایانه ای غیر قانونی بوده و مجازات جزای نقدی و حبس دارد و شرعا نیز حرام است! 

اگر در زمینه متن کاوی و شناسایی هرزنامه ها در حال تحقیق یا پیاده سازی پروژه تجاری یا پایان نامه هستید برای گرفتن مشاوره یا دادن سفارش انجام با ما تماس بگیرید.  آکادمی داده در تلگرام، واتزآپ و تمامی پیام رسان های ایرانی(سروش، آی گپ، بله، گپ و ویسپی) با شماره 09120637751 حضور دارد برای ارتباط از طریق ایمیل آدرس جیمیل: dataacademyir@gmail.com می باشد. 

افتخار آکادمی داده، همسفر بودن با شما در راه یادگیری علم داده است.