تحلیل مدلهای یادگیری ماشینی سوفوس در زمینه امنیت شبکه

تیم هوش مصنوعی شرکت سوفوس (Sophos, Ltd) مدل‌های یادگیری ماشینی متعددی را توسعه می‌دهد که مستقیماً با محصولات سوفوس ادغام می‌شوند.

در حال حاضر سوفوس بیش از 30 مدل یادگیری ماشینی تولید شده دارد که در محصولات سوفوس بکارگرفته شده و فایل‌های بدافزاری، آدرس‌های URL و ایمیل‌های مخرب را شناسایی می‌کنند.

هنگام توسعه مدل‌های یادگیری ماشینی جدید، معمولاً مدل‌ها با استفاده از مجموعه ‌‌داده‌های ثابت که به‌صورت دستی انتخاب شده‌اند، آموزش داده شده و سپس ارزیابی می‌شوند. ارزیابی مدل موجب می‌شود عملکرد نهایی مدل بررسی شده و پیشرفت تحقیقات به‌طور دقیقی رصد شود.

هنگامی که مدل در محصولات امنیتی تولید شده، پیاده‌سازی می‌شود، این‌بار به‌جای ارزیابی عملکرد آن توسط مجموعه‌داده‌های ایستا، ارزیابی خودکار بر روی داده‌های جدید درحال ورود انجام می‌شود. به عبارت دیگر، بعد از انتخاب مدل، یک Data Pipeline برای آموزش مدل ایجاد می‌شود، یعنی جریانی پیوسته و کارامد از داده‌ها ایجاد می‌شود تا مدل  به صورت مناسبی آموزش ببیند. این کار عمدتاً ساده‌ به نظر می‌رسد، اما در عمل اینطور نیست. اساساً به این دلیل که در یک Pipeline کاملاً خودکار، درک این‌که آیا خطاها و کاهش عملکرد، ناشی از کارایی مدل، Data Pipeline و یا مجموعه‌داده‌های نامتوازن (سوگیری توزیع داده‌های در حال ورود) یا ترکیبی از موارد فوق است، بسیار دشوار می‌باشد.

در تیم هوش‌مصنوعی سوفوس (SophosAI)، تیم‌های زیرساخت‌داده، علم داده و محققان بدافزار با یکدیگر جهت توسعه، ارائه و بهبود مستمر مدل‌های تولیدی همکاری می‌کنند. آن‌ها باید به منبع مشترکی از اطلاعات دسترسی داشته باشند به صورتی که در آن همه تیم‌ها بتوانند درک یکسانی از مدل‌های تولیدی داشته باشند. با در نظر گرفتن همه این موارد، تیم هوش مصنوعی سوفوس، یک داشبورد مصورسازی بلادرنگ (Real-time Visualization Dashboard) به نام AI Total ساخته‌اند که اهداف زیر را محقق می‌سازد:

  • رصد منظم عملکرد مدل‌های پیاده‌سازی شده، مشاهده روندهای زمانی (Time Trends) و تشخیص رفتار غیر نرمال (Anomaly Detection)
  • شناسایی خطاها از طریق ارزیابی مجموعه‌داده‌ها، مدل‌ها یا داده‌های برچسب‌گذاری شده
  • یافتن و بررسی علت رخداد خطاها

این داشبورد مصورسازی بلادرنگ مبتنی بر وب سوفوس (AI Total)، به کاربران اجازه می‌دهد تا به سرعت نتایج عددی عملکرد مدل را مشاهده نموده و در عین حال از صحت مجموعه‌داده بکار گرفته شده در مرحله آموزش (Train) اطمینان داشته باشند. همچنین به کاربران این امکان را می‌دهد که وقتی خطایی پیش می‌آید، فوراً علت اصلی آن را مشاهده کنند.

سوفوس به‌تازگی روش جدیدی را به‌منظور تحلیل کارایی و مشکلات مربوط به مجموعه‌داده‌ها با استفاده از روش Data Coverage Equalizer، ارائه داده و مقاله‌ای نیز در این خصوص در 21 مهر 1400 ارائه کرده است.

بررسی مقاله مذکور نشان می‌دهد که چگونه قابلیت مصورسازی بلادرنگ، نیازهای عملیاتی تیم تحقیقاتی سوفوس در حوزه صنعت را جهت شناسایی و حل مشکلات رایج در مدل‌های امنیتی تولید شده برآورده می‌کند.

پنل مصورسازی از سه سربرگ (Tab) تشکیل شده که هر کدام از آن‌ها جهت دستیابی به اهداف زیر طراحی شده است:

  • پارامترهای ارزیابی مدل (Model Metrics): اولین سربرگ، کارایی کلی مدل را با ارزیابی پارامترها (Metrics) نشان می‌دهد. این سربرگ پارامترهایی همچون TPR ،FPR ،Scanned Data Ratio Plot ،TPR و FPR در طول زمان و منحنی ROC مدل را نشان می‌دهد. تشخیص درست بدافزارها (TPR) و کاهش نرخ مثبت کاذب (FPR) از شاخص‌های بسیار کلیدی عملکرد در حوزه امنیت هستند، بنابراین عملکرد یک مدل امنیتی در ابتدا با دو پارامتر مذکور ارزیابی می‌شود.
  • کیفیت داده (Data Quality): در فاز پیاده‌سازی، ممکن است یکی از دلایل شکست و عدم کارایی مدل، مربوط به مجموعه‌داده‌های مورد استفاده باشد. دومین سربرگ، حجم و نرخ داده‌ها را جهت رصد آسان مسائل مربوط به مجموعه‌داده‌‌ها که بر عملکرد مدل‌های یادگیری ماشینی تأثیر می‌گذارند، نشان می‌دهد. این اطلاعات اساساً توسط دانشمندان داده، مهندسان، توسعه‌دهندگان و مهندسان زیرساخت مورد استفاده قرار می‌گیرند. در واقع، هدف این سربرگ، نظارت بر داده‌ها، سازگاری آن‌ها و تشخیص رفتار غیر نرمال در منابع ورودی و برچسب‌‌گذاری داده‌ها می‌باشد. در اینجا داده‌های بکارگرفته شده، داده‌های گم شده، داده‌های بدون برچسب و داده‌های فاقد نوع نیز نمایش داده می‌شوند.

مشاهده حجم بالای داده‌های فاقد برچسب نشان می‌دهد که سیستم برچسب‌گذاری عملکرد پایینی دارد و قابل اعتماد نیست و داده‌های برچسب‌گذاری شده کافی جهت آموزش مدل نداریم. نمودارهایی نیز در این سربرگ وجود دارند که حجم نمونه‌های بدافزاری، غیربدافزاری و بدون برچسبی را که پویش شده‌اند، نشان می‌دهند.

  • پیش‌بینی (Prediction Breakdown): این سربرگ تحلیلی از عملکرد مدل را بر اساس چندین دسته مرتبط، حجم داده‌های مربوطه و چند آمار تجمعی جهت بررسی بیشتر مسائل نشان می‌دهد. در سربرگ مذکور، دو جدول نیز ارائه می‌شود که یکی مجموعه‌داده‌ها را بر اساس نوع بدافزار و دیگری بر اساس نوع فایل نشان می‌دهد. این اطلاعات اغلب توسط دانشمندان داده مورد استفاده قرار می‌گیرند.

مقاله روش ابداعی سوفوس تحت عنوان AI Total: Analyzing Security ML Models with Perfect Data in Production به IEEE Symposium on Visualization for Cyber Security, 2021، ارسال شده است. مقاله مذکور در پایگاه‌علمی arXiv نیز منتشر شده و در نشانی زیر قابل دریافت و مطالعه می‌باشد:

https://arxiv.org/abs/2110.07028

اشتراک گذاری

Facebook
Twitter
WhatsApp
Telegram

نظرات

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *