تحلیل مدلهای یادگیری ماشینی سوفوس در زمینه امنیت شبکه
تیم هوش مصنوعی شرکت سوفوس (Sophos, Ltd) مدلهای یادگیری ماشینی متعددی را توسعه میدهد که مستقیماً با محصولات سوفوس ادغام میشوند.
در حال حاضر سوفوس بیش از 30 مدل یادگیری ماشینی تولید شده دارد که در محصولات سوفوس بکارگرفته شده و فایلهای بدافزاری، آدرسهای URL و ایمیلهای مخرب را شناسایی میکنند.
هنگام توسعه مدلهای یادگیری ماشینی جدید، معمولاً مدلها با استفاده از مجموعه دادههای ثابت که بهصورت دستی انتخاب شدهاند، آموزش داده شده و سپس ارزیابی میشوند. ارزیابی مدل موجب میشود عملکرد نهایی مدل بررسی شده و پیشرفت تحقیقات بهطور دقیقی رصد شود.
هنگامی که مدل در محصولات امنیتی تولید شده، پیادهسازی میشود، اینبار بهجای ارزیابی عملکرد آن توسط مجموعهدادههای ایستا، ارزیابی خودکار بر روی دادههای جدید درحال ورود انجام میشود. به عبارت دیگر، بعد از انتخاب مدل، یک Data Pipeline برای آموزش مدل ایجاد میشود، یعنی جریانی پیوسته و کارامد از دادهها ایجاد میشود تا مدل به صورت مناسبی آموزش ببیند. این کار عمدتاً ساده به نظر میرسد، اما در عمل اینطور نیست. اساساً به این دلیل که در یک Pipeline کاملاً خودکار، درک اینکه آیا خطاها و کاهش عملکرد، ناشی از کارایی مدل، Data Pipeline و یا مجموعهدادههای نامتوازن (سوگیری توزیع دادههای در حال ورود) یا ترکیبی از موارد فوق است، بسیار دشوار میباشد.
در تیم هوشمصنوعی سوفوس (SophosAI)، تیمهای زیرساختداده، علم داده و محققان بدافزار با یکدیگر جهت توسعه، ارائه و بهبود مستمر مدلهای تولیدی همکاری میکنند. آنها باید به منبع مشترکی از اطلاعات دسترسی داشته باشند به صورتی که در آن همه تیمها بتوانند درک یکسانی از مدلهای تولیدی داشته باشند. با در نظر گرفتن همه این موارد، تیم هوش مصنوعی سوفوس، یک داشبورد مصورسازی بلادرنگ (Real-time Visualization Dashboard) به نام AI Total ساختهاند که اهداف زیر را محقق میسازد:
- رصد منظم عملکرد مدلهای پیادهسازی شده، مشاهده روندهای زمانی (Time Trends) و تشخیص رفتار غیر نرمال (Anomaly Detection)
- شناسایی خطاها از طریق ارزیابی مجموعهدادهها، مدلها یا دادههای برچسبگذاری شده
- یافتن و بررسی علت رخداد خطاها
این داشبورد مصورسازی بلادرنگ مبتنی بر وب سوفوس (AI Total)، به کاربران اجازه میدهد تا به سرعت نتایج عددی عملکرد مدل را مشاهده نموده و در عین حال از صحت مجموعهداده بکار گرفته شده در مرحله آموزش (Train) اطمینان داشته باشند. همچنین به کاربران این امکان را میدهد که وقتی خطایی پیش میآید، فوراً علت اصلی آن را مشاهده کنند.
سوفوس بهتازگی روش جدیدی را بهمنظور تحلیل کارایی و مشکلات مربوط به مجموعهدادهها با استفاده از روش Data Coverage Equalizer، ارائه داده و مقالهای نیز در این خصوص در 21 مهر 1400 ارائه کرده است.
بررسی مقاله مذکور نشان میدهد که چگونه قابلیت مصورسازی بلادرنگ، نیازهای عملیاتی تیم تحقیقاتی سوفوس در حوزه صنعت را جهت شناسایی و حل مشکلات رایج در مدلهای امنیتی تولید شده برآورده میکند.
پنل مصورسازی از سه سربرگ (Tab) تشکیل شده که هر کدام از آنها جهت دستیابی به اهداف زیر طراحی شده است:
- پارامترهای ارزیابی مدل (Model Metrics): اولین سربرگ، کارایی کلی مدل را با ارزیابی پارامترها (Metrics) نشان میدهد. این سربرگ پارامترهایی همچون TPR ،FPR ،Scanned Data Ratio Plot ،TPR و FPR در طول زمان و منحنی ROC مدل را نشان میدهد. تشخیص درست بدافزارها (TPR) و کاهش نرخ مثبت کاذب (FPR) از شاخصهای بسیار کلیدی عملکرد در حوزه امنیت هستند، بنابراین عملکرد یک مدل امنیتی در ابتدا با دو پارامتر مذکور ارزیابی میشود.
- کیفیت داده (Data Quality): در فاز پیادهسازی، ممکن است یکی از دلایل شکست و عدم کارایی مدل، مربوط به مجموعهدادههای مورد استفاده باشد. دومین سربرگ، حجم و نرخ دادهها را جهت رصد آسان مسائل مربوط به مجموعهدادهها که بر عملکرد مدلهای یادگیری ماشینی تأثیر میگذارند، نشان میدهد. این اطلاعات اساساً توسط دانشمندان داده، مهندسان، توسعهدهندگان و مهندسان زیرساخت مورد استفاده قرار میگیرند. در واقع، هدف این سربرگ، نظارت بر دادهها، سازگاری آنها و تشخیص رفتار غیر نرمال در منابع ورودی و برچسبگذاری دادهها میباشد. در اینجا دادههای بکارگرفته شده، دادههای گم شده، دادههای بدون برچسب و دادههای فاقد نوع نیز نمایش داده میشوند.
مشاهده حجم بالای دادههای فاقد برچسب نشان میدهد که سیستم برچسبگذاری عملکرد پایینی دارد و قابل اعتماد نیست و دادههای برچسبگذاری شده کافی جهت آموزش مدل نداریم. نمودارهایی نیز در این سربرگ وجود دارند که حجم نمونههای بدافزاری، غیربدافزاری و بدون برچسبی را که پویش شدهاند، نشان میدهند.
- پیشبینی (Prediction Breakdown): این سربرگ تحلیلی از عملکرد مدل را بر اساس چندین دسته مرتبط، حجم دادههای مربوطه و چند آمار تجمعی جهت بررسی بیشتر مسائل نشان میدهد. در سربرگ مذکور، دو جدول نیز ارائه میشود که یکی مجموعهدادهها را بر اساس نوع بدافزار و دیگری بر اساس نوع فایل نشان میدهد. این اطلاعات اغلب توسط دانشمندان داده مورد استفاده قرار میگیرند.
مقاله روش ابداعی سوفوس تحت عنوان AI Total: Analyzing Security ML Models with Perfect Data in Production به IEEE Symposium on Visualization for Cyber Security, 2021، ارسال شده است. مقاله مذکور در پایگاهعلمی arXiv نیز منتشر شده و در نشانی زیر قابل دریافت و مطالعه میباشد: