不斷進化的 0 和 1 之牆：深度學習及其在網路安全中的應用

在機電計算機誕生僅僅 11 年後，世界上第一個計算機病毒的設計方案便問世了。數學家和工程師約翰·馮·諾依曼在伊利諾伊大學發表了一系列關於自我複製計算機程式理論的演講。然而，直到 20 世紀 70 年代初，第一個功能性計算機病毒才得以問世。這個名為“Creeper”的病毒是第一個傳播和自我複製的計算機程式，後來被世界上第一個反病毒軟體“Reaper”刪除^[1]。這種計算機病毒被建立，而反病毒被編寫來對抗它的迴圈已經持續了 50 多年。

然而，隨著機器學習的最新發展，惡意軟體的分類和清除最終可能會實現完全自動化。大多數新的惡意軟體都是基於現有的惡意軟體構建的，而對其型別的分類往往是根除它的第一步。深度學習程式在識別任務中表現出非凡的效能，並且在第 9 屆新技術、移動性和安全會議上，一個用於分析影像的人工神經網路被證明具有“優於……最先進的效能”^[2]，因為它能夠識別惡意軟體。

如今的反病毒程式如何識別惡意軟體，以及它們有哪些缺陷？

反病毒程式通常使用幾種方法進行檢測，例如沙箱、啟發式檢測和即時檢測。沙箱在虛擬環境中執行程式並記錄程式的操作。如果程式被認定為非惡意，反病毒軟體會將其執行在你的真實計算機上。^[3] 雖然這種技術有效，但它速度慢且資源消耗大，因此許多使用者側的反病毒程式都沒有使用它。啟發式檢測，或稱“遺傳檢測”，是指透過檢查程式與現有病毒的相似性來識別病毒的過程。這種方法有效，但完全依賴於反病毒軟體使用的有限資料庫。即時檢測是在檔案下載或開啟時掃描檔案的過程。這是大多數反惡意軟體程式使用的方法。這種方法最大的問題是，如果病毒以前未知，反病毒程式不會標記它。

有哪些深度學習反病毒程式，它們是如何工作的？

淺層機器學習程式預測兩個變數之間的關係，並在許多網路安全程式中使用。然而，深度學習技術的最新進展使得神經網路超越了最優秀的淺層學習演算法。在第 9 屆新技術、移動性和安全會議上，一個用於分析影像的人工神經網路被證明超越了微軟惡意軟體分類挑戰賽的獲勝者^[2]。這個系統將檔案轉換為二進位制，然後將二進位制轉換為灰度影像，然後神經網路掃描它以查詢與其他惡意軟體的相似之處。該系統在超過 10,000 個惡意軟體樣本的資料集中獲得了 99.97% 的成功率。該方法中使用的神經網路模型是卷積神經網路，它基於動物的視覺皮層。

另一個名為 FO-SAIR（Factional-Order Susceptible-Antidote-Infected-Removed）框架的神經網路程式在清除病毒方面取得了巨大成功。該程式以有機疾病治療為模型，是 SIR（Susceptible-Infected-Removed）框架的修改版本。FO-SAIR 透過隨機最佳化進行檢驗，隨機最佳化是一種生成隨機變數來模擬實際系統的過程。該程式是成本效益最高的反病毒方法之一，因為它以病毒傳播速度為依據建立“解藥”，並在“解藥”不再需要時將其刪除。^[4] 儘管這些程式功能強大，但它們受到龐大儲存需求以及訓練時間長的限制。雖然有效，但這使得它們對於普通消費者來說不是一個合理的選擇。

駭客不會也使用深度學習嗎？

隨著技術變得越來越普及，惡意軟體的數量和質量都呈爆炸式增長。澳大利亞計算機應急響應小組前總經理格雷厄姆·英格拉姆表示，“我們正在獲得質量堪比軟體工程師的程式碼”，^[5] 他指的是新一代惡意軟體作者的技能。然而，有幾個關鍵因素使得深度學習更適合反病毒軟體而不是惡意軟體。深度學習需要大量的計算能力和海量資料集，這使得許多人無法使用它。對於惡意軟體作者來說尤其如此，因為反病毒軟體的大型資料集比病毒的大型資料集更難找到，這意味著訓練病毒以攻擊反病毒軟體比訓練反病毒軟體以識別病毒更困難。此外，據 MathWorks 稱，深度學習用於“直接從影像、文字或聲音中執行分類任務”，這對於識別惡意軟體很有用，但對於隱藏惡意軟體則無用。雖然惡意軟體作者和反病毒軟體作者都會使用深度學習，但就其本質而言，深度學習更適合反病毒軟體而不是惡意軟體。

結論

多年來，機器學習取得了快速發展，並對許多領域產生了影響，包括與技術直接相關的領域和非技術領域。隨著這項技術的不斷改進，它將越來越頻繁地被使用。在網路安全領域尤其如此，深度學習程式展現出極高的成功率，尤其是與大多數現代反病毒程式相比。隨著機器學習變得更加先進，它將成為網路安全領域的領先方法，因為它在惡意軟體分類方面速度快、準確率高。

討論問題

你認為深度學習程式將來會完全取代傳統反病毒軟體嗎？為什麼或為什麼不？目前還存在哪些挑戰？
深度學習的進步可能會如何影響惡意軟體建立者和網路安全專家之間的“軍備競賽”？哪一方會佔據上風？
用於網路安全的機器學習演算法是否應該開源？在這種情況下，圍繞透明度和審查的倫理影響是什麼？
除了分析惡意軟體之外，深度學習還有哪些應用有望改善網路安全？例如，它可以檢測入侵或被盜賬戶嗎？
你認為在法律和政治上是否正在採取足夠的措施來應對人工智慧驅動的網路攻擊或網路戰等新興技術？哪些政策或法規可以幫助解決這些威脅？

參考文獻

↑ Chen, Thomas, and Jean-Marc, Robert (2004). "病毒和蠕蟲的演變" web.archive.org. 2019 年 7 月 31 日檢索。
↑ ^a ^b Kalash, Mahmoud 等人。“使用深度卷積神經網路進行惡意軟體分類。” IEEE.org 2018 年第 9 屆國際資訊處理聯合會新技術、移動性和安全會議。 2018
↑ “沙箱保護終端 | 領先於零日威脅” comodo.com (2014 年 6 月 20 日)
↑ Noinang, Sakda 等人。“使用神經網路對非線性分數階 SIR 微分系統中新型反病毒子類別進行數值評估” IEEE Access 第 10 卷 (2022)
↑ Kotadia, Munir. "為什麼流行的反病毒應用程式“不起作用”"。 zdnet.com (2006 年 7 月)

[1] Chen, Thomas, and Jean-Marc, Robert (2004). "病毒和蠕蟲的演變" web.archive.org. 2019 年 7 月 31 日檢索。

[:0-2] Kalash, Mahmoud 等人。“使用深度卷積神經網路進行惡意軟體分類。” IEEE.org 2018 年第 9 屆國際資訊處理聯合會新技術、移動性和安全會議。 2018

[3] “沙箱保護終端 | 領先於零日威脅” comodo.com (2014 年 6 月 20 日)

[4] Noinang, Sakda 等人。“使用神經網路對非線性分數階 SIR 微分系統中新型反病毒子類別進行數值評估” IEEE Access 第 10 卷 (2022)

[5] Kotadia, Munir. "為什麼流行的反病毒應用程式“不起作用”"。 zdnet.com (2006 年 7 月)

[1]

[2]

[3]

[4]

[5]