3 月 26 日消息,據 Neowin 報道,許多組織都利用云來滿足他們在存儲和人工智能解決方案方面的數據相關需求。為了確保敏感數據的隱私和安全,必須使用加密計算。這基本上是一套硬件和軟件的控制,管理數據如何被共享和使用,以及數據所有者如何驗證這些過程。
英特爾和 AMD 的 CPU 已經能夠創建可信的執行環境(TEEs),在 CPU 層面為加密計算提供支持。TEEs 確保數據在靜止狀態、傳輸過程中,甚至在使用過程中都保持加密。它還提供遠程驗證,以驗證硬件的配置,并只對所需的算法授予數據訪問權。微軟在 Azure 上的加密計算解決方案也利用同樣的原則。
然而,現有的解決方案與內置在 CPU 中的 TEE 聯系在一起,所以微軟現在希望將這一邊界也擴展到 GPU,確保數據可以安全地轉移到更強大的硬件上以滿足計算需求。當涉及到組織的人工智能工作負載時,這就顯得更加重要,微軟正在與英偉達在這方面進行合作。
微軟已經指出,這不是一個簡單的實現,因為它需要保護 GPU 免受各種攻擊,同時確保 Azure 主機對管理活動有足夠的控制。即使在硬件層面,該實施方案也不能對熱能和性能產生負面影響,而且理想情況下,也不需要改變現有的 GPU 微架構。該公司的愿景包括加密 GPU 的以下功能:
一種新的模式,GPU 上的所有敏感狀態,包括 GPU 內存,都與主機隔離。
在 GPU 芯片上有硬件信任根,可以生成可驗證的證明,捕獲 GPU 的所有安全敏感狀態,包括所有固件和微代碼。
對 GPU 驅動程序進行擴展,以驗證 GPU 的證明,建立與 GPU 的安全通信通道,并透明地加密 CPU 和 GPU 之間的所有通信。
硬件支持通過 NVLink 透明地加密所有 GPU-GPU 通信。
在客戶操作系統和管理程序中支持將 GPU 安全地連接到 CPU TEE,即使 CPU TEE 的內容是加密的。
微軟表示,已經在 Azure 上的 Nvidia A100 Tensor Core GPU 中建立了加密計算能力。這通過安培保護內存(APM)新功能完成。實施細節在本質上是高度技術性的。
這個解決方案現在可以通過 Azure Confidential GPU VMs 進行私密預覽。企業目前可以使用最多 4 個 Nvidia A100 Tensor Core GPU 的虛擬機,用于他們的 Azure 工作負載。微軟的下一步包括確保更廣泛地采用這些做法,并與 Nvidia 合作,在其 Hopper 架構上進一步加強現有的實施。