ai|計算能力的突破,使系統能夠在較短時間內計算復雜的機器學習算法

ai|計算能力的突破,使系統能夠在較短時間內計算復雜的機器學習算法

文章圖片

ai|計算能力的突破,使系統能夠在較短時間內計算復雜的機器學習算法

文章圖片

ai|計算能力的突破,使系統能夠在較短時間內計算復雜的機器學習算法

文章圖片


機器學習目前廣泛應用于現代人工智能應用 。 計算能力的突破 , 使系統能夠在較短時間內計算復雜的機器學習算法 。 在所有這些應用中 , 高檢測精度需要復雜的機器學習計算 , 其代價是計算復雜度高 。 這就對硬件平臺提出了很高的要求 。 目前 , 大多數應用程序都是在通用計算引擎上實現的 , 尤其是圖形處理單元 。



然而 , 最近工業界和學術界的正在為機器學習設計專用集成電路的趨勢 , 尤其是在深度神經網絡領域 。 在過去的幾十年中 , 圖形處理單元在面部、對象識別、數據挖掘和其他人工智能應用程序訓練深度學習算法或卷積神經網絡方面已經變得流行和標準 。 處理單元提供廣泛的硬件選擇、高性能的吞吐量以及穩定但不斷擴展的生態系統 。 處理單元架構通常使用幾個迷你圖形處理器來實現 , 每個圖形處理器都有自己的計算單元和適合矩陣乘法的本地緩存 。



多個微型處理器中包含共享高速總線 , 以實現微型處理器之間的快速數據交換 。 此外 , 它還充當連接主CPU和多個迷你圖形處理器的橋梁 。 由于大量并行處理內核 , 處理單元提供了顯著的計算速度 。 然而 , 計算和數據移動也需要相對較大的功耗 。 此外 , 需要高速互連接口來支持快速數據交換 。 因此 , 與其他技術相比 , 處理單元以高設計成本和功耗為代價提供了強大的計算能力 。



隨著行業的成熟 , 可編程門陣列現在開始成為處理單元實施基于卷積神經網絡的深度學習算法的可靠競爭對手 。 微軟研究的彈射項目在業界引起了相當多的關注 , 因為它聲稱使用可編程門陣列的能效比處理單元高10倍 。 盡管單個可編程門陣列的性能遠低于同等價格的處理單元 , 但功耗低得多的事實可能對許多高性能可能不是首要任務的應用產生重大影響 。
【ai|計算能力的突破,使系統能夠在較短時間內計算復雜的機器學習算法】


DRAM充當存儲臨時數據的大緩沖區 , 而CPU負責管理計算 , 包括向可編程門陣列發送指令 , 對可編程門陣列進行編程以適應機器學習算法 。 由于機器學習算法通過編程在硬件層面進行了優化 , 因此與常規處理單元計算相比 , 對相應機器學習算法沒有任何硬件優化 , 數據訪問效率更高 。 可編程門陣列雖然在硬件設計上通過優化機器學習算法降低了計算功耗 , 但總體效率與單一算法的集成電路相比仍然低很多 。



與集成電路相比 , 可編程門陣列引入的可編程性也帶來了復雜的邏輯 , 增加了硬件設計成本 。 在數據中心 , 硬件加速器解決方案以處理單元和可編程門陣列解決方案為主 。 最先進的機器學習計算主要依賴于云服務器 。 然而 , 高功耗使得這種方法在許多實際應用場景中受到限制 。 由于便攜式設備上基于云的人工智能應用程序需要網絡連接能力 , 網絡連接的質量會影響用戶體驗 。



此外 , 實時人工智能應用程序無法接受網絡和通信延遲 。 此外 , 大多數物聯網人工智能應用都有嚴格的功耗和成本約束 , 既不能支持大功率處理單元 , 也不能將大量數據傳輸到云服務器 。 為了解決上述問題 , 科研人員引入了幾種基于邊緣的AI處理方案 , 旨在利用邊緣側的本地化數據 , 避免網絡通信開銷 。 目前 , 大多數本地化的人工智能處理器都專注于處理卷積神經網絡 , 它被廣泛用于計算視覺算法 , 需要大量的計算資源 。

相關經驗推薦