亚洲自国产拍揄拍,国产一区二区三区在线播放

Achronix新品發(fā)布會：為最佳人工智能

來源：通信產(chǎn)業(yè)網(wǎng) 　2018-12-03 17:23:13

隨著大數(shù)據(jù)、人工智能、物聯(lián)網(wǎng)、5G等新興技術(shù)的快速發(fā)展，這都為FPGA的提供了新的發(fā)展機遇，11月27日，Achronix Speedcore7t新品發(fā)布會在北京舉行，Achronix市場營銷副總裁Steve Mensor為我們介紹了全新一代7nm eFPGA IP產(chǎn)品及解決方案。

據(jù)了解，Achronix是一家私有的、采用無晶圓廠模式的半導(dǎo)體公司，于2004年成立，總部位于美國加利福尼亞州圣克拉拉市，公司開發(fā)自己的FPGA技術(shù)，該技術(shù)是Speedster22i FPGA及Speedcore eFPGA技術(shù)的基礎(chǔ)，Achronix的所有FPGA產(chǎn)品均由其ACE設(shè)計工具提供支持，該工具還集成了對Synopsys Synplify Pro工具的支持。

據(jù)Steve Mensor介紹，Achronix長期以來在可編程邏輯領(lǐng)域總是不斷創(chuàng)新，這也能在用于人工智能、機器學(xué)習(xí)和網(wǎng)絡(luò)硬件加速應(yīng)用的第四代Speedcore eFPGA IP中得到體現(xiàn)，為業(yè)界樹立了領(lǐng)先性能、功耗和成本的標準，Speedcore嵌入式FPGA IP成為業(yè)界唯一經(jīng)過流片驗證過的嵌入式FPGA技術(shù)。

FPGA的開發(fā)相對于傳統(tǒng)PC、單片機的開發(fā)有很大不同。FPGA以并行運算為主，以硬件描述語言來實現(xiàn);相比于PC或單片機(無論是馮諾依曼結(jié)構(gòu)還是哈佛結(jié)構(gòu))的順序操作有很大區(qū)別，也造成了FPGA開發(fā)入門較難，F(xiàn)PGA開發(fā)需要從頂層設(shè)計、模塊分層、邏輯實現(xiàn)、軟硬件調(diào)試等多方面著手。

Steve Mensor認為，如今的摩爾定律正在持續(xù)放緩，通信網(wǎng)絡(luò)帶寬在急劇增加，物聯(lián)網(wǎng)時代意味著每秒將有數(shù)萬以次的計算，這無疑對現(xiàn)階段處理器的性能提出了全新的門檻，對此需要針對特定應(yīng)用的數(shù)據(jù)集和架構(gòu)。

Steve Mensor表示，在Speedcore Gen4架構(gòu)中，Achronix將機器學(xué)習(xí)處理器(MLP)添加到Speedcore可提供的資源邏輯庫單元模塊中。MLP模塊是一種高度靈活的計算引擎，它與存儲器緊密耦合，從而為人工智能和機器學(xué)習(xí)(AI / ML)應(yīng)用提供了性能/功耗比最高和成本最低的解決方案。

據(jù)Steve Mensor介紹，F(xiàn)PGA最適合AI/ML多元應(yīng)用場景，因為ASIC在應(yīng)用上不具備靈活性，GPU更適合云端計算，而FPGA則最適合在邊緣計算。

此外，Steve Mensor表示，工藝也是決定算力不可或缺的因素之一。先進的制程工藝可以讓芯片性能得到提高，并且功耗會降低，目前市面FPGA芯片基本都是基于20nm和28nm的工藝，無法滿足未來對于算法的要求，Achronix公司的FPGA硬件加速器器件和高性能嵌入式FPGA半導(dǎo)體知識產(chǎn)權(quán)一直以來都走在FPGA工藝技術(shù)的前列，Steve Mensor還透露，Achronix將于2019年下半年提供用于臺積電16nm和12nm工藝節(jié)點的Speedcore Gen4 eFPGA IP。

據(jù)了解，此次Achronix推出的Speedcore Gen4將性能提高了60%、功耗降低了50%、芯片面積減少65%，同時保留了原有的Speedcore eFPGA IP的功能，即可將可編程硬件加速功能引入廣泛的計算、網(wǎng)絡(luò)和存儲應(yīng)用，實現(xiàn)接口協(xié)議橋接/轉(zhuǎn)換、算法加速和數(shù)據(jù)包處理。

Steve Mensor表示，Speedcore采用了一種模塊化的架構(gòu)，它可根據(jù)客戶的要求輕松配置其大小，Achronix使用其Speedcore Builder工具來即刻創(chuàng)建新的Speedcore實例，以便滿足客戶對其快速評估的要求。

除了在性能上的強悍表現(xiàn)，解決帶寬爆炸問題、最佳的人工智能/機器學(xué)習(xí)加速器、架構(gòu)性創(chuàng)新提高系統(tǒng)性能也是Speedcore Gen4的幾大亮點。

解決帶寬爆炸問題

固定和無線網(wǎng)絡(luò)帶寬的急劇增加，加上處理能力向邊緣等進行重新分配，以及數(shù)十億物聯(lián)網(wǎng)設(shè)備的出現(xiàn)，將給傳統(tǒng)網(wǎng)絡(luò)和計算基礎(chǔ)設(shè)施帶來壓力。這種新的處理范式意味著每秒將有數(shù)十億到數(shù)萬億次的運算。傳統(tǒng)云和企業(yè)數(shù)據(jù)中心計算資源和通信基礎(chǔ)設(shè)施無法跟上數(shù)據(jù)速率的指數(shù)級增長、快速變化的安全協(xié)議、以及許多新的網(wǎng)絡(luò)和連接要求。傳統(tǒng)的多核CPU和SoC無法在沒有輔助的情況下獨立滿足這些要求，因而它們需要硬件加速器，通常是可重新編程的硬件加速器，用來預(yù)處理和卸載計算，以便提高系統(tǒng)的整體計算性能。經(jīng)過優(yōu)化后的Speedcore Gen4 eFPGA已經(jīng)可以滿足這些應(yīng)用需求。

最佳的人工智能/機器學(xué)習(xí)加速器

除了計算和網(wǎng)絡(luò)基礎(chǔ)設(shè)施的通用要求之外，人工智能/機器學(xué)習(xí)還對高密度和針對性計算產(chǎn)生了顯著增加的需求。與以前的Achronix FPGA產(chǎn)品相比，新的Achronix機器學(xué)習(xí)處理器(MLP)利用了人工智能/機器學(xué)習(xí)處理的特定屬性，并將這些應(yīng)用的性能提高了300%。這是通過多種架構(gòu)性創(chuàng)新來實現(xiàn)的，這些創(chuàng)新可以同時提高每個時鐘周期的性能和操作次數(shù)。

新的Achronix機器學(xué)習(xí)處理器(MLP)是一個完整的人工智能/機器學(xué)習(xí)計算引擎，支持定點和多個浮點數(shù)格式和精度。每個機器學(xué)習(xí)處理器包括一個循環(huán)寄存器文件(Cyclical Register File)，它用來存儲重用的權(quán)重或數(shù)據(jù)。各個機器學(xué)習(xí)處理器與相鄰的機器學(xué)習(xí)處理器單元模塊和更大的存儲單元模塊緊密耦合，以提供最高的處理性能、每秒最高的操作次數(shù)和最低的功率分集。這些機器學(xué)習(xí)處理器支持各種定點和浮點格式，包括Bfloat16、16位、半精度、24位和單元塊浮點。

用戶可以通過為其應(yīng)用選擇最佳精度來實現(xiàn)精度和性能的均衡。

為了補充機器學(xué)習(xí)處理器并提高人工智能/機器學(xué)習(xí)的計算密度，Speedcore Gen4查找表(LUT)可以實現(xiàn)比任何獨立FPGA芯片產(chǎn)品高出兩倍的乘法器。領(lǐng)先的獨立FPGA芯片在21個查找表可以中實現(xiàn)6x6乘法器，而Speedcore Gen4僅需在11個LUT中就可實現(xiàn)相同的功能，并可在1 GHz的速率上工作。

架構(gòu)性創(chuàng)新提高系統(tǒng)性能

與上一代Speedcore產(chǎn)品相比，新的Speedcore Gen4架構(gòu)實現(xiàn)了多項創(chuàng)新，從而可將系統(tǒng)整體性能提高60%。其中查找表的所有方面都得到了增強，以支持使用最少的資源來實現(xiàn)各種功能，從而可縮減面積和功耗并提高性能。其中的更改包括將ALU的大小加倍、將每個LUT的寄存器數(shù)量加倍、支持7位函數(shù)和一些8位函數(shù)、以及為移位寄存器提供的專用高速連接。

其中的路由架構(gòu)也借由一種獨立的專用總線路由結(jié)構(gòu)得到了增強。此外，在該路由結(jié)構(gòu)中還有專用的總線多路復(fù)用器，可有效地創(chuàng)建分布式的、運行時可配置的交換網(wǎng)絡(luò)。這為高帶寬和低延遲應(yīng)用提供了最佳的解決方案，并在業(yè)界首次實現(xiàn)了將網(wǎng)絡(luò)優(yōu)化應(yīng)用于FPGA互連。

標簽： Achronix 人工智能

推薦DIY文章