FPGA 2017最佳论文出炉:深鉴科技ESE语音识别引擎获奖(附解读)

2024-06-16 14:15:00
aiadmin
原创
538

FPGA 芯片规模顶级聚会 FPGA 2017 于 2 月 24 日正在加州 Monterey 收场。正在本次大会上,斯坦福大学正在读 PhD、深鉴科技纠合创始人韩松等作家的论文 ESE: Efficient Speech Recognition Engine with Sparse LSTM on FPGA 取得了大会最佳论文奖。得知此信息后,机械之心对深鉴科技科技创始人兼 CEO 姚颂与纠合创始人韩松(本论文的第一作家)举办了相合,他们对该作品举办了工夫解读。可点击阅读原文下载此论文。

图1:韩松提出的深度练习摆设计划。跟古板的「训完即用」的计划比拟,「锻练后颠末压缩再用硬件加快推理」的计划,可能使得推理更速、能耗更低。

LSTM 全称为 Long-Short Term Memory,正在语音识别、机械翻译、Image Captioning中有较众的利用。看待语音识别而言,LSTM 是个中最主要一环,也是估计打算耗时最众的一环,平凡占到通盘语音识别流程年光的 90% 以上。

Deep Compression 算法可能将 LSTM 压缩 20 倍以上。但正在以往的纯算法压缩上,并没有商量众核并行时的负载平衡,如此正在实质运转时,实质的运转机能被负载最大的核所限度。本文提出了一种新的 Load Balance Aware Pruning,正在寥落化时保障剪枝后分拨到每个核的估计打算量相似,从而进一步加快的估计打算。

勾结新的模子压缩算法以及 ESE 专用途理架构,正在一个可实质运用的 LSTM 模子上测试,无别景况下,深鉴基于中等 FPGA 平台的耗时为 82.7us,功耗为 41W;而 Pascal Titan X GPU 则须要 287.4us 的运转年光,而且耗能 135W。这也再次声明了寥落化门途的影响:正在价钱、资源所有弱于 GPU 的专用硬件上,通过算法与硬件的协同优化,简直可能博得更好的深度练习运算技能。

深鉴科技建立于 2016 年 3 月,创始成员来自清华大学和斯坦福大学,公司竭力于勾结深度压缩与深度练习专用途理架构,供应更高效与便捷的深度练习平台。

公司聚焦于寥落化神经收集管制得工夫门途,提出的 Deep Compression 算法可能将模子尺寸压缩数十倍巨细而不亏损预测精度,并勾结专用的深度练习管制架构来杀青加快。而 ICLR 2016 和 FPGA 2017 两篇最佳论文的获奖,也说明深鉴科技所聚焦的寥落化门途越来越取得深度练习界的眷注。

摘要:是非期印象收集(LSTM)被广博用于语音识别规模。为杀青更高的预测精度,机械练习斟酌者们构修了越来越大的模子。然而如此的模子异常损耗估计打算和存储资源。摆设此类笨重的模子会带数据中央来很高的功耗,从而带来很高的总具有本钱(TCO)。为了增长预测速率,普及能源成果,咱们初度提出了一种可能正在简直没有预测精度亏损的景况下将 LSTM 模子的尺寸压缩 20 倍(10 倍来自剪枝和 2 倍来自量化)的负载平均感知剪枝(load-balance-aware pruning)门径。这种剪枝后的模子对并行估计打算很友情。此外,咱们提出了可能对压缩模子举办编码和瓜分成 PE 以举办并行化的调整器(scheduler),并编排了其庞杂的 LSTM 数据流。结果,咱们计划了一种可能直接正在这种压缩模子上使命的硬件框架——Efficient Speech Recognition Engine (ESE)。该框架运用了运转频率为 200 MHz 的 Xilinx XCKU060 FPGA,具有以 282 GOPS 的速率直接运转压缩 LSTM 收集的机能,相当于正在未压缩 LSTM 收集上 2.52 TOPS 的速率;其余,该框架推广一个用于语音识别工作的全 LSTM 仅需 41 W 功耗。正在基于 LSTM 的语音基准测试中,ESE 的速率为英特尔 Core i7 5930k CPU 的 43 倍,英伟达 Pascal Titan X GPU 的 3 倍。它的能量成果区分为以上两种管制器的 40 倍和 11.5 倍。返回搜狐,查看更众

联系我们
联系人: 王先生
电话: 15640228768
微信: 1735252255
地址: 沈阳市铁西区兴华南街58-6号