
即使在移動(dòng)AI時(shí)代,軟件仍將主導(dǎo)世界
- 2020-05-22 15:55:00
- u9752u5c9bu65b0u6bd4u7279u7535u5b50 轉(zhuǎn)貼
- 2042
人們已經(jīng)達(dá)成了某種共識(shí):那些在邊緣設(shè)備(edge device)與物聯(lián)網(wǎng)設(shè)備(IoT device)上實(shí)現(xiàn)了真正的智能的公司將定義計(jì)算的未來(lái)。為了實(shí)現(xiàn)這一目標(biāo),無(wú)論是谷歌,微軟,亞馬遜,蘋(píng)果和 Facebook 等大型技術(shù)公司,還是初創(chuàng)公司,每年在研發(fā)上的投入都高達(dá)數(shù)百億美元。工業(yè)界主要致力于開(kāi)發(fā)用于機(jī)器學(xué)習(xí)和推理的專(zhuān)用硬件加速器,這么做的原因是他們認(rèn)為硬件因素是實(shí)現(xiàn)真正的移動(dòng)智能的主要限制因素。為此,工業(yè)界已經(jīng)花費(fèi)了數(shù)十億美元來(lái)推動(dòng)這種智能硬件競(jìng)賽。
我們對(duì)這種做法有所疑問(wèn),并堅(jiān)信即使在移動(dòng) AI 時(shí)代,軟件仍將主導(dǎo)業(yè)界。我們的中心論點(diǎn)是,深度學(xué)習(xí)應(yīng)用程序的軟件優(yōu)化潛力仍未得到充分開(kāi)發(fā)。一旦完成了正確的軟件優(yōu)化,我們就可以立即在數(shù)十億個(gè)現(xiàn)有移動(dòng)設(shè)備上啟用實(shí)時(shí)深度學(xué)習(xí),從而釋放一個(gè)萬(wàn)億美元的市場(chǎng)。
在本文的其余部分,我們回顧了 AI 硬件的概況,不同的軟件優(yōu)化方法,并深入研究了我們認(rèn)為最有希望的方法,即“壓縮 - 編譯”(compression-compilation)聯(lián)合設(shè)計(jì)方法。我們得出的結(jié)論是,即使在移動(dòng) AI 時(shí)代,軟件仍在占有并將持續(xù)占有整個(gè)業(yè)界,并且通過(guò)純軟件壓縮編譯協(xié)同設(shè)計(jì)在數(shù)十億個(gè)現(xiàn)有移動(dòng)設(shè)備和數(shù)萬(wàn)億個(gè)新興的物聯(lián)網(wǎng)設(shè)備上啟用實(shí)時(shí) AI 應(yīng)用程序是最切實(shí)可行的方法。
AI 硬件的格局
工業(yè)界主要致力于開(kāi)發(fā)用于機(jī)器學(xué)習(xí)和推理的專(zhuān)用硬件加速器,這么做的原因是他們認(rèn)為硬件因素是實(shí)現(xiàn)真正的移動(dòng)智能的主要限制因素。
芯片制造商英特爾與包括 NVIDIA,AMD 在內(nèi)的競(jìng)爭(zhēng)對(duì)手以及一些采用 ARM 技術(shù)的競(jìng)爭(zhēng)對(duì)手之間的激烈競(jìng)爭(zhēng)已經(jīng)使芯片進(jìn)入 AI 計(jì)算市場(chǎng)。如今,在美國(guó),歐洲和亞洲,有 100 多家 AI 芯片初創(chuàng)公司,從重塑可編程邏輯和多核設(shè)計(jì)(programmable logic and multi-core designs)的公司,到開(kāi)發(fā)自己的全新架構(gòu)的公司,再到使用神經(jīng)形態(tài)架構(gòu)(neuromorphic architectures)等未來(lái)技術(shù)的公司。數(shù)百億美元的風(fēng)險(xiǎn)資金已經(jīng)投入到這個(gè)市場(chǎng)中,以支持這些創(chuàng)業(yè)公司,同時(shí)也加劇了主要芯片制造商之間的競(jìng)爭(zhēng),我們看到英特爾以極高昂的價(jià)格收購(gòu)了 MobilEye,Movidius 和 Altera,Xilinx 收購(gòu)了 DeePhi,谷歌開(kāi)發(fā)了 TPU,以及 NVIDIA 在自動(dòng)駕駛處理器方面的大量投資。盡管有大量投入,但到目前為止,輸出還是令人失望的,因?yàn)槲覀兩形纯吹竭吘?AI 加速器的任何大規(guī)模部署。這不禁使我們思考,專(zhuān)用硬件加速是正確的道路,還是軟件仍然主導(dǎo)移動(dòng) AI 時(shí)代?
經(jīng)過(guò)仔細(xì)研究,我們主張通過(guò)有效的壓縮 - 編譯(compression-compilation)協(xié)同設(shè)計(jì),在不使用特殊硬件加速器的情況下,在現(xiàn)有邊緣設(shè)備上實(shí)現(xiàn)實(shí)時(shí)人工智能(AI)是可行的。壓縮編譯協(xié)同設(shè)計(jì)的原理是以手拉手的方式對(duì)深度學(xué)習(xí)模型進(jìn)行壓縮及對(duì)壓縮后的模型可執(zhí)行文件的編譯。這種協(xié)同方法可以有效地優(yōu)化深度學(xué)習(xí)模型的大小和速度,還可以大大縮短壓縮過(guò)程的調(diào)整時(shí)間,從而極大地縮短了 AI 產(chǎn)品上市的時(shí)間。
當(dāng)我們將深度學(xué)習(xí)模型部署在主流邊緣設(shè)備上運(yùn)行時(shí),我們的設(shè)計(jì)能在大多數(shù) AI 應(yīng)用上實(shí)現(xiàn)實(shí)時(shí)性,而這些 AI 應(yīng)用原本被廣泛的認(rèn)為只有使用特殊的 AI 加速器才能到達(dá)實(shí)時(shí)運(yùn)行的效果。得益于主流處理器相對(duì)于特殊硬件的多重優(yōu)勢(shì),對(duì)于實(shí)時(shí) AI 的特殊硬件需求可能將會(huì)逐漸降低:
上市時(shí)間:特殊硬件通常需要數(shù)年才能上市。為新開(kāi)發(fā)的硬件加速器創(chuàng)建關(guān)聯(lián)的編譯器和系統(tǒng)軟件會(huì)進(jìn)一步延長(zhǎng)該過(guò)程。使用此類(lèi)硬件的應(yīng)用程序經(jīng)常需要使用特殊的 API 并滿(mǎn)足許多特殊的約束(例如,將計(jì)算限制到特定大?。?,這會(huì)延長(zhǎng) AI 產(chǎn)品的上市時(shí)間。
成本:開(kāi)發(fā)專(zhuān)用的 ASIC 處理器非常昂貴,將它們添加到現(xiàn)有系統(tǒng)中會(huì)產(chǎn)生額外的費(fèi)用。
技術(shù)成熟度:與通用處理器不同,專(zhuān)用硬件的生產(chǎn)量要小得多;因此,其生產(chǎn)可用的技術(shù)通常比通用處理器落后幾代。例如,大多數(shù) AI 加速器都基于 28 至 65nm CMOS 技術(shù),其晶體管密度比最新的移動(dòng) CPU 或 GPU 低 10 倍以上。
速度:由于采用了舊技術(shù),專(zhuān)用處理器的運(yùn)行速度比通用處理器要慢得多。
生態(tài)系統(tǒng):通用處理器具有完善的生態(tài)系統(tǒng)(調(diào)試工具,優(yōu)化工具,安全措施),這使得高質(zhì)量應(yīng)用程序的開(kāi)發(fā)比使用特殊處理器要容易得多。
使用:由于上述所有原因,使用特殊處理器通常僅限于創(chuàng)建該處理器的公司及其很少的密切客戶(hù)。結(jié)果,為特殊處理器開(kāi)發(fā)的 AI 應(yīng)用程序僅可以被有限數(shù)量的設(shè)備所采用。
壓縮編譯協(xié)同設(shè)計(jì)軟件算法方案
在本節(jié)中,我們介紹了壓縮編譯協(xié)同設(shè)計(jì)軟件算法方案的細(xì)節(jié),我們相信這將完全改變 AI 邊緣計(jì)算的格局。壓縮和編譯是在硬件上擬合深度學(xué)習(xí)模型以實(shí)現(xiàn)有效執(zhí)行的兩個(gè)關(guān)鍵步驟。模型壓縮是減少深度學(xué)習(xí)模型的大小并提高其速度的常用技術(shù)。壓縮技術(shù)分為兩類(lèi),剪枝(pruning)和量化(quantization)。剪枝會(huì)刪除層或?qū)又械妮敵觯╢ilter)或輸入(channel)通道,而量化會(huì)降低參數(shù)的精度(例如,浮點(diǎn)數(shù)到短整數(shù))。編譯是指從給定的深度學(xué)習(xí)模型生成可執(zhí)行代碼的過(guò)程。本質(zhì)上,編譯是將深度學(xué)習(xí)中的高級(jí)操作映射到基礎(chǔ)硬件支持的低級(jí)指令的過(guò)程。編譯過(guò)程在優(yōu)化代碼以有效執(zhí)行中起著關(guān)鍵作用。
壓縮編譯協(xié)同設(shè)計(jì)的原理是同時(shí)完成壓縮與編譯兩個(gè)組件的設(shè)計(jì),并且此協(xié)同作用體現(xiàn)在三個(gè)層次上。
需求 / 偏好級(jí)別:在此級(jí)別上,協(xié)同作用是在設(shè)計(jì)另一個(gè)組件時(shí)考慮一個(gè)組件的偏好或需求。一個(gè)例子是,主流處理器通常更喜歡具有某些計(jì)算模式(pattern)的代碼。如果模型壓縮步驟可以考慮該首選項(xiàng),則可以創(chuàng)建一個(gè)更可修改的方案,以使得編譯步驟有效地工作。
視角 / 內(nèi)涵級(jí)別:在此級(jí)別上,協(xié)同作用是在處理其中一個(gè)組件的問(wèn)題時(shí)采取另一個(gè)組件對(duì)該問(wèn)題的視角或內(nèi)涵。一個(gè)例子就是可組合性或模塊化原則,這個(gè)原則在保持編程系統(tǒng)和編譯高效且可擴(kuò)展方面一直發(fā)揮著至關(guān)重要的作用。
方法論級(jí)別:在此級(jí)別上,協(xié)同作用是將兩個(gè)組件的方法論緊密集成在一起。例如,通過(guò)自動(dòng)生成代碼以啟用新的深度學(xué)習(xí)剪枝方案的編譯器框架,我們可以產(chǎn)生高達(dá) 180 倍的加速。
具體來(lái)說(shuō),我們?cè)谏蠄D中提供了壓縮編譯協(xié)同設(shè)計(jì)架構(gòu),該架構(gòu)包含以下組件:

模式化(pattern)的訓(xùn)練階段可以執(zhí)行有效的卷積核模式剪枝(kernel pattern pruning)和連通性剪枝(connectivity pruning),以便在不損失準(zhǔn)確性的情況下實(shí)現(xiàn)最高的剪枝(加速)倍率。首先,我們?cè)O(shè)計(jì)了一套卷積核模式(kernel pattern)來(lái)為每個(gè)內(nèi)核選擇。然后,我們使用擴(kuò)展的基于 ADMM(交替方向乘子算法)的算法,根據(jù)設(shè)計(jì)的卷積核模式集和連通性剪枝方案執(zhí)行模式化剪枝。
細(xì)粒度的 DNN 分層表示(LR)提供了高級(jí)別的表示方法,使我們能夠從各種資源對(duì) DNN 模型進(jìn)行常規(guī)優(yōu)化。特別地,LR 包括模式(pattern)和調(diào)諧(tuning)相關(guān)信息。編譯器的優(yōu)化依賴(lài)于 LR 的一系列改進(jìn),以生成緊湊模型和優(yōu)化過(guò)的執(zhí)行代碼。
卷積核與輸出通道重排(filter kernel reorder)通過(guò)將具有相同長(zhǎng)度和模式的卷積核組合在一起,解決了模式化剪枝帶來(lái)的兩個(gè)挑戰(zhàn),即密集的控制流指令以及線程分散(thread divergence)和負(fù)載不均衡(load imbalance)。由于卷積核模式數(shù)量相對(duì)有限,可以通過(guò)適當(dāng)?shù)木矸e核內(nèi)核重新排序?qū)⒕哂邢嗨颇J降膬?nèi)核進(jìn)行編組,從而顯著減少控制流指令并提高指令級(jí)并行度。此外,如果不同的線程處理不同的輸出通道,則由于每個(gè)輸出通道中的內(nèi)核具有相似的計(jì)算工作量,因此可以正確解決線程分散和負(fù)載不均衡的問(wèn)題,從而增強(qiáng)了線程級(jí)并行度。
壓縮權(quán)重存儲(chǔ)(compressed weight storage)格式是專(zhuān)門(mén)為我們的卷積核模式和連通性剪枝設(shè)計(jì)的。與卷積核與輸出通道重排結(jié)合后,這種緊湊的數(shù)據(jù)結(jié)構(gòu)比傳統(tǒng)的 CSR(壓縮稀疏行)格式能夠產(chǎn)生更好的壓縮率。
消除負(fù)載冗余(load redundancy elimination)通過(guò)在內(nèi)核執(zhí)行代碼生成過(guò)程中通過(guò)分析處理兩個(gè)寄存器級(jí)負(fù)載冗余問(wèn)題,解決了基于卷積核模式化剪枝對(duì)內(nèi)存性能的挑戰(zhàn)。在內(nèi)存和緩存之間的數(shù)據(jù)移動(dòng)已通過(guò)高級(jí)數(shù)據(jù)平鋪技術(shù)進(jìn)行了優(yōu)化的前提下,我們的負(fù)載冗余消除有著更加重要的意義。
參數(shù)自動(dòng)調(diào)整(parameter auto-tuning)專(zhuān)門(mén)測(cè)試關(guān)鍵性能參數(shù)的不同配置,包括將數(shù)據(jù)放置在各種 GPU/CPU 存儲(chǔ)器上,不同的數(shù)據(jù)平鋪大小以及每個(gè)處理單元上每個(gè) DNN 層的循環(huán)置換的策略。
總而言之,壓縮編譯協(xié)同設(shè)計(jì)方法允許編譯器將剪枝后的內(nèi)核視為特殊模式,不僅可以實(shí)現(xiàn)模型的高精度與高壓縮率,還可以有效地將卷積核模式轉(zhuǎn)換為硬件上的性能提升。
性能對(duì)比:軟件與硬件
為了驗(yàn)證我們的中心論點(diǎn),即軟件仍然主導(dǎo) AI 時(shí)代,我們需要回答的關(guān)鍵問(wèn)題是,在現(xiàn)有的設(shè)備上,“壓縮 - 編譯”聯(lián)合設(shè)計(jì)方法是否優(yōu)于專(zhuān)用的硬件加速器。我們?cè)谌?Galaxy S10 智能手機(jī)上部署了 “壓縮 - 編譯” 聯(lián)合設(shè)計(jì)的框架,并將其性能與在 ASIC 和 FPGA 上實(shí)現(xiàn)的硬件加速器進(jìn)行了比較。

結(jié)果總結(jié)在上圖中:首先,使用專(zhuān)用 ASIC 硬件(包括 Google 的云 TPU-V2 和 Edge TPU,NVIDIA Jetson AGX Xavier,Cambricon MLU-100,Eyeriss 等)上對(duì)性能和能效進(jìn)行比較的結(jié)果。與 DeePhi 的 FPGA 解決方案 ESE 在準(zhǔn)確性和能效上的比較結(jié)果。這是對(duì)相同網(wǎng)絡(luò)模型的公平比較,并且我們的解決方案未采用權(quán)重量化(quantization)。
我們可以清楚地看到,我們?cè)诂F(xiàn)有的移動(dòng)設(shè)備上的解決方案在能效方面始終優(yōu)于代表性的 ASIC / FPGA 解決方案。這種獨(dú)特的現(xiàn)象歸因于三個(gè)原因:
智能手機(jī)本身具有超高的能量效率。智能手機(jī)計(jì)算芯片是使用最先進(jìn)的技術(shù)(例如 7nm,11nm 技術(shù))構(gòu)建的,并且是技術(shù)進(jìn)步的關(guān)鍵驅(qū)動(dòng)力,而 FPGA / ASIC 解決方案則基于 28nm 或 40nm 技術(shù),而這些技術(shù)本身就不那么節(jié)能。同樣,ARM(用于移動(dòng) CPU)和高通(Qualcomm)(用于移動(dòng) GPU)尤其擅長(zhǎng)高效電路 / 系統(tǒng)設(shè)計(jì)。
雖然現(xiàn)有的移動(dòng)編譯器框架對(duì)不同神經(jīng)網(wǎng)絡(luò)的支持有限(例如,不支持 RNN 或大規(guī)模 DNN),但我們的編譯器可以支持所有主要類(lèi)型的神經(jīng)網(wǎng)絡(luò),從而釋放了移動(dòng)設(shè)備的全部潛力。
由于基于軟件的解決方案具有高度的靈活性,因此我們的方法在不同的 DNN 基準(zhǔn)上始終保持高性能。相反,可以清楚地看到,當(dāng)前的 ASIC / FPGA 解決方案針對(duì)特定的 DNN 類(lèi)型 / 大小進(jìn)行了優(yōu)化,因此缺乏通用性。具體而言,邊緣 TPU 針對(duì)小型 DNN 優(yōu)化,而 Cambricon MLU-100 針對(duì)大型 DNN 優(yōu)化。
壓縮編譯協(xié)同設(shè)計(jì)與其它軟件算法的性能對(duì)比
下一個(gè)問(wèn)題就是在相同的硬件條件下,我們的方法能否超出現(xiàn)有的其它軟件優(yōu)化算法,也即壓縮編譯協(xié)同設(shè)計(jì)方法是否具有顯著的優(yōu)越性。
我們?cè)谌?Galaxy S10 智能手機(jī)上測(cè)試評(píng)估我們的算法性能。S10 擁有最新的高通驍龍(Qualcomm Snapdragon)855 移動(dòng)平臺(tái),包含了高通 Kryo 485 8 核 CPU 和高通 Adreno 640 移動(dòng) GPU。
下圖顯示了在 CPU 和 GPU 上,我們的算法與 TFLite,TVM 以及 MNN 加速框架的性能對(duì)比。我們采用了 6 種代表性的 DNN 模型結(jié)構(gòu),包括 VGG-16 (VGG), ResNet-50 (RNT), and MobileNet-V2 (MBNT) ,在 CIFAR-10 和 ImageNet 這兩個(gè)數(shù)據(jù)集上做訓(xùn)練。結(jié)果顯示在所有的測(cè)試環(huán)境配置下,我們的壓縮編譯協(xié)同設(shè)計(jì)算法都超越了其它的加速框架。
在移動(dòng) CPU 上,我們的算法相較于 TFLite,實(shí)現(xiàn)了 12 倍到 44.5 倍的加速效果,相較于 TVM,實(shí)現(xiàn)了 2.3 倍至 8.1 倍的加速效果,相較于 MNN,實(shí)現(xiàn)了 1.9 倍至 15.5 倍的加速效果。在 GPU 上,相較于 TFLite,TVM 以及 MNN,分別實(shí)現(xiàn)了 2.5 倍至 20 倍,4.1 倍至 11.4 倍,以及 2.5 倍至 6.2 倍的加速效果。對(duì)于最大的 DNN 模型 VGG 以及最復(fù)雜的 ImageNet 數(shù)據(jù)集,我們的算法在移動(dòng) GPU 上只需要用 18.9 毫秒就能完成單一輸入圖片的所有卷積層的計(jì)算操作,滿(mǎn)足了實(shí)時(shí)性的要求(實(shí)時(shí)性通常要求實(shí)現(xiàn)每秒 30 幀,即每幀 33 毫秒)。

潛在應(yīng)用
最后但也是最重要的一個(gè)問(wèn)題就是在現(xiàn)有的移動(dòng)環(huán)境和設(shè)備下,我們的算法可以實(shí)現(xiàn)哪些應(yīng)用?這個(gè)問(wèn)題直接關(guān)聯(lián)到壓縮編譯協(xié)同設(shè)計(jì)方法的潛在的商業(yè)價(jià)值。
為了說(shuō)明這個(gè)問(wèn)題,我們研究了三種可能的 DNN 應(yīng)用,包括風(fēng)格遷移(style transfer),DNN 上色(coloring),以及超分辨率(提高分辨率,super resolution)。風(fēng)格遷移的模型是基于在微軟 COCO 數(shù)據(jù)集上訓(xùn)練的生成型網(wǎng)絡(luò),可以實(shí)現(xiàn)視頻流的實(shí)時(shí)風(fēng)格遷移效果。DNN 上色用 Places scene 數(shù)據(jù)集去訓(xùn)練一個(gè)可以同時(shí)抽取與融合全局和局部特征的模型,來(lái)實(shí)現(xiàn)將一個(gè)黑白視頻流實(shí)時(shí)地轉(zhuǎn)化為彩色視頻流的功能。超分辨率模型主要利用在 DIV2K 數(shù)據(jù)集上訓(xùn)練的具有更寬激活層與線性低秩卷積的差分模塊,實(shí)現(xiàn)將低分辨率的視頻流實(shí)時(shí)轉(zhuǎn)化為高分辨率的視頻流的效果。

正如圖中所演示的,利用結(jié)構(gòu)化剪枝以及編譯優(yōu)化,我們?cè)谌?Galaxy S10 智能手機(jī)上實(shí)現(xiàn)了這些應(yīng)用。對(duì)于風(fēng)格遷移,DNN 上色以及超分辨率,我們的算法可以分別獲得 4.2 倍,3.6 倍,以及 3.7 倍的推理加速。結(jié)果顯示,我們團(tuán)隊(duì)提出的壓縮編譯協(xié)同設(shè)計(jì)軟件算法方案可以在移動(dòng)平臺(tái)上實(shí)現(xiàn)令人滿(mǎn)意的高速實(shí)時(shí)效果。具體來(lái)說(shuō),所有的前向推理可以在 75 毫秒內(nèi)完成,使得在現(xiàn)有的沒(méi)有特殊硬件結(jié)構(gòu)的移動(dòng)設(shè)備上實(shí)時(shí)地運(yùn)行復(fù)雜的 DNN 應(yīng)用成為了可能。更多的演示視頻請(qǐng)參考下面的網(wǎng)址。
即使在移動(dòng) AI 時(shí)代,軟件仍然占據(jù)主宰地位
我們這篇文章的核心觀點(diǎn)是即使在 AI 時(shí)代,軟件仍將主導(dǎo)業(yè)界。我們希望通過(guò)這篇文章能夠向讀者表明,我們還是可以在現(xiàn)有的商業(yè)計(jì)算設(shè)備上實(shí)現(xiàn) AI,并且提供甚至比專(zhuān)業(yè)的 AI 硬件加速器更高的加速效果以及能量效率。這能夠擴(kuò)展 AI 在邊緣計(jì)算設(shè)備上的能力,并且改變?nèi)藗儗?duì)終端設(shè)備上實(shí)現(xiàn)實(shí)時(shí) AI 就必須采用專(zhuān)業(yè)的特殊 AI 硬件的認(rèn)知。
我們相信這些結(jié)果會(huì)促使工業(yè)界重新審視現(xiàn)有的移動(dòng) AI 的發(fā)展方向和策略。這些令人振奮的進(jìn)展顯示了很多潛在的未來(lái)發(fā)展方向,我們這里列舉兩個(gè)。
第一個(gè)方向是擴(kuò)展基于協(xié)同設(shè)計(jì)優(yōu)化的領(lǐng)域。目前為止,壓縮編譯協(xié)同設(shè)計(jì)的原理主要聚焦于 DNN 模型。除了 DNN,現(xiàn)實(shí)世界的 AI 應(yīng)用通常包括很多其它的內(nèi)容,比如數(shù)據(jù)收集,數(shù)據(jù)預(yù)處理,以及用 DNN 預(yù)測(cè)之后的操作等等。DNN 在整個(gè)應(yīng)用中扮演著一個(gè)很重要的角色,導(dǎo)致我們主要聚焦于 DNN 的優(yōu)化,而缺乏對(duì)整個(gè)應(yīng)用的優(yōu)化,以至于難以滿(mǎn)足用戶(hù)的實(shí)際需求。所以一個(gè)很重要的方向就是如何將壓縮編譯協(xié)同設(shè)計(jì)的原理拓展到對(duì)整個(gè) AI 應(yīng)用的全面優(yōu)化過(guò)程中。
第二個(gè)方向是擴(kuò)展基于協(xié)同設(shè)計(jì)的優(yōu)化的適用性。這一方向關(guān)聯(lián)到隱私性與安全性,這是在很多 AI 模型構(gòu)建和部署中很重要的兩個(gè)因素。如何將它們有機(jī)地與壓縮編譯協(xié)同設(shè)計(jì)過(guò)程相結(jié)合,這是一個(gè)值得研究的問(wèn)題。通常來(lái)說(shuō),模型剪枝需要訪問(wèn)模型和整個(gè)訓(xùn)練數(shù)據(jù)集。但是在某些場(chǎng)景下,由于隱私政策或者公司之間的人造邊界,模型的優(yōu)化者可能并不能夠訪問(wèn)數(shù)據(jù)集。有效規(guī)避這些攔路石可以擴(kuò)展協(xié)同優(yōu)化方案的適用性。
壓縮編譯協(xié)同設(shè)計(jì)軟件算法方案可以在數(shù)十億的現(xiàn)有的移動(dòng)設(shè)備以及數(shù)萬(wàn)億的大有可為的物聯(lián)網(wǎng)設(shè)備上,立即實(shí)現(xiàn)實(shí)時(shí)的深度學(xué)習(xí)應(yīng)用,產(chǎn)生巨大的商業(yè)價(jià)值。比如說(shuō),這種方法可以極大地提升視頻流應(yīng)用(如 Netflix,YouTube,抖音,或者 Snap)的用戶(hù)在低寬帶場(chǎng)景下的用戶(hù)體驗(yàn)。這些應(yīng)用可以推送低分辨率的視頻到用戶(hù)的設(shè)備,然后我們可以實(shí)時(shí)地將之轉(zhuǎn)化為高分辨率的視頻。類(lèi)似的,視頻通信類(lèi)應(yīng)用,如 Zoom,Skype,和 WebEx,可以利用壓縮編譯協(xié)同設(shè)計(jì)方法,達(dá)到最好的服務(wù)質(zhì)量。此外,這種方法還能夠解鎖很多之前不可能的實(shí)時(shí)深度學(xué)習(xí)應(yīng)用,例如用一個(gè)移動(dòng)手機(jī)攝像頭來(lái)獲得實(shí)時(shí)的帶有藝術(shù)風(fēng)格的視頻流。
電話(huà): | 0532-82207378 |
---|---|
Email: | xinbit@163.com |
QQ: | 113460306 |
微信: | xinbit2015 |
地址: | 山東省青島市膠州市香港路1號(hào) |