《電子技術(shù)應(yīng)用》
您所在的位置:首頁(yè) > 可編程邏輯 > 業(yè)界動(dòng)態(tài) > 云端AI芯片市場(chǎng)大變局,谷歌對(duì)外開放TPU

云端AI芯片市場(chǎng)大變局,谷歌對(duì)外開放TPU

2018-02-14
關(guān)鍵詞: 云端AI 谷歌

剛剛,谷歌云博客宣布:谷歌云 TPU 機(jī)器學(xué)習(xí)加速器測(cè)試版已向外部用戶開放,價(jià)格大約為每云 TPU 每小時(shí) 6.50 美元,而且數(shù)量有限。此舉意味著這種曾支持了著名 AI 圍棋程序 AlphaGo 的強(qiáng)大芯片將很快成為各家科技公司開展人工智能業(yè)務(wù)的強(qiáng)大資源。


333.png



2016 年 5 月,谷歌向世人發(fā)布了一款特別的機(jī)器學(xué)習(xí)專屬芯片:張量處理器(Tensor Processing Unit,TPU),去年又推出了它的第二代產(chǎn)品(Cloud TPU)。這是一種被認(rèn)為比 CPU 、甚至 GPU 更加高效的機(jī)器學(xué)習(xí)專用芯片。作為科技巨頭的谷歌早已把這種高度定制化產(chǎn)品應(yīng)用在了自己的服務(wù)器中,而本周一,谷歌宣布其他公司馬上也將可以享受新型芯片帶來(lái)的計(jì)算服務(wù)了。


雖然新一代 TPU 的適應(yīng)性如何還有待觀察,但是較之于單純的機(jī)器學(xué)習(xí)任務(wù)加速的功能而言,TPU 確實(shí)頗具實(shí)力。據(jù)谷歌稱,第一代 TPU 僅能夠處理推理任務(wù),而第二代 TPU 還可以用于機(jī)器學(xué)習(xí)模型的訓(xùn)練,這個(gè)機(jī)器學(xué)習(xí)過程中重要的一部分完全可在單塊、強(qiáng)大的芯片上進(jìn)行。在 2017 年 4 月,谷歌曾通過一篇論文《In-Datacenter Performance Analysis of a Tensor Processing Unit》介紹了 TPU 研究的相關(guān)技術(shù)以及第二代芯片與其它類似硬件的性能比較結(jié)果。


TPU 可以幫助谷歌的各類機(jī)器學(xué)習(xí)應(yīng)用進(jìn)行快速預(yù)測(cè),并使產(chǎn)品迅速對(duì)用戶需求做出回應(yīng)。谷歌稱,TPU 已運(yùn)行在每一次搜索中;TPU 支持作為谷歌圖像搜索(Google Image Search)、谷歌照片(Google Photo)和谷歌云視覺 API(Google Cloud Vision API)等產(chǎn)品的基礎(chǔ)的精確視覺模型;TPU 也幫助了谷歌神經(jīng)翻譯質(zhì)量的提升;而其強(qiáng)大的計(jì)算能力也在 DeepMind AlphaGo 對(duì)陣?yán)钍纴h的重要?jiǎng)倮邪l(fā)揮了作用——這是計(jì)算機(jī)首次在古老的圍棋比賽中戰(zhàn)勝人類世界冠軍。


谷歌本周一的「Beta 測(cè)試」公告也宣示著這家現(xiàn)代科技企業(yè)正在改變自己的運(yùn)營(yíng)理念——它已開始涉及人工智能專屬芯片的解決方案,這是一個(gè)包含數(shù)十家創(chuàng)業(yè)公司,以及英特爾、高通和英偉達(dá)這樣的傳統(tǒng)硬件廠商的重要市場(chǎng)。隨著時(shí)代的發(fā)展,谷歌、亞馬遜和微軟已不再是純粹的互聯(lián)網(wǎng)企業(yè),它們都已或多或少地開始扮演起硬件制造者的角色。


在此之前,谷歌其實(shí)也并不是 TPU 的唯一使用者,美國(guó)出行服務(wù)公司 Lyft 在去年底開始參與了谷歌新型芯片的測(cè)試。Lyft 希望通過使用 TPU 加速自動(dòng)駕駛汽車系統(tǒng)的開發(fā)速度:TPU 在計(jì)算機(jī)視覺模型的訓(xùn)練速度上具有優(yōu)勢(shì),可將原先耗時(shí)數(shù)日的任務(wù)縮短至幾小時(shí)內(nèi)完成。


谷歌在其云平臺(tái)博客上宣布了 TPU 服務(wù)開放的消息:


通過谷歌云平臺(tái)(GCP)提供的 Cloud TPU beta 版自 2018 年 2 月 12 日起可用,其旨在幫助機(jī)器學(xué)習(xí)專家更快地訓(xùn)練和運(yùn)行 ML 模型。

3333-2.png


Cloud TPU 是谷歌設(shè)計(jì)的一種硬件加速器,旨在優(yōu)化以加速和擴(kuò)大使用 TensorFlow 編程的機(jī)器學(xué)習(xí)工作負(fù)載。Cloud TPU 使用四個(gè)定制化 ASIC 構(gòu)建,單個(gè) Cloud TPU 的計(jì)算能力達(dá)到 180 萬(wàn)億次浮點(diǎn)運(yùn)算,具備 64 GB 的高帶寬內(nèi)存。這些板卡可單獨(dú)使用也可通過超快的專門網(wǎng)絡(luò)聯(lián)合使用以構(gòu)建數(shù)千萬(wàn)億次級(jí)別的機(jī)器學(xué)習(xí)超級(jí)計(jì)算機(jī),我們稱之為「TPU pod」。今年稍后,我們將在 GCP 上提供更大型的超級(jí)計(jì)算機(jī)。 



我們?cè)O(shè)計(jì) Cloud TPU 的目的是為 TensorFlow 工作負(fù)載提供差異化的性能,使 ML 工程師和研究者實(shí)現(xiàn)更快迭代。例如:


你們無(wú)需費(fèi)力等待調(diào)度共享計(jì)算機(jī)集群,通過谷歌計(jì)算引擎 VM,就可以獨(dú)立獲取交互式的網(wǎng)絡(luò)聯(lián)結(jié) Cloud TPU。

無(wú)需花費(fèi)數(shù)日或數(shù)周等待商用級(jí)機(jī)器學(xué)習(xí)模型,你可以在一系列 Cloud TPU 上訓(xùn)練同樣模型的不同變體,而且第二天就可以將準(zhǔn)確率最高的訓(xùn)練模型部署到生產(chǎn)過程。

使用單個(gè) Cloud TPU,并遵循該教程(https://cloud.google.com/tpu/docs/tutorials/resnet),你可以在不到一天的時(shí)間內(nèi),訓(xùn)練 ResNet-50 使其在 ImageNet 基準(zhǔn)挑戰(zhàn)上達(dá)到期望的準(zhǔn)確率。


讓機(jī)器學(xué)習(xí)模型訓(xùn)練更容易


傳統(tǒng)上,編寫自定義 ASIC 和超級(jí)計(jì)算機(jī)的程序需要極高的專業(yè)度。而對(duì)于 Cloud TPU 而言,你可以使用高級(jí) TensorFlow API 進(jìn)行編程,我們開源了一系列參考高性能 Cloud TPU 模型實(shí)現(xiàn),幫助大家立刻上手:


ResNet-50(https://cloud.google.com/tpu/docs/tutorials/resnet)和其他常用的圖像分類模型(https://github.com/tensorflow/tpu/tree/master/models/official)。

用于機(jī)器翻譯和語(yǔ)言建模的 Transformer(https://cloud.google.com/tpu/docs/tutorials/transformer (https://research.googleblog.com/2017/08/transformer-novel-neural-network.html))

用于目標(biāo)檢測(cè)的 RetinaNet

(https://github.com/tensorflow/tpu/blob/master/models/official/retinanet/README.md)


為了節(jié)約大家的時(shí)間和精力,我們持續(xù)測(cè)試這些模型實(shí)現(xiàn)的性能和在標(biāo)準(zhǔn)數(shù)據(jù)集上收斂至期望準(zhǔn)確率的情況。


以后,我們還將開源其他模型實(shí)現(xiàn)。喜愛冒險(xiǎn)的機(jī)器學(xué)習(xí)專家可以使用我們提供的文檔(https://cloud.google.com/tpu/docs/)和工具(https://cloud.google.com/tpu/docs/cloud-tpu-tools)利用 Cloud TPU 自己優(yōu)化其他 TensorFlow 模型。


現(xiàn)在開始使用 Cloud TPU,今年稍后我們宣布 TPU pod 時(shí),你們將從時(shí)間-準(zhǔn)確率的大幅改進(jìn)中受益良多。正如我們?cè)?NIPS 2017 上宣布的那樣,在完整的 TPU pod 上,ResNet-50 和 Transformer 的訓(xùn)練時(shí)間從大半天降到不到 30 分鐘,而且無(wú)需改變?nèi)魏未a。


可擴(kuò)展的機(jī)器學(xué)習(xí)平臺(tái)




云 TPU 同樣簡(jiǎn)化了對(duì)機(jī)器學(xué)習(xí)計(jì)算資源的規(guī)劃和管理:


你可以為自己的團(tuán)隊(duì)提供頂尖的機(jī)器學(xué)習(xí)加速,隨著需求的變化動(dòng)態(tài)調(diào)整自己的容量;

相比于花費(fèi)資金、時(shí)間和專業(yè)人才來(lái)設(shè)計(jì)、安裝、維護(hù)一個(gè)實(shí)地的機(jī)器學(xué)習(xí)計(jì)算群(它還需要專門化的供能、冷卻、網(wǎng)絡(luò)和存儲(chǔ)),你可以從谷歌多年以來(lái)優(yōu)化過的大規(guī)模、高集成的機(jī)器學(xué)習(xí)基礎(chǔ)設(shè)施受益;

不需要花費(fèi)努力保證驅(qū)動(dòng)對(duì)各種工作站和服務(wù)器保持更新升級(jí),云 TPU 做了不需要驅(qū)動(dòng)安裝的預(yù)配置;

受谷歌云服務(wù)提供的同樣復(fù)雜的安全機(jī)制和實(shí)踐的保護(hù)。


在谷歌云,我們還想為客戶的每個(gè)機(jī)器學(xué)習(xí)負(fù)載提供最好的云。伴隨谷歌云 TPU,我們也會(huì)提供大量的高性能 CPU(包括英特爾 Skylake)和 GPU(包括英偉達(dá)的 Tesla V100)。


開始使用云 TPU


云 TPU 如今在數(shù)量受限的情況下可用,價(jià)格以秒計(jì)費(fèi),大約為每云 TPU 每小時(shí) 6.50 美元。


注冊(cè)地址:https://services.google.com/fb/forms/cloud-tpu-beta-request/


本站內(nèi)容除特別聲明的原創(chuàng)文章之外,轉(zhuǎn)載內(nèi)容只為傳遞更多信息,并不代表本網(wǎng)站贊同其觀點(diǎn)。轉(zhuǎn)載的所有的文章、圖片、音/視頻文件等資料的版權(quán)歸版權(quán)所有權(quán)人所有。本站采用的非本站原創(chuàng)文章及圖片等內(nèi)容無(wú)法一一聯(lián)系確認(rèn)版權(quán)者。如涉及作品內(nèi)容、版權(quán)和其它問題,請(qǐng)及時(shí)通過電子郵件或電話通知我們,以便迅速采取適當(dāng)措施,避免給雙方造成不必要的經(jīng)濟(jì)損失。聯(lián)系電話:010-82306118;郵箱:aet@chinaaet.com。