作者|甲小姐 田思奇
“我經歷了算力行業從邊緣走向中心的巨大轉變。”
多年未見,方磊向我透露了ChatGPT發布以來,他最深切的感受。
清華畢業赴美,獲弗吉尼亞理工大學博士學位后,方磊曾在西雅圖任職于早期的微軟Azure和必應。2013年,他回北京創辦了九章云極DataCanvas——一家以中國古代數學經典《九章算術》命名的人工智能基礎設施供應商。
方磊觀察到,全球范圍內,算力供需間存在顯著的結構性錯配。
九章云極DataCanvas率先在國內以原創概念“1度算力”為計量單位,推出類似手機流量包的“算力包”產品,用“按需購買,按度計量”的計費模式替代高門檻的“裸金屬”租賃服務。
據方磊介紹,傳統的獨占式算力租賃模式對機器的起租數量、租賃時間都有硬性要求,一次性投入至少百萬元。但 “算力包”對客戶更加友好,“第一,投入更便宜;第二,使用更靈活;第三,大幅度降低了決策風險。”
縱觀AI發展史,算法、數據和算力的權重持續演變。算法需要千行百業的數據要素,而這一切又需要匹配足夠算力。從數據科學家到算力企業家,方磊的重心也在從算法向算力轉變。面向未來,方磊判斷,普惠算力是推動智能發展的關鍵因素。
本文甲小姐對話九章云極DataCanvas董事長方磊。
1.“2024年是算力變成公共服務的元年”
甲小姐:很久沒見,重新介紹一下九章云極DataCanvas?
方磊:我先從九章云極DataCanvas名稱的起源談起。“九章”是我國歷史上第一部關于算法的著作《九章算術》,“云”代表云計算,“極”代表一個極大的數量級——10的48次方,象征大數據的無限潛力。公司的核心理念是將大數據與算法結合,成為人工智能基礎設施的提供者,滿足各行各業對大模型能力的需求。
2013年我剛回國時,當時模型的應用范圍相對有限,主要服務于數據科學家這一小群體。直到2019年,我們觀察到各行各業開始探索將人工智能技術應用于自己的特定場景中,這讓2019年成為技術落地的關鍵轉折點,模型的重要性也不斷提高。
甲小姐:這之后另一個關鍵節點是2022年11月30日的ChatGPT發布。在那之后,國內科技市場發生了什么變化?這期間你又經歷了什么?
方磊:市場上最重要的變化就是信心,大家相信新的科技革命終于降臨。所有人對于未來的想象和投入都發生了變化——需求的變化通常取決于投入的變化,而投入的變化是靠信心來支撐。
我個人經歷了算力行業從邊緣走向中心的巨大轉變。曾經的小眾市場發展成為一個全球性的、廣受認可的重要市場。在這個過程中,某些原本僅被視為特定行業基礎能力的元素,已經演變為全國乃至全球范圍的基礎設施,這是我這段時間最深切的感受。
甲小姐:從邊緣走向中心,成為基礎設施的臨界點是什么?
方磊:基礎設施的蛻變發生在它變成公共服務的那一刻。
人類社會歷史上有很多基礎設施,公路、鐵路、電力。當一個基礎設施變成公共服務時,是它的商業價值的轉折和體現。類似于高速公路開始收費時,巨量基礎設施的投入就轉變成了可以實現收益的商業行為,電力、互聯網都有類似的特征。算力的邏輯非常類似,2024年就是算力變成公共服務的元年。
這種蛻變背后的邏輯是,普惠的基礎設施是應用創新的推動力。當電很便宜,道路很便宜,高鐵很便宜,這些基礎設施提供的公共服務很便宜了,人們的智慧、行業的實踐才能夠發揮出來,可能才能形成未來的殺手級的應用和千行百業的場景。這是每一代基礎設施商業化的規律,這個規律也適用于算力這個基礎設施。算力的提升不僅能提高數據處理和分析的速度,也為機器學習和深度學習等AI應用提供了強大的支持,對維護國家安全和提升競爭力具有重要意義。因此,算力作為基礎設施,正逐漸成為推動社會發展的重要力量。
甲小姐:一些觀點認為AI算力已處于泡沫高點,你認同嗎?
方磊:我不同意。從各個角度分析,我們都尚處于起步時期。
回顧歷史,例如在19世紀60年代尼亞加拉瀑布的水電站建設時期,當時的報道盛贊其擁有10萬匹馬力的發電能力,《紐約時報》對此發表文章,認為這樣的發電量非常大,可能連整個紐約州都用不完。然而按照當今中國的標準來看,那個水電站可能只算是小型設施。
我們對未來的設想往往受限于我們當前的認知和理解水平。正如19世紀的人們難以想象今天電力的普及和重要性,我們也同樣難以預測未來技術的發展潛力和影響范圍。
甲小姐:面對一個可能巨大的未知需求市場,我們如何判斷目前算力供給夠還是不夠,投入是少了還是多了?
方磊:預測本身極具挑戰性,但相對值的比較可以提供參考的錨定。從國內市場看,當前算力供給已相當可觀,一些調研報告指出,未來三年內投資將達到3500億元人民幣。但與全球市場相比,這一數字則顯得較小。XAI的一個集群就有10萬塊英偉達H100,Meta一家公司的采購額就達到150億美元。
甲小姐:假設我們以上帝視角看待此刻的AI浪潮,全球AI產業催生的算力總投入,會收斂到某一個數字,還是成為無限投入的游戲?
方磊:一定會收斂。從歷史數據來看,芯片及其配套軟件服務的附加值通常維持在2.5到3倍的關系。也有觀點認為,算力對GDP的拉動效應約為1:4的比例。如果未來AI促使全球GDP增長十倍,算力行業所占份額頂多為25%。這個數字仍然很龐大,但肯定可以根據計算得出。
然而,人類對于智能的探索是一場無限游戲。算法的進步與對智能本質的理解,仍有巨大的未知可以探索。
2.“只有以精確標準度量算力,才有可能把龐大的算力基礎設施變成可分割、可分配的普惠‘算力包’,銷售到千家萬戶”
甲小姐:此刻中國算力市場有什么痛點?
方磊:我的基本判斷是,全球范圍內,包括中國,算力建設存在顯著的結構性錯配。
雖然有證據表明算力租賃價格下降,還有很多佐證說算力過剩,但我們仍需分析算力供給的不同形態。
一種形態是純粹的硬件算力供給,即裸金屬,用戶可以租用英偉達或國產GPU的硬件資源;另一種形態是能力供給,即提供AI能力,用戶只需提供數據,系統便自動完成訓練。
裸金屬的租賃市場類似大宗商品交易,主要面向大型企業或具有強大投資能力的買家;而許多行業客戶需要的是零售市場中的算力,即按需購買特定時間段的服務。
當前算力建設主要由大型企業引領,他們傾向于建設類似于“大樓”的基礎設施,既可以自用,也可以出租。這種供給與中長尾市場中千行百業的實際需求不匹配,這些企業需要的是更加靈活、按需提供的“酒店式”服務。
因此,市場上存在供需失衡——雖然有足夠的“大樓”來滿足超大型企業的需求,但對于需要定制化服務的中小企業來說,這種供給并不友好,它會限制算力在更廣泛行業中的落地和應用。概括來說就是“供給相對固定,需求比較靈活”。
甲小姐:算力“用起來”與“造出來”的重要性不分伯仲。
方磊:并且算力的性能并不是總能完全轉化為用戶的使用體驗。就像一輛法拉利雖然可以標稱最高時速達到300公里,但實際可能由于各種原因無法達到這一速度。同理,在算力領域,算力硬件端的指標并不直接等于使用端的感受,軟件能力對于確保用戶能夠充分利用硬件性能至關重要。
軟件并非可有可無,軟件是效率的因子。以大規模的GPU集群為例,如果軟件的協調和調度能力不足,可能只能發揮硬件10%到20%的效能。在投資數億建設的智算中心中,軟件效率20%到30%的差異可能會在經濟收益上產生決定性的影響。
甲小姐:這意味著操作系統的重要性。請介紹一下你們的智算操作系統。
方磊:我們的智算操作系統叫Alaya NeW,全稱是Alaya NeW World。Alaya本身是佛教里阿萊耶什的英文,代表智慧的種子。
我們開發Alaya NeW智算操作系統是想踐行“軟件定義算力”的理念。Alaya NeW能夠將GPU、網絡和存儲設備等硬件資源整合起來,轉化為客戶可以直接使用的算力,就像手機需要安卓和iOS一樣。目前它已經成為Alaya NeW Cloud智算云服務的軟件基礎設施,未來將以智算云服務的方式,面向更多云用戶。
許多人可能認為,GPU云服務無非就是將GPU資源作為智算中心提供給用戶。他們沒有深刻認識到GPU云和CPU云的本質區別。
用戶在CPU云上租用的是虛擬機,其工作負載是高度發散的,可以租主機做直播,打游戲。這種模式下,IaaS(基礎設施即服務)是基礎,PaaS(平臺即服務)和SaaS(軟件即服務)建立在其上。我把資源切片賣給你,之后做什么由客戶決定。
在GPU云時代,情況呈自上而下的特點,用戶對于工作載荷的目的和用途有相對明確的認識。我們賣給客戶的技術產品不是一個虛擬機,我們稱它為Serverless(無服務器)。該服務已包含所需的計算資源、軟件和工具,用戶無需關心底層的硬件配置,只需專注于模型的訓練任務。
甲小姐:GPU云和CPU云為什么會存在這種區別?
方磊:簡而言之,兩者面向的計算任務不同,GPU更接近“純運算”。當前CPU更像一臺調度器,GPU更像一臺計算器。過去是IaaS驅動SaaS,現在是SaaS驅動IaaS。
甲小姐:你們提出一個原創概念叫“1度算力”,講講這個概念?
方磊:為了讓各行各業更容易地來消費一小片算力,這里面就需要精確度量——只有以精確標準度量算力,才有可能把龐大的算力基礎設施變成可分割、可分配的普惠“算力包”,銷售到千家萬戶。這是我們提出“1度算力”的初衷。
這次的AI革命不是類似互聯網的模式切換,它更像電力革命,是水電煤這種底層設施。所以在具體設計上,參考1度電的定義是1千瓦時,我們提出312TFLOPS乘一小時為1度算力。312TFLOPS剛好是英偉達A100和很多國產GPU對標的數據。
甲小姐:現在有多少人認可“1度算力”的概念?
方磊:我接觸的每一個人,聽我介紹過后都認可這個概念。定義度量,相當于定義了消費方式。就像只有實際使用電力后,才會發生費用結算。這也是我們的理念。
當前算力租賃市場主要采用的是獨占式的“裸金屬”服務模式,即用戶根據需求租賃一定數量的機器,并按月支付租金。這種模式可以保證資源的獨占性,但并不完全適應所有用戶的需求。
理想情況是,客戶不需要自建算力中心,租賃服務也能夠更加靈活。采用按實際使用量結算的方式也能更好地滿足用戶多樣化的需求。就像上面提到的基礎設施的規律一樣,當普惠的服務、普惠的算力出現以后,才會培育更多創新業務場景,帶來應用和生態的繁榮。
甲小姐:如果我是你的潛在客戶,你會怎么把“算力包”賣給我?
方磊:我們構建了精細化的算力定價模型。比如該模型設定1度算力的價格為20元,當客戶購買包含1萬度算力的“算力包”時,支付的費用就是20萬元。在該模型中,客戶在使用算力資源時,系統將根據其執行的具體工作負載自動進行算力度量的核算,并相應地扣除算力。
客戶可以提交多個并行計算任務,其中每個任務對算力的需求可能有所不同。例如,一個任務可能需要15張GPU卡的資源,而另一個任務需要64張GPU卡。這種靈活的算力分配機制允許系統根據任務的實際需求自動分配所需的算力資源,并在任務完成后自動釋放這些資源,以便其他任務可以使用。
這種模式下,客戶無需預先指定所需GPU卡的數量,便能夠根據提交的任務自動進行算力的分配和計費。
甲小姐:雙方的交互界面是什么?
方磊:我們的服務模式類似SaaS(軟件即服務),用戶可以像使用云服務一樣登錄平臺。你可以有多個賬號方便你內部管理,最后按照實時消耗結算。就像你購買手機卡的流量一樣,我們起名“算力包”,就是類比流量包。
相比之下,如果用戶選擇租用裸金屬服務,可能會面臨最低租用數量和長期合同的限制。服務商可能要求至少租用5臺機器,簽訂至少6個月的合同。假設每臺機器的成本為8萬元,那么5臺機器的總成本將達到40萬元,一次性投入240萬元。即使技術團隊非常專業,也存在項目失敗的風險。如果6個月后項目未能達到預期目標,這筆投資可能會打水漂。
甲小姐:創業成本里最痛苦的就是試錯成本。對于頂級決策者來講,一個判斷失誤可能就損失上億,如何避坑很關鍵。
方磊:沒錯,對我們的客戶來說,購買“算力包”可以實現三個目標:第一,更便宜;第二,更靈活;第三,決策風險降低。
甲小姐:對整個行業來說,“算力包”產品有什么意義?
方磊:首先,對于社會而言,算力包把一個龐大的基礎設施變成一種公共服務,我們不再是把算力建好以后給到單一客戶,而是提供給廣大中長尾客戶,這可以提高社會基礎設施的效率。每當我們把效率提升5%、10%,都會帶來巨大的社會和經濟效益。
其次,當算力包進入千行百業,其中的軟件工具、行業應用、應用模板都變成高附加值,可以增加收入。
第三,降低門檻才能實現普惠。就像今天我們不需要按一小時10萬人民幣的價格來租一架私人飛機,只需要幾千人民幣買張機票就能飛到大洋彼岸,它降低了很多商業門檻。降低了算力的門檻,人們才能更容易地去做大模型的開發和應用。
甲小姐:這種做法是你們獨家的嗎?如果別人看懂后也來學習“算力包”模式,九章云極DataCanvas的護城河是什么?
方磊:我們根據消費來計價的做法當前在國內乃至全球范圍內都非常少,可能在國內是唯一的,而且我們肯定更便宜。我們過去十年在AI基礎軟件上的技術積累,針對中國各行業的頭部客戶和在行業內搶先布局帶來的納管規模優勢,這些可以保證我們處于領先。
長期來看,在持續的技術進步中不斷滿足客戶需求的自我更新能力,才是競爭的關鍵。不存在靜態的護城河。
3.“我們要想突破現在物理學的框架,不能指望另一位愛因斯坦,至少要指望另一位愛因斯坦+AI”
甲小姐:在AI的發展歷史上,算法、數據和算力的權重持續演變。從數據科學家到算力企業家,你的權重在從數據向算力轉變——你怎么看三者的關系?
方磊:我們最初的核心理念是“數據+算法=模型”,不偏重于算法,也不偏重于數據,本質上是工具平臺,類似“中央廚房”概念——數據由客戶供給,算法是整個產業的精華,我們的任務是將這些要素融合,創造“美味”的模型。
但面向未來,我認為算力是推動智能發展的關鍵因素,而數據的地位會相對減弱。
甲小姐:凱文·凱利也曾告訴我,十年以后數據不再重要。你認為數據的地位會削弱的原因是什么?
方磊:做個簡單類比,兒童智力的發展通過與物理世界的互動實現,其中大約90%的信息通過視覺獲得,這一過程可以被視為數據的積累。他們的眼睛和感官相當于數據收集器,不斷地從物理世界中獲取原始數據。算力可以理解為兒童大腦的處理能力,即理解和吸收這些數據的能力。隨著時間推移,孩子們的大腦變得更加擅長處理信息。
假設一個機器人也配有攝像頭和傳感器,能夠像兒童一樣觀察和感知世界,通過傳感器收集信息,它有可能在相對較短的時間內——比如6個月到1年——就積累大量的知識。隨著算力的顯著提升,機器人能夠更快、更有效地處理這些數據。這表明,智能的發展越來越依賴于它們實時感知和處理數據的能力,而不僅僅依賴于預先收集和存儲的大量數據。
目前AI使用的數據里,最常用的還是互聯網和人類記錄的知識,人們也常常憂慮這些數據可能會耗盡。然而事實是,人類在成長過程中與物理世界的互動才是數據的最大來源。
當前具身智能還處在起步階段,之后來自物理世界的數據比例會迅速增加。我的推斷是,通過與物理世界的互動,可以生成大量的數據,而這些數據的獲取成本可能遠低于我們通過互聯網獲取的數據,或者更準確地說,是低于人類經過提煉和總結的知識數據。
甲小姐:如果時光倒流回你在微軟必應的工作時期,假如你知道未來會誕生一個公司叫OpenAI,將成為AGI的重要推手,而你只要留在微軟,可能成為OpenAI的股東或創辦者之一,你還會創業嗎?
方磊:我的一些同事仍然在微軟研究院工作,他們目前的工作就是主要集中在與OpenAI相關的項目上,比如為OpenAI提供基礎設施支持。但我個人更傾向于創業。OpenAI可能是一家偉大的公司,但親手打造一家即便不那么偉大、卻能留下一定影響力的公司,更令我心馳神往。創業不僅是實現自己的夢想,更在于給世界留下的印記。
甲小姐:如果用三個形容詞描述現在的九章云極DataCanvas,你會選擇哪三個詞?
方磊:我們的愿景是創造智能和探索未知。所以第一個詞是創造,第二是探索,第三是熱情,也就是長期堅持,滿懷激情地做一些事情。
甲小姐:你最終要實現的目標是什么?
方磊:公司的終極愿景是希望成為國內或世界上規模最大的能夠提供算力基礎設施的企業。我個人的終極理想是我們人類對于智能的本質有一些突破,而智能的突破最終讓人類洞悉宇宙的能力有突破。
這大概是一個技術人員的夢想。從廣義相對論的角度來看,整個宇宙最大的bug是光速過慢。為什么光速這么慢,宇宙這么大?我相信人工智能可以幫我們想出實現超光速的方法,我說的不是量子計算,是物理上的超光速。這一點我認為僅僅靠人類的智力無法搞定。我們要想突破現在物理學的框架,可能不能指望另一位愛因斯坦,至少要指望另一位愛因斯坦+AI。
甲小姐:黃仁勛說過世界的本質靠加速計算,你和他的核心觀點一致嗎?
方磊:是的,我相信計算是現實的本源。這也是很多人的觀點,不只是他一個人的看法。我們的目標在于無限接近對真實世界的模擬,例如在飛機風洞測試中,計算量的增加能夠顯著提升對物理環境的模擬精度。這種對高性能計算的需求促使人們更加傾向于相信世界的本質是計算。
甲小姐:但加速計算的投入上限在哪里我們還看不見。你會擔心這場投入是個無底洞嗎?
方磊:AI行業不一定按照卷的邏輯來發展。卷的意思是,從A地到B地,有人造出更快的火車,第二名也被迫制造更快的火車,只是因為第一名算得快,后面就需要跟他對齊,這是商業競爭的邏輯,不是宏觀上生物進化的邏輯。商業競爭是面對面廝殺,短期內非常針鋒相對(head-to-head),而生物進化可以走出差別巨大的不同路線,可能幾十年、幾百年后才見分曉。
目前AI行業更偏商業競爭的邏輯,但這是短期。未來AI還會打開很多空間,大家不必在一個狹小的地方卷,而是走向進化邏輯。
甲小姐:你擔心人工智能加速發展會導致人類智能被甩在身后嗎?
方磊:不是很擔心,因為離我們還很遠,如果發生也不是什么壞事。我把這些觀點視為一種思維游戲。我們所討論的這些可能性,無論其真偽,很大程度上都是基于我們當下的想象。當然這些想象會增加討論的趣味性。人類自我進化的速度很快,不會那么脆弱,AI也會使人類本身更強大。
甲小姐:從終局回到當下,我們是否進入了算力游戲的下半場?
方磊:我個人不太喜歡下半場的這種論述,大部分人想描述下半場,一是希望有變化,二是對上半場想做總結。
每個創業公司都喜歡講Day One精神,但提到一個行業動不動說下半場,似乎與這種精神相悖。就好比ChatGPT只發布了不到兩年的時間,現在我們就討論換擋,可能還太早。畢竟,當下一切仍處于探索階段,我們都在前行的路上。