關(guān)于信息基礎(chǔ)設(shè)施的思考
孫凝暉
2025年2月20日
一、信息基礎(chǔ)設(shè)施的演變
基礎(chǔ)設(shè)施是人類社會(huì)發(fā)展的基石。人類社會(huì)經(jīng)歷了農(nóng)業(yè)時(shí)代、工業(yè)時(shí)代、信息時(shí)代,如今來到了智能時(shí)代,這四個(gè)時(shí)代分別孕育出了關(guān)鍵的基礎(chǔ)設(shè)施,滿足了人類對資源的基本需求,也反映出人類對資源進(jìn)行抽象的能力(如圖1)。農(nóng)業(yè)時(shí)代孕育了交通基礎(chǔ)設(shè)施,集裝箱這個(gè)人造物成為實(shí)現(xiàn)貨物全球交通運(yùn)輸?shù)年P(guān)鍵抽象;工業(yè)時(shí)代孕育了能源基礎(chǔ)設(shè)施,電力是人類發(fā)明的一種二次能源,作為標(biāo)準(zhǔn)化能源的抽象,成就了能源轉(zhuǎn)換、儲(chǔ)存、傳輸、使用的能源基礎(chǔ)設(shè)施;信息時(shí)代孕育了信息基礎(chǔ)設(shè)施,網(wǎng)頁作為數(shù)據(jù)的抽象,成為信息全球共享的主要載體。當(dāng)前智能時(shí)代無論是大數(shù)據(jù)、還是深度學(xué)習(xí)以及人工智能大模型,都是構(gòu)建在數(shù)據(jù)空間之上的,新的數(shù)據(jù)基礎(chǔ)設(shè)施正在形成過程中,其中數(shù)據(jù)流通、智能算力和AI模型與網(wǎng)絡(luò)基礎(chǔ)設(shè)施日益融合,將催生新的抽象。
圖1:關(guān)鍵基礎(chǔ)設(shè)施的演進(jìn)圖
信息時(shí)代最大的變化是人類構(gòu)建了賽博空間(Cyberspace),它可以簡單地被看成一個(gè)三層架構(gòu)(如圖2)。第一層是計(jì)算機(jī)空間,其核心目標(biāo)是實(shí)現(xiàn)對計(jì)算設(shè)備的互聯(lián),以及對人類符號(hào)化數(shù)理知識(shí)的加工處理;第二層是信息空間,其核心目標(biāo)是實(shí)現(xiàn)對網(wǎng)頁的互聯(lián),以及對人類社會(huì)向網(wǎng)絡(luò)空間映射的各類數(shù)字化信息的加工處理;第三層是數(shù)據(jù)空間,其核心目標(biāo)是實(shí)現(xiàn)對以數(shù)據(jù)為核心的人工智能要素的互聯(lián),以及對數(shù)據(jù)進(jìn)行分析、壓縮等深度加工以生成模型。
信息基礎(chǔ)設(shè)施是賽博空間中基礎(chǔ)的公共服務(wù)平臺(tái)。
圖2:賽博網(wǎng)絡(luò)空間的演進(jìn)
第一層計(jì)算機(jī)空間的核心功能是對知識(shí)的加工處理(如圖3)。自20世紀(jì)60年代起,經(jīng)歷了四個(gè)階段。初始階段為大型計(jì)算機(jī)的互聯(lián);第二個(gè)階段是個(gè)人計(jì)算機(jī)的互聯(lián),個(gè)人計(jì)算機(jī)的普及促進(jìn)了機(jī)與機(jī)之間的緊密聯(lián)系;第三個(gè)階段,智能手機(jī)的興起進(jìn)一步推動(dòng)了人與人之間的廣泛互聯(lián);在第四個(gè)階段,各種物端設(shè)備被納入互聯(lián)網(wǎng)絡(luò),實(shí)現(xiàn)了人、機(jī)、物的全面互聯(lián)。在計(jì)算機(jī)空間,信息處理的主要對象為人類符號(hào)化的數(shù)理知識(shí),超級(jí)計(jì)算機(jī)作為加工知識(shí)的核心裝備,其基礎(chǔ)設(shè)施化就是網(wǎng)格計(jì)算。在計(jì)算機(jī)空間的發(fā)展初期,美國國防部的阿帕網(wǎng)(ARPANET)計(jì)劃成為率先推動(dòng)者。
圖3:計(jì)算機(jī)空間
第二層信息空間的核心功能是對信息的加工處理(如圖4)。自20世紀(jì)80年代起,經(jīng)歷了三個(gè)階段,最初是網(wǎng)頁的靜態(tài)互聯(lián),隨后是信息流的動(dòng)態(tài)連接,未來還要實(shí)現(xiàn)對元宇宙中數(shù)字人的連接,實(shí)現(xiàn)賽博空間中信息的無縫互聯(lián)互通。在信息空間,主要對象可以歸納為人類社會(huì)活動(dòng)向數(shù)字空間的投影,數(shù)據(jù)中心計(jì)算機(jī)作為信息加工處理的核心裝備,其基礎(chǔ)設(shè)施化就是云計(jì)算的基礎(chǔ)設(shè)施。在信息空間的發(fā)展初期,美國的信息高速公路計(jì)劃是率先推動(dòng)者。
圖4:信息空間
第三層數(shù)據(jù)空間的核心功能是模型的加工處理(如圖5)。自2010年起,大數(shù)據(jù)分析與機(jī)器學(xué)習(xí)技術(shù)使得數(shù)據(jù)的廣譜關(guān)聯(lián)成為可能,GPT大模型的出現(xiàn)則促進(jìn)了算力的互聯(lián)互通,未來,隨著成千上萬模型的涌現(xiàn)和AGI通用人工智能的出現(xiàn),將實(shí)現(xiàn)模型與智能體間的廣泛連接。當(dāng)前,計(jì)算資源的進(jìn)一步基礎(chǔ)設(shè)施化是算力網(wǎng),使得20世紀(jì)60年代超前提出的技術(shù)理念Utility Computing正逐漸變成現(xiàn)實(shí)。在數(shù)據(jù)空間的發(fā)展初期,中國在這一輪信息技術(shù)變革中沒有落后,人工智能2.0、東數(shù)西算工程、數(shù)據(jù)流通利用基礎(chǔ)設(shè)施等國家計(jì)劃,使得中國成為率先推動(dòng)者。
圖5:數(shù)據(jù)空間
信息基礎(chǔ)設(shè)施的變化,主要在于智能三要素——算力、數(shù)據(jù)、算法的基礎(chǔ)設(shè)施化,以及對網(wǎng)絡(luò)基礎(chǔ)設(shè)施帶來的影響。下面從行動(dòng)計(jì)劃、終端、超級(jí)入口、通信網(wǎng)絡(luò)、互聯(lián)網(wǎng)絡(luò)、計(jì)算、數(shù)據(jù)、電力等八個(gè)關(guān)鍵特征分析信息基礎(chǔ)設(shè)施的演變規(guī)律(如圖6)。
行動(dòng)計(jì)劃。計(jì)算時(shí)代以“機(jī)”為中心,在ARPANET政府行動(dòng)計(jì)劃的推動(dòng)下,實(shí)現(xiàn)了計(jì)算機(jī)全球連接;互聯(lián)網(wǎng)時(shí)代以“人”為中心,在信息高速公路政府行動(dòng)計(jì)劃的推動(dòng)下,實(shí)現(xiàn)了信息資源全球共享;智能時(shí)代以“物和數(shù)”為中心,主要目標(biāo)是實(shí)現(xiàn)智能三要素即算力、算法和數(shù)據(jù)的公用事業(yè)化(utility)。計(jì)算所在2018年組建網(wǎng)絡(luò)計(jì)算創(chuàng)新研究院時(shí),制定了信息高鐵計(jì)劃,有組織地開展這方面的科研工作,并在南京麒麟?yún)^(qū)建設(shè)了信息高鐵綜合試驗(yàn)場。
終端。計(jì)算時(shí)代經(jīng)歷了從啞終端向個(gè)人計(jì)算機(jī)(PC)的轉(zhuǎn)變;互聯(lián)網(wǎng)時(shí)代則見證了從功能手機(jī)向智能手機(jī)的演進(jìn);智能時(shí)代的終端形態(tài)主要包括智能物端和具身計(jì)算機(jī),其中智能硬件、可穿戴設(shè)備、VR設(shè)備等屬于智能物端,智能機(jī)器人、人形機(jī)器人、自主無人系統(tǒng)等屬于具身計(jì)算機(jī)。
超級(jí)入口。計(jì)算時(shí)代訪問信息基礎(chǔ)設(shè)施的主要入口是操作系統(tǒng);互聯(lián)網(wǎng)時(shí)代訪問信息基礎(chǔ)設(shè)施的主要入口是瀏覽器(browser)和移動(dòng)應(yīng)用程序(APP);智能時(shí)代訪問信息基礎(chǔ)設(shè)施的新入口還沒有形成,智能體(Agent)可能是模型基礎(chǔ)設(shè)施的使用入口,模型工廠(AI Foundry)可能是算力和數(shù)據(jù)基礎(chǔ)設(shè)施的一種超級(jí)使用入口。
通信網(wǎng)絡(luò)。計(jì)算時(shí)代的通信基礎(chǔ)設(shè)施主要是光網(wǎng)絡(luò),提供了骨干級(jí)數(shù)據(jù)傳輸;互聯(lián)網(wǎng)時(shí)代的通信基礎(chǔ)設(shè)施主要是WiFi網(wǎng)和蜂窩通信網(wǎng),提供了終端的廣泛接入;智能時(shí)代的通信基礎(chǔ)設(shè)施主要目標(biāo)是物端的泛在連接,其中物聯(lián)網(wǎng)連接了多種多樣的傳感器,工業(yè)通信網(wǎng)提供了工業(yè)環(huán)境里有保障的連接,衛(wèi)星通信網(wǎng)則提供了地球空間范圍內(nèi)全覆蓋性連接,這些共同保障了信息系統(tǒng)對物理世界的全面感知與實(shí)時(shí)操縱。
互聯(lián)網(wǎng)絡(luò)。計(jì)算時(shí)代的計(jì)算機(jī)網(wǎng)絡(luò)以IP網(wǎng)絡(luò)為核心,技術(shù)策略是地址驅(qū)動(dòng);互聯(lián)網(wǎng)時(shí)代構(gòu)造了完整的全球互聯(lián)網(wǎng),技術(shù)策略是盡力而為,出現(xiàn)了域名服務(wù)、P2P網(wǎng)絡(luò)、CDN等眾多網(wǎng)絡(luò)基礎(chǔ)設(shè)施技術(shù);智能時(shí)代的網(wǎng)絡(luò)基礎(chǔ)設(shè)施還在發(fā)展過程中,確定與彈性傳輸?shù)募夹g(shù)策略逐漸成為共識(shí),在網(wǎng)絡(luò)的控制面、策略面需要有新的路由機(jī)制?;ヂ?lián)網(wǎng)絡(luò)需要增加新的特性以適應(yīng)數(shù)據(jù)流通、分布式AI算法、算力服務(wù)化的需求。安全是一項(xiàng)伴生需求,在信息基礎(chǔ)設(shè)施的發(fā)展過程中,同步地發(fā)展出了網(wǎng)絡(luò)連接安全、信息內(nèi)容安全、智能算法安全等基礎(chǔ)設(shè)施。
計(jì)算。計(jì)算時(shí)代的算力中心是超算中心,它的公用事業(yè)化是網(wǎng)格計(jì)算;互聯(lián)網(wǎng)時(shí)代的算力中心是邊緣計(jì)算節(jié)點(diǎn)和互聯(lián)網(wǎng)數(shù)據(jù)中心(IDC),它的公用事業(yè)化是公有云;智能時(shí)代的算力中心則變?yōu)橹撬阒行模懔Γǔ?、智算、通算)的全面公用事業(yè)化、服務(wù)化就是算力網(wǎng),云計(jì)算變成算力網(wǎng)中的一個(gè)算力站,算力網(wǎng)需要有新的全局命名機(jī)制,以及超越容器的新資源抽象(如任務(wù)閉包)。前兩個(gè)時(shí)期均未形成明確的基礎(chǔ)設(shè)施調(diào)度體系,直至智能時(shí)代出現(xiàn)了對全局調(diào)度中心的強(qiáng)烈需求,包括區(qū)域一體化算力網(wǎng)、全國一體化算力網(wǎng)的調(diào)度中心、以及算力與網(wǎng)絡(luò)、算力與電力、算力與數(shù)據(jù)、算力與模型等融合調(diào)度能力。
數(shù)據(jù)。計(jì)算時(shí)代沒有形成數(shù)據(jù)基礎(chǔ)設(shè)施,數(shù)據(jù)被結(jié)構(gòu)化抽象成文件、記錄后,組織成文件系統(tǒng)、數(shù)據(jù)庫和數(shù)據(jù)倉庫,在局域環(huán)境中被加工利用;互聯(lián)網(wǎng)時(shí)代誕生了萬維網(wǎng)這樣的數(shù)據(jù)基礎(chǔ)設(shè)施,數(shù)據(jù)被結(jié)構(gòu)化抽象成為網(wǎng)頁,組裝成網(wǎng)站,再通過WWW協(xié)議在廣域環(huán)境中關(guān)聯(lián)與加工利用,并誕生了如Web搜索引擎、推薦引擎這樣的超級(jí)網(wǎng)站,也是應(yīng)用層基礎(chǔ)設(shè)施。智能時(shí)代正在建立數(shù)據(jù)流通利用基礎(chǔ)設(shè)施,服務(wù)大數(shù)據(jù)分析、人工智能等新型應(yīng)用;文件、網(wǎng)頁、數(shù)據(jù)庫記錄等數(shù)據(jù)被結(jié)構(gòu)化抽象成數(shù)據(jù)件(Dateware),再通過數(shù)據(jù)工程組裝成數(shù)據(jù)場,數(shù)據(jù)場構(gòu)建于同一個(gè)組織內(nèi),權(quán)屬可以通過行政手段認(rèn)定,在這里就可以被加工利用了;進(jìn)一步,基于多種可信流通協(xié)議(如數(shù)聯(lián)網(wǎng)、IDS、數(shù)據(jù)登記、數(shù)據(jù)交易所)在開放環(huán)境中構(gòu)建可信數(shù)據(jù)空間,實(shí)現(xiàn)私域數(shù)據(jù)在公域環(huán)境中的共享復(fù)用、廣譜關(guān)聯(lián)與可信流通,進(jìn)行深度加工利用。數(shù)據(jù)件的基本標(biāo)識(shí)可作為數(shù)據(jù)空間的全局命名信息。
模型是智能時(shí)代出現(xiàn)的一類新型數(shù)據(jù),未來將出現(xiàn)模型基礎(chǔ)設(shè)施,它是智能三要素中算法的公用事業(yè)化。隨著人工智能技術(shù)的發(fā)展,模型基礎(chǔ)設(shè)施從Hugging Face形式,演進(jìn)至基礎(chǔ)大模型,再演進(jìn)到模聯(lián)網(wǎng)。模聯(lián)網(wǎng)類似于企業(yè)信息化的SOAP等服務(wù)計(jì)算技術(shù),通過對模型的操作與互操作協(xié)議,將多種多樣的模型連接起來,為智能體等智能任務(wù)提供服務(wù)。
電力。前兩個(gè)時(shí)期電力基礎(chǔ)設(shè)施主要體現(xiàn)在UPS供電、風(fēng)冷、液冷、相變冷卻等機(jī)房基礎(chǔ)設(shè)施上;智能時(shí)代則催生了綠電直供,大幅降低電力成本。
圖6:信息基礎(chǔ)設(shè)施的演變
信息高鐵計(jì)劃設(shè)想的終極目標(biāo)是:在智能時(shí)代,信息基礎(chǔ)設(shè)施達(dá)到與工業(yè)時(shí)代的物流、電流、信息流等基礎(chǔ)設(shè)施相仿的低成本水平,大幅降低全社會(huì)在AI賦能的應(yīng)用層創(chuàng)新的門檻,使得全球發(fā)達(dá)經(jīng)濟(jì)體外的60億人能從中獲益。
當(dāng)前可以從以下八個(gè)方面,降低構(gòu)建信息基礎(chǔ)設(shè)施的成本:1)采用28-12nm成熟工藝制造芯片,相較于7-3nm先進(jìn)工藝,成本降低了一個(gè)數(shù)量級(jí),再通過芯粒集成技術(shù)彌補(bǔ)了芯片集成度的不足;2)推動(dòng)開源芯片的廣泛使用,顯著降低了CPU和NPU處理器的設(shè)計(jì)成本,使得場景定制芯片的設(shè)計(jì)門檻大幅降低;3)推動(dòng)開源軟件如操作系統(tǒng)、AI框架等的發(fā)展,顯著降低了智能系統(tǒng)軟件棧的成本;4)中國在通信與互聯(lián)網(wǎng)基礎(chǔ)設(shè)施建設(shè)方面已取得了低成本優(yōu)勢,當(dāng)前亟需提升其安全性與網(wǎng)絡(luò)彈性;5)推動(dòng)數(shù)據(jù)要素化與數(shù)據(jù)流通利用技術(shù),有效降低了數(shù)據(jù)的全社會(huì)使用成本;6)推動(dòng)區(qū)域一體化算力網(wǎng)、全國一體化算力網(wǎng)和模型工廠等全局共享技術(shù)的發(fā)展,顯著降低AI應(yīng)用的算力資源成本與人力資源成本;7)普及DeepSeek等開源的基礎(chǔ)大模型,性能與國際頂尖大模型相媲美,成本呈數(shù)量級(jí)降低,促進(jìn)場景定制模型的普及,以及大模型推理的私有化部署;8)提高采用綠色電力的比例,使算力中心電價(jià)降低至化石能源的三分之一。
二、信息高鐵綜合試驗(yàn)場
信息高鐵濃縮了我們對智能時(shí)代信息基礎(chǔ)設(shè)施的認(rèn)知,建設(shè)信息高鐵綜合試驗(yàn)場,對形成信息基礎(chǔ)設(shè)施的中國技術(shù)體系能起到十分重要的作用。這些年信息高鐵行動(dòng)計(jì)劃的實(shí)踐為信息基礎(chǔ)設(shè)施增加了幾個(gè)新的技術(shù)特征:低熵高通量(算力)、全局調(diào)度、模型工廠(超級(jí)入口),并在信息高鐵綜合試驗(yàn)場上進(jìn)行了部署與驗(yàn)證。
我國對自然科學(xué)領(lǐng)域服務(wù)科學(xué)發(fā)現(xiàn)的大科學(xué)裝置給予了高度重視,促進(jìn)了基礎(chǔ)學(xué)科的繁榮發(fā)展,然而在技術(shù)發(fā)明領(lǐng)域的工程技術(shù)試驗(yàn)平臺(tái)方面,長期缺乏足夠的關(guān)注。對比一下美國在這方面的布局情況,自2000年以來,美國持續(xù)構(gòu)建服務(wù)信息技術(shù)創(chuàng)新的試驗(yàn)平臺(tái),如emulab、CloudLab、GINI等,為原始性創(chuàng)新提供了豐富的土壤。歷史證明,美國通過前瞻性布局技術(shù)試驗(yàn)平臺(tái)推動(dòng)了美國在超級(jí)計(jì)算機(jī)、互聯(lián)網(wǎng)、云計(jì)算、網(wǎng)格計(jì)算、分布式計(jì)算、星鏈等技術(shù)上的領(lǐng)先。
信息高鐵綜合試驗(yàn)場目前已經(jīng)部署了九大試驗(yàn)場(如圖7),布局在算力層、網(wǎng)絡(luò)層、數(shù)據(jù)與應(yīng)用層,分別是:國產(chǎn)算力芯片試驗(yàn)場、算力并網(wǎng)試驗(yàn)場、空天地?zé)o線接入試驗(yàn)場、CENI未來網(wǎng)絡(luò)試驗(yàn)場、全國一體化算力網(wǎng)調(diào)度試驗(yàn)場、端邊云低熵計(jì)算試驗(yàn)場、合肥可信數(shù)據(jù)空間試驗(yàn)場、模型工廠試驗(yàn)場、鄭州/南京城市一體化算力網(wǎng)試驗(yàn)場。
圖7:信息高鐵綜合試驗(yàn)場布局
三、算力
為什么算力會(huì)在智能時(shí)代熱起來?簡單對比一下互聯(lián)網(wǎng)時(shí)代和智能時(shí)代的一個(gè)代表性應(yīng)用對算力的需求,可以得到答案。一次典型的用戶搜索,對計(jì)算資源的消耗在G量級(jí)(即10的9次方),而執(zhí)行一次典型的LLM推理,對計(jì)算資源的消耗則上升至T量級(jí)(即10的12次方)。由此可見,LLM推理過程對計(jì)算資源消耗相較于用戶搜索高出三個(gè)數(shù)量級(jí),算力的重要性凸顯出來。對計(jì)算資源的顯著需求,成為制約人工智能技術(shù)普及到互聯(lián)網(wǎng)應(yīng)用那樣程度的關(guān)鍵因素。盡管DeepSeek顯著降低對計(jì)算資源的需求接近一個(gè)數(shù)量級(jí),但相較于互聯(lián)網(wǎng)應(yīng)用,仍存在巨大差距。
算力的提法是借鑒電力,那么計(jì)算性能等同于算力嗎?我們對算力這個(gè)術(shù)語的內(nèi)涵,以及對應(yīng)的英文單詞Computility進(jìn)行了闡述(見《中國計(jì)算機(jī)學(xué)會(huì)通訊》,2022年12月)。人們對計(jì)算能力的關(guān)注從早期單一的計(jì)算速度變到計(jì)算性能,關(guān)注的維度增加了,再演進(jìn)到算力,內(nèi)涵更加豐富。算力的簡單理解是計(jì)算性能的通俗化表述(從算力產(chǎn)生的視角),其內(nèi)涵拓展為消耗計(jì)算資源產(chǎn)生效益的能力(從算力消耗的視角),其本質(zhì)是計(jì)算資源的共享與服務(wù)化。電力作為一種二次能源,由發(fā)電、輸電、變電、配電及用電等環(huán)節(jié)構(gòu)成了一個(gè)能源的生產(chǎn)與消費(fèi)系統(tǒng)。類似地,算力也可視為計(jì)算資源的一種二次封裝,而算力網(wǎng)則是由算力站、算力并網(wǎng)、算網(wǎng)融合調(diào)度、算力任務(wù)編排、算力數(shù)據(jù)傳輸及算力終端等環(huán)節(jié),共同組成了計(jì)算資源的生產(chǎn)與消費(fèi)系統(tǒng)。
計(jì)算成為算力需要核心三要素:計(jì)算二次封裝、算力基礎(chǔ)設(shè)施化、算力終端。
第一個(gè)核心要素,計(jì)算的二次封裝,涉及對計(jì)算資源、計(jì)算架構(gòu)、計(jì)算消耗的封裝技術(shù)。計(jì)算資源的封裝技術(shù)包括容器、任務(wù)閉包(task closure)、算力池等;計(jì)算架構(gòu)的封裝技術(shù)包括跨平臺(tái)虛擬機(jī)JVM、CVM等;計(jì)算消耗的封裝技術(shù)包括超算、智算、通算的算力單一計(jì)量方法(如BOPs),算力供給能力的量化單位(算力的“瓦”),用戶端算力消耗的量化單位(算力的“度”)。
算力網(wǎng)中計(jì)算的基本抽象將會(huì)發(fā)生哪些改變?如圖8所示,算力基本抽象包括原子化編排、資源空間管理、算力資源封裝三個(gè)層次,按照技術(shù)的演進(jìn),算力基本抽象從<線程,進(jìn)程,CPU時(shí)間片>,發(fā)展到<微服務(wù),容器,虛擬機(jī)池>,再發(fā)展到<任務(wù)閉包,網(wǎng)程,算力池>。在IT 1.0的大型主機(jī)階段,并行與分布式應(yīng)用是在線程抽象的基礎(chǔ)上構(gòu)建,進(jìn)程是對計(jì)算資源分配與調(diào)度的基本單元,可以跨CPU時(shí)間片運(yùn)行;在IT 2.0的云計(jì)算階段,實(shí)現(xiàn)了計(jì)算能力的虛擬化,微服務(wù)是云原生應(yīng)用原子化編排的抽象,容器是對基礎(chǔ)軟硬件資源的封裝,云應(yīng)用可以跨虛擬機(jī)運(yùn)行;在IT 3.0的算力網(wǎng)階段,對全網(wǎng)計(jì)算資源要用“一臺(tái)大電腦”的思想提供新的抽象,任務(wù)閉包可以在端邊云異構(gòu)平臺(tái)上流動(dòng)和運(yùn)行;網(wǎng)程是對端上的物理機(jī)、邊上的虛擬機(jī)、云上并網(wǎng)的算力池,進(jìn)行統(tǒng)一封裝,形成一個(gè)智能應(yīng)用的私有資源空間;算力網(wǎng)上的異地、異屬、異構(gòu)的算力資源并網(wǎng)后,形成可一體化調(diào)度的算力池。
圖8:計(jì)算的基本抽象演變
第二個(gè)要素,算力基礎(chǔ)設(shè)施化,如圖9所示,類比于電力的源網(wǎng)儲(chǔ)荷,可以依次分解成四層:算力站、算力并網(wǎng)與算力數(shù)據(jù)輸運(yùn)、算網(wǎng)融合調(diào)度與算力任務(wù)編排、算力終端。
圖9:算力基礎(chǔ)設(shè)施化結(jié)構(gòu)圖
第三個(gè)要素,算力終端,這部分還沒有收斂,使用算力的超級(jí)入口可能是AI4S模型工廠、AI終端、智能物端等。智能手機(jī)(移動(dòng)終端)是云計(jì)算得以普及化的基石,同理,人工智能終端(算力終端)將成為算力服務(wù)普及化的基石。
四、數(shù)據(jù)空間
智能時(shí)代,數(shù)據(jù)發(fā)生了什么根本改變?
數(shù)據(jù)是一種客觀存在(being),一直都是信息技術(shù)的關(guān)鍵要素,在智能時(shí)代,它被賦予了資源要素與價(jià)值加工兩重新屬性。資源要素屬性是從經(jīng)濟(jì)學(xué)角度,強(qiáng)調(diào)作為經(jīng)濟(jì)要素?cái)?shù)據(jù)的流通性,內(nèi)容涵蓋數(shù)據(jù)匯聚、處理、流通、應(yīng)用、運(yùn)營、安全保障等多個(gè)方面(參考“數(shù)據(jù)20條”政策)。數(shù)據(jù)要素化是數(shù)據(jù)生命周期不斷外延的必然結(jié)果。如圖10所示,數(shù)據(jù)的生命周期逐漸從單個(gè)應(yīng)用,外延到組織,最終外延到整個(gè)社會(huì)。在第一個(gè)階段,數(shù)據(jù)存在于特定的業(yè)務(wù)信息系統(tǒng)的邊界內(nèi),產(chǎn)生了多種數(shù)據(jù)庫;到了第二個(gè)階段,數(shù)據(jù)需要在一個(gè)組織的企業(yè)信息系統(tǒng)的各個(gè)業(yè)務(wù)系統(tǒng)中共享流動(dòng),產(chǎn)生了數(shù)據(jù)倉庫、數(shù)據(jù)中臺(tái)技術(shù);到了第三個(gè)階段,數(shù)據(jù)存在于社會(huì)化信息系統(tǒng)中,需要最大范圍地共享與流動(dòng),產(chǎn)生了數(shù)字對象、數(shù)據(jù)登記與數(shù)據(jù)交易所、數(shù)據(jù)件等技術(shù)。
圖10:數(shù)據(jù)生命周期演化圖
價(jià)值加工屬性是從IT技術(shù)角度,強(qiáng)調(diào)對數(shù)據(jù)的深度加工與增值利用;智能大模型就是數(shù)據(jù)的百煉成鋼,數(shù)據(jù)加工的需求涉及加工組件(如數(shù)據(jù)標(biāo)注、數(shù)據(jù)件)、加工工藝(如廣譜關(guān)聯(lián)分析、深度學(xué)習(xí)算法)、加工動(dòng)力(如算力網(wǎng))等。
兩個(gè)屬性由此催生了新的技術(shù)體系,在數(shù)據(jù)“供得出”方面催生了物聯(lián)網(wǎng)(數(shù)據(jù)獲取)、數(shù)據(jù)標(biāo)注等;在數(shù)據(jù)“流得動(dòng)”方面催生了數(shù)聯(lián)網(wǎng)、可信數(shù)據(jù)空間等;在數(shù)據(jù)“用得好”方面催生了數(shù)據(jù)件與數(shù)據(jù)場、AI-ready數(shù)據(jù)工程等。
在智能時(shí)代,數(shù)據(jù)的組織、流通、使用都發(fā)生了改變。
首先,智能時(shí)代數(shù)據(jù)是如何被組織起來的?不同時(shí)代的數(shù)據(jù)組織體系如圖11所示。在計(jì)算時(shí)代,數(shù)據(jù)被抽象成文件,組織成文件系統(tǒng),在網(wǎng)絡(luò)文件系統(tǒng)中實(shí)現(xiàn)共享。在網(wǎng)絡(luò)時(shí)代,數(shù)據(jù)被抽象成網(wǎng)頁,組織成網(wǎng)站,海量網(wǎng)頁被搜索和推薦引擎進(jìn)一步重構(gòu)成信息流,最終在萬維網(wǎng)中實(shí)現(xiàn)了信息的全球共享。在智能時(shí)代,我們的構(gòu)想是將數(shù)據(jù)件定義為數(shù)據(jù)的最小抽象單元,類似于鋼鐵加工中的鑄件,它是鐵礦石經(jīng)過粗加工后形成標(biāo)準(zhǔn)化產(chǎn)品;數(shù)據(jù)場是數(shù)據(jù)件匯集的組織形式,在數(shù)據(jù)場中可以便利地進(jìn)行數(shù)據(jù)深加工;在此基礎(chǔ)上構(gòu)建可信數(shù)據(jù)空間,支持在廣域范圍內(nèi)進(jìn)行私域數(shù)據(jù)的流通利用;在更高的監(jiān)管層,形成國家數(shù)據(jù)空間,在此需要考慮體現(xiàn)出國家主權(quán)屬性,如管轄權(quán)與治理權(quán);進(jìn)一步構(gòu)建國際數(shù)據(jù)空間,依據(jù)國際社會(huì)形成的規(guī)范,實(shí)現(xiàn)數(shù)據(jù)的跨境流動(dòng)。
圖11:不同時(shí)代數(shù)據(jù)體系的構(gòu)成
如圖12所示,對比分析了國家主權(quán)屬性在網(wǎng)絡(luò)空間與數(shù)據(jù)空間的不同體現(xiàn)。在對外防衛(wèi)方面,網(wǎng)絡(luò)空間需要網(wǎng)絡(luò)關(guān)防系統(tǒng),數(shù)據(jù)空間需要數(shù)據(jù)跨境流通關(guān)防系統(tǒng)。對內(nèi)治理可分成物理層、邏輯層以及內(nèi)容層。在物理層,網(wǎng)絡(luò)空間涉及網(wǎng)絡(luò)基礎(chǔ)設(shè)施的建設(shè)與運(yùn)營,數(shù)據(jù)空間則關(guān)注數(shù)據(jù)樞紐、行業(yè)數(shù)倉等數(shù)據(jù)基礎(chǔ)設(shè)施的建設(shè)與運(yùn)營;在邏輯層,網(wǎng)絡(luò)空間國家承擔(dān)了IP地址分配、網(wǎng)站備案等管理職責(zé),數(shù)據(jù)空間則涵蓋了數(shù)據(jù)登記、數(shù)據(jù)交易所、戰(zhàn)略數(shù)據(jù)儲(chǔ)備等管理職能;在內(nèi)容層,網(wǎng)絡(luò)空間國家負(fù)責(zé)互聯(lián)網(wǎng)內(nèi)容的監(jiān)管,數(shù)據(jù)空間則著重于數(shù)據(jù)安全的治理,如基礎(chǔ)大模型預(yù)訓(xùn)練數(shù)據(jù)的安全治理。
圖12:國家主權(quán)屬性:網(wǎng)絡(luò)空間 vs 數(shù)據(jù)空間
其次,智能時(shí)代的數(shù)據(jù)是如何流通利用的?相比于互聯(lián)網(wǎng)時(shí)代的信息全球共享,智能時(shí)代的數(shù)據(jù)流通更加關(guān)注可信與價(jià)值釋放模式。用于數(shù)據(jù)流通的可信數(shù)據(jù)空間應(yīng)歸納成若干基本型,其定義可由<基本單元、空間結(jié)構(gòu)、價(jià)值釋放模式>三個(gè)維度進(jìn)行界定。類比地,原子場、電磁場、引力場等物理場由<基本粒子或物體、力的相互作用、運(yùn)動(dòng)規(guī)律>三個(gè)維度界定了基本型??尚艛?shù)據(jù)空間分為四個(gè)基本型,分別是:互聯(lián)互操作型、可用不可見型、可信交換型、聚合加工型。
第一種類型為互聯(lián)互操作型(如圖13),其典型技術(shù)體系為數(shù)聯(lián)網(wǎng),可用<數(shù)據(jù)對象、數(shù)聯(lián)網(wǎng)協(xié)議、Web信息流通模式>三元組歸納,該體系的核心思想是通過數(shù)據(jù)的相互聯(lián)結(jié)、相互操作,實(shí)現(xiàn)數(shù)據(jù)價(jià)值的釋放。第二種類型為可用不可見型(如圖14),其典型技術(shù)體系為數(shù)據(jù)金庫,可用<數(shù)據(jù)元件、數(shù)據(jù)金庫、銀行資金流通模式>三元組歸納,該體系的核心思想是通過集中式監(jiān)管,實(shí)現(xiàn)對高價(jià)值數(shù)據(jù)的控制,支持?jǐn)?shù)據(jù)的可用不可見。第三種類型為可信交換型(如圖15),其典型技術(shù)體系為IDS,可用<數(shù)據(jù)集、IDS連接器、土地/房屋流通模式>三元組歸納,該體系的核心思想是通過一個(gè)具有公信力的組織或協(xié)會(huì),實(shí)現(xiàn)數(shù)據(jù)的可信交換,數(shù)據(jù)交易所也屬于這種類型。第四種類型為聚合加工型(如圖16),其典型技術(shù)體系為數(shù)場,可用<數(shù)據(jù)件、數(shù)據(jù)場、圖書館知識(shí)流通模式>三元組歸納,該體系的核心思想是數(shù)據(jù)加工方主導(dǎo)數(shù)據(jù)流通,以類似于網(wǎng)絡(luò)主播的商業(yè)模式實(shí)現(xiàn)廣域范圍內(nèi)數(shù)據(jù)的有序匯聚,支撐數(shù)據(jù)的深加工。
圖13:互聯(lián)互操作型
圖14:可用不可見型
圖15:可信交換型
圖16:聚合加工型
智能時(shí)代數(shù)據(jù)的使用方式主要是機(jī)器學(xué)習(xí)與大模型訓(xùn)練,需要發(fā)明一套數(shù)據(jù)件系統(tǒng)將原始數(shù)據(jù)變成AI-ready數(shù)據(jù)。數(shù)據(jù)件(Dataware)是數(shù)據(jù)流動(dòng)與使用的基本單位,通過對異質(zhì)多源數(shù)據(jù)的語義、結(jié)構(gòu)、基本操作等進(jìn)行標(biāo)準(zhǔn)化封裝,使得數(shù)據(jù)本體與數(shù)據(jù)主體、數(shù)據(jù)應(yīng)用“解耦”,讓數(shù)據(jù)在不同使用主體、不同應(yīng)用系統(tǒng)間可信流轉(zhuǎn)。在云計(jì)算中,容器(docker)是對應(yīng)用程序及其資源依賴的封裝,讓算法可以在不同平臺(tái)上一鍵運(yùn)行,同理,數(shù)據(jù)件讓數(shù)據(jù)可以在不同的機(jī)器學(xué)習(xí)平臺(tái)上被方便地加工利用(如圖17)。
圖17:容器(docker)和數(shù)據(jù)件(Dataware)
以AI大模型精調(diào)場景為例,通過數(shù)據(jù)件構(gòu)造IDE實(shí)現(xiàn)預(yù)訓(xùn)練、指令微調(diào)、向量數(shù)據(jù)件的快速構(gòu)造與組裝,被大模型訓(xùn)練直接調(diào)用,可大幅簡化傳統(tǒng)數(shù)據(jù)工程的工作量(如圖18)。
圖18:AI-ready數(shù)據(jù)件組裝工具
五、模型工廠
智能體(Agent)是模型基礎(chǔ)設(shè)施的使用入口,模型工廠(AI Foundry)則是使用算力和數(shù)據(jù)基礎(chǔ)設(shè)施來加工模型、部署智能應(yīng)用的超級(jí)入口。
DeepMind公司研制的AlphaFold系列軟件,在已經(jīng)研究了70年的“蛋白質(zhì)折疊”問題上,作出了突破性貢獻(xiàn),其領(lǐng)導(dǎo)者Hassabis 和 Jumper獲得了2024年的諾貝爾化學(xué)獎(jiǎng)。AlphaFold的獲獎(jiǎng)代表了科研范式的重大改變,是融合大模型、大算力、大數(shù)據(jù)、大團(tuán)隊(duì)服務(wù)科學(xué)研究的典范。那么,在科研領(lǐng)域如何支撐起成千上萬個(gè)AlphaFold-Like團(tuán)隊(duì)呢?AI賦能行業(yè)應(yīng)用如何達(dá)到互聯(lián)網(wǎng)賦能那樣的普及程度?這就需要為智能時(shí)代信息基礎(chǔ)設(shè)施提供一個(gè)使用算力、算法、數(shù)據(jù)來加工模型的低門檻通用入口,模型工廠就是這樣的一個(gè)平臺(tái)。
模型工廠概念的提出借鑒了芯片代工廠在集成電路產(chǎn)業(yè)的定位與功能。芯片產(chǎn)業(yè)模式的變遷如圖19所示,它從設(shè)計(jì)-制造一體化模式,演變到無制造廠(Fabless)模式(即Foundry),再演變到今天的集成芯片模式。其中,F(xiàn)oundry即芯片代工廠的意思,為芯片設(shè)計(jì)的普及起到了關(guān)鍵作用,促使了英偉達(dá)、高通等芯片企業(yè)的崛起。借鑒芯片產(chǎn)業(yè),大模型的開發(fā)也可以分割成兩個(gè)生態(tài):場景與業(yè)務(wù)相關(guān)的大模型設(shè)計(jì)生態(tài),和智能計(jì)算技術(shù)相關(guān)的大模型代工廠生態(tài)。
圖19:芯片產(chǎn)業(yè)模式的變遷
在當(dāng)前人工智能產(chǎn)業(yè)中,設(shè)計(jì)-制造一體化的IDM模式占據(jù)主導(dǎo)地位,國家與地方政府提供的大模型訓(xùn)練基礎(chǔ)設(shè)施仍處于算力供應(yīng)的初級(jí)階段,商湯AI云、百度千帆等平臺(tái)正逐步向大模型代工廠的角色邁進(jìn)。當(dāng)人工智能產(chǎn)業(yè)孕育出類似于芯片領(lǐng)域臺(tái)積電、中興國際這樣的代工企業(yè)時(shí),將催生出眾多專注于大模型設(shè)計(jì)的創(chuàng)新型企業(yè),專注于用好大模型的行業(yè)應(yīng)用也會(huì)更加繁榮。相較于IDM企業(yè),芯片代工廠擁有各自獨(dú)特的優(yōu)勢,例如豐富的IP資源、多類型且極致優(yōu)化的生產(chǎn)線、物理設(shè)計(jì)服務(wù)、制造產(chǎn)能、成品率等。同理,每個(gè)大模型代工廠也需構(gòu)建自身的競爭優(yōu)勢,例如數(shù)據(jù)AI-ready能力、高效訓(xùn)練或推理流水線、彈性或輕量化部署能力、智算中心的性價(jià)比、算力網(wǎng)調(diào)度能力、豐富的Build-in模型庫、開源模型儲(chǔ)備庫等(如圖20)。國家數(shù)據(jù)流通利用基礎(chǔ)設(shè)施在這個(gè)生態(tài)中可以起到為各行各業(yè)提供大模型代工所需的基礎(chǔ)材料的作用。
圖20:芯片代工與大模型代工
模型工廠的參考架構(gòu)如圖21所示,算力網(wǎng)是基礎(chǔ)底座,功能區(qū)主要包括AI-ready數(shù)據(jù)件、AI訓(xùn)推平臺(tái)、模型集市、智能應(yīng)用等。圖22給出了AI4S模型工廠更細(xì)化的架構(gòu),底層是模型、數(shù)據(jù)、算力三個(gè)基礎(chǔ)設(shè)施,中間開發(fā)環(huán)境層包括五條AI生產(chǎn)流水線,上層是科學(xué)智能的三類用戶接口。目前,AI4S模型工廠系統(tǒng)已經(jīng)開發(fā)了七個(gè)子系統(tǒng),包括:AI-ready數(shù)據(jù)件、高效訓(xùn)推平臺(tái)、基于算力統(tǒng)一度量的算力優(yōu)選、模型集市、算力網(wǎng)云函數(shù)開發(fā)平臺(tái)、多智能體開發(fā)框架、智能應(yīng)用服務(wù)平臺(tái)。
圖21:模型工廠的參考架構(gòu)
圖22:AI4S模型工廠架構(gòu)
六、智能計(jì)算機(jī)
智能時(shí)代的終端包括智能硬件、可穿戴設(shè)備、VR設(shè)備等智能物端,智能機(jī)器人、人形機(jī)器人、自主無人系統(tǒng)等具身計(jì)算機(jī),以及位于云端的智能超算,它們可以統(tǒng)稱為智能計(jì)算機(jī)。
智能計(jì)算包含三個(gè)緊密耦合的核心要素:人工智能范式、核心智能應(yīng)用、智能計(jì)算架構(gòu)。歸納總結(jié)一下智能計(jì)算機(jī)的發(fā)展規(guī)律,在人工智能發(fā)展的初期(AI 1.0),符號(hào)主義范式占據(jù)主導(dǎo)地位,應(yīng)用以專家系統(tǒng)為代表,曙光高性能計(jì)算機(jī)(HPC)是計(jì)算架構(gòu)上的代表性成果,數(shù)值計(jì)算、數(shù)理邏輯和數(shù)據(jù)庫等傳統(tǒng)應(yīng)用亦可視為屬于符號(hào)主義技術(shù)路線。深度神經(jīng)元網(wǎng)絡(luò)出現(xiàn)后,連接主義范式成為主流(AI 2.0),深度學(xué)習(xí)與大語言模型成為核心應(yīng)用,寒武紀(jì)神經(jīng)網(wǎng)絡(luò)處理器(NPU)是智能計(jì)算架構(gòu)上的代表性成果。未來,當(dāng)AGI來臨時(shí)(AI 3.0),智能計(jì)算的核心要素三元組該如何演變呢?我們猜測,行為主義范式可能成為主要特征,具身智能應(yīng)用與科學(xué)發(fā)現(xiàn)的智能范式將成為應(yīng)用焦點(diǎn),機(jī)器記憶機(jī)有望成為智能計(jì)算架構(gòu)上的代表性成果。
李德毅院士在他的《認(rèn)知機(jī)器如何創(chuàng)造》一書中提出了機(jī)器認(rèn)知的四種基本模式(如圖23),他認(rèn)為:“在人類歷史長河中,使用較多的是記憶驅(qū)動(dòng)的經(jīng)驗(yàn)?zāi)J剑∣OA),當(dāng)人們對事物有了一定的認(rèn)知,就能夠運(yùn)用知識(shí)對事物作出判斷和推理,即運(yùn)用知識(shí)驅(qū)動(dòng)的推理模式(OODA),解決實(shí)際問題。人類的高級(jí)智能活動(dòng),無論是創(chuàng)造還是發(fā)現(xiàn),都需要聯(lián)想驅(qū)動(dòng)的創(chuàng)造模式(OOCA)和假設(shè)驅(qū)動(dòng)的發(fā)現(xiàn)模式(OOHA),這也是社會(huì)不斷前進(jìn)的真正動(dòng)力。人類記憶是四種模式的共同交集?!?/p>
圖23:機(jī)器認(rèn)知的四種基本模式
再看一下人類是如何產(chǎn)生和加工記憶的。人類的記憶(memory)是一種信息加工系統(tǒng),它對信息進(jìn)行編碼(encoding)、存儲(chǔ)(storage)和提?。╮etrieval),記憶是形成人們的思維和行為的原料。Richard Atkinson與Richard Schiffrin率先提出記憶的三階段模型,將記憶過程劃分為三個(gè)主要階段:感覺記憶(持續(xù)數(shù)秒)、工作記憶(持續(xù)20至30秒)以及長時(shí)記憶(長期)。信息都必須先經(jīng)過感覺記憶和工作記憶的加工,最終進(jìn)入長時(shí)記憶。工作記憶在這一模型中扮演著至關(guān)重要的角色,它負(fù)責(zé)信息的臨時(shí)處理和操縱。從心理學(xué)的視角,Transformer模型正是基于對工作記憶機(jī)制的模仿與借鑒。
對人類來說,記憶是十分重要的智能,沒有機(jī)器記憶,恐怕也很難創(chuàng)造出通用人工智能(AGI)。大模型只為AI提供了以“概念、常識(shí)和事實(shí)”為主的語義記憶(知識(shí)),完全不具備具身體驗(yàn)型記憶。為此,需要研究機(jī)器記憶機(jī)制,基于腦科學(xué)關(guān)于感覺記憶、工作記憶和長時(shí)記憶的三階段記憶模型,針對程序性記憶、時(shí)空情景記憶、情感記憶和社會(huì)記憶等具身型記憶,構(gòu)建記憶編碼、存儲(chǔ)和提取的計(jì)算模型,實(shí)現(xiàn)智能體的自主學(xué)習(xí)和持續(xù)發(fā)展。機(jī)器記憶系統(tǒng)通過積累與整合其與物理世界的交互經(jīng)驗(yàn),形成動(dòng)態(tài)可擴(kuò)展的世界模型和認(rèn)知智能模型。
我們提出一個(gè)猜想,未來將會(huì)發(fā)明一種行為主義通用計(jì)算機(jī)——機(jī)器記憶機(jī)(如圖24)。符號(hào)主義下的通用計(jì)算機(jī)就是傳統(tǒng)計(jì)算機(jī),也可以稱之為布爾代數(shù)機(jī),其核心組件是CPU和存儲(chǔ)體;連接主義下的通用計(jì)算機(jī)就是機(jī)器學(xué)習(xí)機(jī),其核心組件是GPU和模型庫;那么行為主義下的通用計(jì)算機(jī)就是機(jī)器記憶機(jī),其核心組件可能是PIM(Processor in Memory)和記憶體。PIM能夠直接對內(nèi)存中的數(shù)據(jù)進(jìn)行原位處理,無需將數(shù)據(jù)頻繁地傳輸?shù)紺PU進(jìn)行處理,它結(jié)合新型存儲(chǔ)器件,可實(shí)現(xiàn)數(shù)據(jù)的即時(shí)存儲(chǔ)和即時(shí)處理,為智能計(jì)算機(jī)的發(fā)展帶來革命性的突破。
圖24:機(jī)器智能的通用計(jì)算機(jī)
圖25給出一種具身計(jì)算機(jī)(EC)的參考架構(gòu),主要思想是基于不同的存儲(chǔ)器件支持不同階段的記憶模型,形成一個(gè)高效的OODA智能處理流程,并且將符號(hào)主義、連接主義、行為主義的技術(shù)路線緊耦合起來。智能流的輸入是傳感器,輸出是執(zhí)行器。在認(rèn)知的OODA環(huán)中,物理感知小模型負(fù)責(zé)處理短期記憶任務(wù)(Observe),深度學(xué)習(xí)大模型承擔(dān)工作記憶的處理(Orient),場景知識(shí)提取機(jī)制專注于長期記憶的管理(Decide),復(fù)雜運(yùn)動(dòng)控制則通過定制硬件操作PLC庫實(shí)現(xiàn)(Act)。在通用CPU/GPU分區(qū)則運(yùn)行智能體、數(shù)理邏輯、數(shù)值計(jì)算、數(shù)據(jù)庫這些基于嚴(yán)格的數(shù)學(xué)符號(hào)表達(dá)的應(yīng)用。
圖25:具身計(jì)算機(jī)參考架構(gòu)
最后,討論一下對科研發(fā)現(xiàn)的智能范式(第五范式)的認(rèn)識(shí),它將影響Z級(jí)智能超算的技術(shù)路線。
我們將科學(xué)發(fā)現(xiàn)的五種范式統(tǒng)一到以信息流為流通媒介的OOHV范式上(如圖26)。在觀測階段(Observe),通過觀測儀器進(jìn)行數(shù)據(jù)采集;在模擬階段(Orient),借助數(shù)值計(jì)算與大數(shù)據(jù)分析技術(shù)進(jìn)行數(shù)據(jù)處理;在猜想階段(Hypothesis),依托科學(xué)家的專業(yè)知識(shí)與科學(xué)理論進(jìn)行假設(shè)構(gòu)建;在實(shí)驗(yàn)階段(Verify),則利用科學(xué)裝置進(jìn)行實(shí)驗(yàn)驗(yàn)證。從信息科學(xué)的視角看,科學(xué)發(fā)現(xiàn)的過程就是OOHV不斷循環(huán)交換信息的過程。不同的科學(xué)范式,就是從不同的切入點(diǎn)進(jìn)入OOHV循環(huán),科學(xué)實(shí)驗(yàn)范式從O1或V進(jìn)入循環(huán),科學(xué)理論范式從H進(jìn)入循環(huán),科學(xué)計(jì)算范式和科學(xué)數(shù)據(jù)范式從O2進(jìn)入循環(huán),分別利用數(shù)值計(jì)算和大數(shù)據(jù)分析輔助科學(xué)發(fā)現(xiàn),而在每個(gè)環(huán)節(jié)都利用到了信息技術(shù)。第五種科學(xué)研究范式——科學(xué)智能范式,就是通過人工智能技術(shù)賦能OOHV的每個(gè)環(huán)節(jié),主要用到的AI技術(shù)包括:科學(xué)數(shù)據(jù)機(jī)器學(xué)習(xí)、HPC+AI計(jì)算、科學(xué)猜想大語言模型、具身智能等。
圖26:科學(xué)智能范式
AI賦能高度依賴訓(xùn)練數(shù)據(jù),AI4S在OOHV的不同階段的數(shù)據(jù)來源與AI技術(shù)挑戰(zhàn)如圖27所示。在觀測階段(O1),從不同學(xué)科的觀察儀器獲取的觀測數(shù)據(jù),由AI模型處理,給科研人員使用,技術(shù)挑戰(zhàn)是AI模型要跟物理性質(zhì)錨定;在模擬階段(O2),訓(xùn)練數(shù)據(jù)是由數(shù)值計(jì)算算法生成的,構(gòu)建AI模型的難點(diǎn)是對高階函數(shù)的擬合,AI模型嵌入到HPC程序中;在猜想階段(H),結(jié)合學(xué)科知識(shí)與行業(yè)手冊構(gòu)建大型語言模型,由科研人員進(jìn)行推理,技術(shù)挑戰(zhàn)是強(qiáng)邏輯鏈,不能出現(xiàn)幻覺;在實(shí)驗(yàn)階段(V),從不同專業(yè)的實(shí)驗(yàn)裝置獲取的傳感數(shù)據(jù),由AI模型處理,給控制系統(tǒng)使用,技術(shù)挑戰(zhàn)是AI模型要跟數(shù)學(xué)控制模型耦合。
圖27:科學(xué)智能的數(shù)據(jù)來源? ?
(根據(jù)孫凝暉院士在2025年計(jì)算所春季戰(zhàn)略規(guī)劃會(huì)上的報(bào)告整理)