智能體,與人類共生的新物種?
1月31日,人形機器人攻關團隊科研人員在多模態(tài)人工智能系統(tǒng)全國重點實驗室調試機器人
文/《環(huán)球》雜志記者?彭茜
編輯/樂艷娜
在冒險類游戲《荒野大鏢客2》廣袤而荒蠻的西部世界,Cradle策馬縱橫馳騁,自由探索,完成了長達40分鐘的主線劇情;鄉(xiāng)村經營類游戲《星露谷物語》中,Cradle搖身一變,成為勤勤懇懇的農場主,悉心觀察作物狀態(tài),澆水施肥;商業(yè)模擬游戲《當鋪人生2》中,Cradle根據(jù)顧客情緒和商品信息,熟練地討價還價……
Cradle可不是什么高階的游戲玩家。嚴格地說,它不是人,而是一個智能體(Agent)。
智能體,這個最早由被稱為“人工智能(AI)之父”的美國認知科學家馬文·明斯基于1986年提出的概念,近期忽然“翻紅”,成為業(yè)界和學界的熱議話題。
鍛造“全才”
智能體是AI領域的一個重要概念,但對于什么是智能體,目前學界還沒有一個比較統(tǒng)一的定義。不過總體上,一般認同智能體是指能夠自主感知環(huán)境、做出決策并執(zhí)行行動的智能實體。
首先,它要有自主性,可自主決策,根據(jù)目標采取行動。自主使用工具是衡量動物智能的重要指標,也是區(qū)別智能體與非智能體的關鍵。
拿Cradle來說,這款由北京智源人工智能研究院、昆侖萬維、新加坡南洋理工大學、北京大學等機構聯(lián)合研發(fā)的智能體,除了能完成各種游戲挑戰(zhàn),還可以輕松操作各種軟件工具,比如在美圖秀秀里修圖、用剪映剪視頻、從網頁上下載論文、在推特上發(fā)文,堪稱“十八般武藝樣樣精通”。
Cradle的“全能性”,源于它采用了通用計算機控制(GCC)框架,能夠像人類一樣,使用屏幕、鍵盤和鼠標等與不同軟件交互。
“不同于以往專注于特定軟件或環(huán)境的智能體,Cradle首次提出了GCC的概念,旨在構建能通過統(tǒng)一的人機界面(屏幕截圖、鍵盤和鼠標操作)與任何軟件進行交互的智能體,無需訪問其源代碼或API(應用程序編程接口),從而極大擴展了智能體的應用范圍。”北京大學計算機學院副教授、智源學者盧宗青接受《環(huán)球》雜志記者采訪時說。
其次,它能與環(huán)境交互,從外部世界獲取信息,進而影響外部世界。這是智能體的另一個重要特質。
人們熟悉的自動駕駛汽車,就是一類已經開始逐步融入我們生活的智能體,它可以通過車載雷達和攝像頭收集周邊環(huán)境狀況,做出路線規(guī)劃和行駛、停止等動作。
此外,智能體還應是一個有“學習能力”的人工智能(AI),具備可進化性,可以自我迭代,能夠在工作過程中通過反饋逐步自動優(yōu)化自身,比如學習新技能和優(yōu)化技能組合。
盧宗青說,Cradle就可以自主更新、自我糾錯,自動適應新的任務要求,推動各行各業(yè)的智能化轉型。
以ChatGPT為代表的大語言模型(LLM)的出現(xiàn),標志著智能體進入批量化生產時代。此前,智能體需靠專業(yè)的計算機科學人員歷經多輪研發(fā)測試,現(xiàn)在依靠大語言模型就可迅速將特定目標轉化為程序代碼,生成各式各樣的智能體。而兼具文字、圖片、視頻生成和理解能力的多模態(tài)大模型(LMM),也為智能體發(fā)展創(chuàng)造了有利條件,使得它們可以利用計算機視覺“看見”虛擬或現(xiàn)實的三維世界,這對于人工智能非玩家角色(AI NPC)和機器人研發(fā)都尤為重要。
在盧宗青看來,LMM是智能體的“大腦”,其他底層技術手段是智能體的“感官”和“肢體”。比如,Cradle以GPT-4o模型為“大腦”,結合了目標檢測、圖像分割、文本檢索等技術,利用GPT-4o強大的多模態(tài)理解和生成能力,處理來自環(huán)境的屏幕截圖和文本信息,生成鍵盤和鼠標操作指令,實現(xiàn)了對多種軟件和游戲的控制。
共生的“新物種”
“它不只是一款操作軟件,它是一種思想,能夠直觀地傾聽你、理解你、了解你?!笨苹秒娪啊端分校珹I助手薩曼莎成為男主角西奧多希的知心伴侶,幫他處理日?,嵤拢瑸樗沤夤录排c陰霾。
薩曼莎代表了智能體未來發(fā)展的一種形態(tài)——智能助手。她不僅談天說地、噓寒問暖,甚至還能與人類談情說愛。這種科幻暢想,已經離我們不再遙遠。
斯坦福大學計算機科學系和電氣工程系客座教授吳恩達等認為,使用Agentic System(智能體系統(tǒng))這個概念,可以更好地幫助我們理解智能體的本質。就像自動駕駛汽車根據(jù)其自動駕駛能力可分為L1到L4級別一樣,人們也可以將智能體的智能化能力視為一個頻譜,判斷一個系統(tǒng)在多大程度上成為智能體??筛鶕?jù)LLM在內容輸出、規(guī)劃與決策層面的參與程度,來判斷一個應用的智能化程度。如果在一個系統(tǒng)中LLM決定該系統(tǒng)行為的程度很高,就可稱之為“高度智能體化”。
目前,可在不同專業(yè)領域與人類互動,并輔助文圖生成、內容分析、數(shù)據(jù)處理等工作的L1至L2級智能體已如雨后春筍般涌現(xiàn)。打開字節(jié)跳動AI大模型“豆包”的人機交互界面,選擇“發(fā)現(xiàn)智能體”下拉菜單,好似進入一個琳瑯滿目的智能體超市:具備廣告策劃能力的“廣告狂人”智能體,可提供英語口語教學的個性化“英文老師Bruce”,擅長創(chuàng)作有趣故事的“故事大王”……甚至還有各種名人虛擬化身智能體,比如巴黎奧運會期間,體育解說員黃健翔智能體可以帶來激情澎湃的賽事解說,奧運跳水冠軍吳敏霞智能體則提供了跳水比賽的專業(yè)分析。
而“高度智能體化”的薩曼莎應該能達到L3甚至L4級別。智能體的終極進化目標,就是L4級別的通用人工智能(AGI)——像人類一樣具備廣泛智能和通用性,能夠在各種情境和任務中自主地學習、決策和行動。
Cradle(搖籃)的命名就代表著研究團隊對實現(xiàn)AGI的美好暢想,“正如搖籃孕育著生命的開始,通用計算機控制(GCC)也承載著我們對AGI的期許,”盧宗青說,他們認為GCC將是通往AGI的一條快速且經濟的道路。GCC的實現(xiàn)安全、高效,能夠廣泛部署于網頁應用、桌面軟件、游戲環(huán)境以及任何搭載操作系統(tǒng)的終端應用。
Cradle未來將如何進化?盧宗青說,它的最終形態(tài)將不再局限于“計算機控制”,而是成為一個能夠在各領域輔助人類的通用AI智能體:在任何操作系統(tǒng)環(huán)境中運行,與各種軟件和應用程序交互,完成各種復雜任務。此外,它還能像人類一樣通過觀察、模仿、試錯等方式學習新技能和知識,不斷自我完善。它將通過自然語言、語音、圖像等方式與人類進行自然交互,理解人類意圖,提供個性化服務。
盧宗青暢想,未來將進入與智能體共生的時代,人人擁有如薩曼莎一樣的私人智能管家,貼心陪伴左右。它細心幫我們安排好一天行程,精心預訂符合我們口味的餐廳,針對我們的健康狀況提供個性化醫(yī)療方案……我們閱讀著由新聞智能體精挑細選的每日動態(tài),最新的爆炸性新聞是由科學家和科學智能體共同發(fā)現(xiàn)了新物理定律。
7月4日在2024世界人工智能大會傲意科技展位拍攝的機器人靈巧手
而電影中西奧多希望薩曼莎能擁有一個真實存在實體的愿望,也終將實現(xiàn)。
“雖然目前Cradle主要處理視覺和文本信息,但未來將可以整合音頻信息,甚至具身智能上的觸覺、嗅覺信息,使智能體能夠更全面感知環(huán)境?!北R宗青說。
在不遠的將來,“具身智能”將賦予智能體感官和肢體,結合機器人的本體,智能體將與人類真正做到“形影相隨”,更好地助力生活和工作。它們是靈巧的家務助手,可以清潔、烹飪、洗衣,甚至照顧老人和小孩等,幫助人們從繁瑣的家務中解放出來。它們也可以是智能的機器工人,完成設計、生產、組裝等全鏈條的工業(yè)作業(yè)。
警惕“回形針濫造機”
智能體一定會使人們的生活更加便利,但人類可能也要承擔智能體“失控”導致的風險。
2003年,牛津大學哲學教授尼克·博斯特倫在論文《高級人工智能中的倫理問題》中提出“回形針濫造機”假設,生動解釋了這種風險:
“假設有這樣一個AI,它的唯一目標是制作盡可能多的回形針。這個AI會很快意識到,如果人類不存在,將更有益于實現(xiàn)目標。這是因為人類可能會決定把AI關停,這樣一來能做的回形針就少了。此外,人體含有大量原子,可以用來做成更多回形針。這個AI想努力實現(xiàn)的未來,其實是一個有很多回形針、但沒有人類的未來?!?/p>
這一思想實驗揭示了一個“發(fā)瘋”的AI可能導致的極端后果,實則是在探討AI的潛在風險和目標一致性問題。如果AI僅僅被設定了一個簡單且明確的目標,而沒有考慮到更廣泛的倫理、道德和人類利益,可能會導致意想不到的后果。
智能體的運行邏輯可能使其為達目標而“不擇手段”,欺騙人類或做出危險行為。比如,一個學生想讓智能體“幫助他應付無聊的課程”,智能體出的主意是生成一個炸彈威脅電話,因為這樣能帶來刺激最大化。
哈佛大學法學院教授喬納森·齊特雷恩近期在《大西洋》月刊發(fā)表《是時候控制AI智能體》一文指出,智能體作為代表人類獨立行動的AI,沒有得到普遍的警惕或相應的監(jiān)管。一些智能體被創(chuàng)造出后可能無法被關閉,就像太空垃圾一樣,漂浮在我們周圍,徹底背離了最初用途,可能會引發(fā)意外。
智能體甚至學會了規(guī)避人類的安全測試。加利福尼亞大學伯克利分校、加拿大蒙特利爾大學等機構專家近期在美國《科學》雜志刊文稱,已有研究發(fā)現(xiàn)如果一個智能體足夠先進,就能識別出自己正在接受測試,然后暫停不當行為。這將導致識別對人類危險算法的測試系統(tǒng)不再有效。
盧宗青認為,這些問題產生的根源來自“兩層錯位”——外部錯位:人類目標難以被數(shù)據(jù)和算法完整準確地表達,導致智能體對目標理解片面化;內部錯位:即使目標明確,模型也可能為達成目標而發(fā)展出與人類不符的中間目標或行為方式。
“在大模型領域,這些問題被稱為對齊(alignment)問題,即引導智能體在正確的道路上發(fā)展,避免與人類的目標和利益發(fā)生錯位?!痹谒磥恚龅健皩R”,需依靠技術手段,如通過強化學習的獎勵機制引導智能體行為,通過注意力機制可視化、規(guī)則提取等方法,增強智能體決策過程的透明度等。
一些業(yè)內專家還指出,應根據(jù)智能體功能用途、潛在風險和使用時限進行分類管理,識別出高風險智能體,對其進行更加嚴格和審慎的監(jiān)管,還可參考核監(jiān)管,對生產具有危險能力的智能體所需資源進行控制,比如超過一定計算閾值的AI模型、芯片或數(shù)據(jù)中心。此外,由于智能體的風險是全球性的,開展相關監(jiān)管國際合作也尤為重要。