“終于有了一個AI‘嘴替’,它叫‘鳥鳥分鳥’。”4月4日,知名脫口秀演員鳥鳥展示了她的語音助手——搭載在天貓精靈上的類GPT模型,不僅對答如流,還能模仿她的音色、語氣與文本風格。4月7日,阿里云悄然開放了大模型“通義千問”的內測入口。4月11日,阿里巴巴集團董事會主席兼CEO張勇宣布“通義千問”將接入阿里系所有產品。
繼百度文心一言之后,“阿里版GPT”終于來了。
隨著ChatGPT升級為GPT-4,百度、阿里、騰訊、美團、京東、360等國內互聯網廠商也緊跟GPT浪潮,不少公司還把其當作“一把手”工程,甚至出現同一天三個官宣的盛況。畢竟,誰都害怕成為“被GPT顛覆的失敗者”。
看似“神仙打架”的熱鬧背后,國產GPT實力究竟如何、短板還有哪些?受訪專家普遍表示,ChatGPT的成功驗證了NLP(自然語言處理)的發(fā)展前景,國內AI企業(yè)集中進入GPT賽道有望迎來新機遇,但受限于各家大模型的特點,國產GPT仍需與商業(yè)模式相適配,避免紅海競爭。
通義千問將成阿里系標配
可以想象的是,通義大模型一旦接入電商數據,或將掀起又一場網購模式的變革
“面向AI時代,所有產品都值得用大模型重新升級。”張勇為“阿里版GPT”通義千問站臺時說。這也是他在阿里“一拆六”后首次以阿里云CEO的身份出現在公眾視野。
約一個月前,百度率先推出GPT類產品文心一言,隨后開放試用時曾遭受不少質疑。不少人測試后覺得,通義千問的AI對話能力初步達到了“可接受”的程度,但是離“令人滿意”仍相距甚遠。與GPT-4以及文心一言一樣,通義千問在整合資料時也會鬧笑話,比如將文心一言解釋為阿里巴巴達摩院的產品(實為百度的產品),還會坦然承認“文心一言在技術實力和應用場景方面可能更強一些”。
不過,經過對ChatGPT、文心一言等多個GPT類產品的嘗鮮,業(yè)界對通義千問的內測結果較為冷靜,反而更關注“阿里版GPT”的應用場景。
張勇并未現場展示通義千問的能力,但他宣布阿里所有產品都將接入大模型進行全面改造,這一計劃被人稱為“GPT全家桶”。其中釘釘、天貓精靈率先接入測試,將在評估認證后正式發(fā)布新功能。資料顯示,在釘釘文檔中,通義千問可以創(chuàng)作詩歌小說、撰寫郵件、生成營銷策劃方案等;在釘釘會議中,通義千問可以隨時生成會議記錄并自動總結會議紀要、生成待辦事項,還能自動總結未讀群聊信息中的要點。最驚艷的是,釘釘展示了拍照生成小程序場景,上傳一張功能草圖,不用寫一行代碼,可立刻生成訂餐輕應用。
雖然通義千問姍姍來遲,但阿里巴巴布局大模型并非一朝一夕。早在2019年,達摩院便已啟動通義中文大模型研發(fā),目前已申請注冊“通義萬象”“通義曉語”“通義博研”等商標,可以想象的是,通義大模型一旦接入電商數據,或將掀起又一場網購模式的變革。
隱形頭部玩家早已蟄伏
國內各家大模型存在一些差異化,隨著技術演進,未來可能會有更多新的特點和區(qū)別出現
除了通義千問,國內各大GPT類產品近期如雨后春筍般集中面世。短短一天內,同時有三家廠商宣布了GPT產品的最新消息。
4月10日,商湯科技發(fā)布“日日新SenseNova”大模型,推出自然語言處理、內容生成、自動化數據標注、自定義模型訓練等多種大模型及能力,還推出自研中文語言大模型應用平臺“商量SenseChat”。
同一天,昆侖萬維宣布與奇點智源合作自研的國產大語言模型“天工3.5”將于4月17日啟動邀請測試。搜狗創(chuàng)始人王小川也宣布“百川智能”創(chuàng)業(yè)計劃,底座產品將在年底公布。
京東也在前幾日高調宣布將在今年發(fā)布“ChatJD”,定位為產業(yè)版本ChatGPT。目前京東的大模型主要聚焦于文本、語音、對話和數字人生成等4個方面開展工作,比如給商品自動生成長度不等的文案,包括標題、賣點文案和直播文案等。
相較之下,騰訊和華為的大模型顯得低調不少,但他們仍是這個賽道的“隱形頭部玩家”。
去年,騰訊推出萬億級別中文NLP預訓練模型HunYuan—NLP—1T(混元AI大模型),覆蓋了NLP、CV(計算機視覺)、多模態(tài)等基礎模型和眾多行業(yè)模型,先后在中文語言理解權威評測集合CLUE與VCR等多個權威多模態(tài)數據集榜單中登頂。目前,騰訊正在研發(fā)類GPT聊天機器人,將集成到QQ、微信上。
去年4月,華為云發(fā)布了30億參數的視覺預訓練模型,并與循環(huán)智能、鵬城實驗室聯合開發(fā)千億參數、40TB訓練數據的中文語言預訓練模型,而華為云盤古大模型還曾獲2021世界人工智能大會“SAIL之星”獎。
大模型在學術界也成了“香餑餑”。早在今年2月,復旦大學邱錫鵬教授團隊發(fā)布國內首個類ChatGPT模型MOSS。3月,中國人民大學盧志武團隊自主研發(fā)多模態(tài)對話大模型并落地了第一款應用“元乘象ChatImg”……
據國研新經濟研究院創(chuàng)始院長朱克力介紹,國內各家大模型存在一些差異化,例如文心一言在語言理解、文本生成、問答能力等方面具有優(yōu)勢,通義千問則在機器翻譯、圖像識別、自然語言生成等方面較為突出,盤古大模型在此基礎上更能適應中文語境下的應用場景,MOSS則側重文本分類、情感分析、知識推理。
上海市人工智能行業(yè)協會秘書長鐘俊浩表示:“國內各家大模型還在發(fā)展初期,尚未定型,隨著大模型技術不斷演進,未來可能會有更多新的特點和區(qū)別出現。”
AIGC國內應用另辟蹊徑
國內AI企業(yè)在圖像視覺領域成就突出,上海不少公司在自然語言處理領域已位于前列
自ChatGPT“出圈”以來,國內類GPT產品在短短3個月內呈現爆發(fā)式增長態(tài)勢,這也引起不少人質疑:既然國內各大互聯網廠商在多年前已布局大模型和AIGC(人工智能生成內容),為什么起了大早卻趕了晚集?
“無需苛責中國沒有出現GPT這種現象級產品,因為GPT的能力涌現是超預期的,只有當基礎模型被喂養(yǎng)足夠多的數據,有足夠大的算力,才能出現如此驚奇的涌現能力。”鐘俊浩對此非常坦然,此前主流的自然語言訓練模型(如谷歌BERT)更偏向于雙向自編碼,而GPT作為單向自回歸的生成式模型,技術路線較為小眾,最初也不為業(yè)界看好。
更關鍵的是,GPT模型需要大量的數據和計算資源進行訓練。有專家估算,ChatGPT的訓練門檻是一萬張高性能GPU芯片,成本約10億元,模型訓練算力可達每秒一千萬億次,需運行3640天。“技術方向的選擇、投入資源多少、研究時間的長短都需要體系化考慮。”他認為,ChatGPT的出現證明了技術路線的可行性,國內加快追趕步伐也不算晚。
值得一提的是,上海不少公司在自然語言處理領域已位于前列。樂言科技的文本對話AI在電商領域積累了多年行業(yè)經驗,構建垂直行業(yè)大模型,實現智能客服機器人的大規(guī)模應用。達觀數據、壹沓科技等專注于專門從事文檔自動化審核、寫作等系統的開發(fā),達觀還推出國產GPT“曹植”系統,面向金融、制造、政務等垂直行業(yè)開發(fā)專用的大語言模型和類似微軟Copilot的“達觀助手”。
相比文本對話,國內AI企業(yè)在圖像視覺領域的成就更為突出,如圖像識別、圖像分類、圖像處理等方面都有不少成功的應用。“深度學習在圖像和影像領域最早被市場接受,如人臉識別應用于安防領域,圖像識別應用于電商和廣告領域,醫(yī)學影像分析應用于醫(yī)療領域等。”鐘俊浩認為,AI在圖像視覺方面的應用能夠帶來較大的商業(yè)價值和社會效益,因此在國內受到更多關注和投入。
ChatGPT誕生不久,剛在業(yè)界打響第一槍之時,中國的AI作畫已闖出了一條商業(yè)之路。
去年8月,基于文心大模型,百度推出“AI作畫”文心一格,只需輸入創(chuàng)想文字,選擇期望的畫作風格,即可一鍵生成AI畫作。幾個月后,由文心一格續(xù)畫的陸小曼未盡稿連同海派畫家樂震文補全的同名畫作《未完·待續(xù)》,以110萬元落槌成交,成了全球首個AI山水畫作的成功拍賣。
早在2019年,商湯就首次發(fā)布10億參數的視覺大模型,2022年發(fā)布320億參數的視覺大模型,這也是目前世界上最大的視覺模型。在最新發(fā)布的“日日新SenseNova”大模型中,商湯科技集成了大量的圖像視覺元素,比如“秒畫”文生圖創(chuàng)作平臺,可支持6K高清圖生成,還可根據自身需求訓練生成模型;“如影”AI數字人視頻生成平臺僅需一段5分鐘的真人視頻素材,就可生成聲音和動作自然、口型準確、多語種精通的數字人分身。
國內GPT在起步階段
還需克服三方面差距
“國內互聯網平臺在大模型方面的布局和投入雖然已經開始,但是還需要克服技術、人才、商業(yè)模式等方面的難題,才能夠實現ChatGPT這種現象級產品。”國研新經濟研究院創(chuàng)始院長朱克力告訴記者。
國內各家大模型與GPT-4主要存在訓練數據集、超參數調整和解析能力三方面的差距:GPT-4在訓練時使用海量的自然語言數據,需要各種語言和主題的文本庫,國內大模型在訓練時需要更多的本地化數據來進行訓練,以更好地理解本地語言和文化。同時,GPT-4有足量的數據進行超參數微調,以獲得更好的性能,國內大模型則需要更多時間來進行超參數調整,以優(yōu)化模型的性能。出色的解析能力也是GPT-4在理解自然語言上的優(yōu)勢之一,國內大模型需要對自然語言有深入的理解,離不開NLP相關專業(yè)人才和技術積累,這也是國內人才市場中較為緊缺的。
上海市人工智能行業(yè)協會秘書長鐘俊浩也有類似的看法,OpenAI起步早、積累久、投入大,國內GPT在核心能力和全面性方面都存在較大差距,特別是推理能力、問題理解能力、文本生成能力、系統工程能力等方面,“OpenAI在對于大模型涌現能力的把握上擁有更豐富的經驗,怎么去發(fā)現和利用這樣智能的涌現,這種核心能力的差距,我們還需要一段時間來追趕。”
雖然GPT產品目前仍處于發(fā)展早期階段,但是讓大家看到了NLP巨大的想象空間。對此,鐘俊浩也認同這一觀點:從基礎大模型到個人端的應用,從垂直領域大模型到商業(yè)端的應用,GPT技術可以重新構建互聯網和軟件。“個人用戶從C端感受到了GPT類產品友好的交互體驗,而對企業(yè)用戶而言,GPT不能僅停留在交流界面的優(yōu)化上,實現效能提升才是作為B端工具的關鍵要點。”
正如阿里巴巴集團董事會主席兼CEO張勇所說:“一家企業(yè)的想象力終歸是有限的,釋放AI潛力要靠無數人探索。”隨著GPT模型層和應用層各自演進,上下游產業(yè)鏈也將連帶受益。業(yè)內人士普遍認為,百度、阿里等大公司的優(yōu)勢在于有足夠的資金和算力去訓練大模型,大力出奇跡,而小公司可以扎根垂直領域,通過AI賦能SaaS(軟件運營服務),打造競爭壁壘。(本報記者:查睿 來源:解放日報)
