
面對中文語料數據不足的困境,國內多方主體決定抱團聚力。
7月25日,深圳數交所聯合近50家單位成立“開放算料聯盟” 。參與公司不僅有聯通、電信兩大運營商以及騰訊云,還有多家A股公司,包括云天勵飛、奧比中光、優必選、華大基因、海天瑞聲等。
其中,海天瑞聲是數據資源服務商,云天勵飛是視覺智能芯片研發商,華大基因是基因測序龍頭之一。奧比中光、優必選為機器人產業相關公司,前者深耕機器視覺,后者是機器人制造商。
聯合發起單位華傲數據董事長賈西貝認為,目前芯片行業已經被證實了要走“三分協作”的模式,即分段創新、分域競爭、分工協作,未來AI領域也將走向這樣的模式。
據介紹,該聯盟將圍繞高質量中文訓練數據和多模態訓練數據,協調數據要素、數據治理、訓練數據、數據標注、合成數據等相關標準制定,協助數據交易所增加大模型相關的新品類和新專區。
各成員將共同貢獻、整理、倡導貢獻自然語言、圖像視頻、語音音樂、程序代碼、生物信息、合成數據等多模態訓練數據,為解決人工智能和數字經濟的數據荒問題,特別是解決多模態數據荒、中文數據荒、中國文化、中國價值觀數據荒等問題提供強有力支撐。
▌數據是AI勝負手 豐富中文數據庫迫在眉睫
大模型、算力、數據是生成式人工智能發展的三大支柱。數據是關鍵生產要素和生產資料,也可以說是AI的算料。
馬斯克在現身xAI團隊首秀時就提及其重要性,在他看來,隨著產品更好地理解問題,所需的算力將減少幾個數量級,而“數據荒”更難解決,“在某個時候,AI訓練會耗盡人類數據,最終人工智能將不得不自己生成數據。”
雖然現在未到人類數據用無可用的時刻,但數據資源高昂的費用往往讓人工智能企業望而止步。消息稱,由于Reddit、推特等公司的數據采集要價太高,微軟、OpenAI和Cohere等公司,已使用合成數據來訓練AI模型。
對于國內企業而言,更是存在有錢也買不到、買不合適的情況。原因無他,中文語料庫中的內容依然匱乏。此前中國工程院院士高文在演講中提到,全球通用的50億大模型數據訓練集里,中文語料的占比僅為1.3%。
正因為如此,解決數據瓶頸問題被提上日程的同時,豐富高質量中文訓練數據迫在眉睫。
天風證券分析師繆欣君認為,AI三要素(算法、算力、數據)中數據是直接影響AI大模型在垂直行業落地效果的關鍵。垂類數據通常由政府和行業機構掌握,相比于模型和算力,數據稀缺性明顯。
東吳證券分析師王紫敬也表示,數據是AI的勝負手。該分析師還點出了數據更深層次的含義——語言包含價值取向,未來想要不被強勢文化壓縮生存空間,中國必須發展自己的大模型。展望未來,算法和算力都可以通過挖掘優質人才、引進優秀工程實踐,或者直接購買海外優質資產追趕,而培養中文環境的優質數據集、語料庫卻必須長期自我積累沉淀。
從投資角度看,公共和垂直行業數據敏感性高,需要具備央國企背景的廠商參與。該機構看好以下三個環節:
1)數據運營:預計醫保數據將有望成為公共數據放開的第一站,相關公司包括久遠銀海、山大地緯、中科江南等。
2)數據基礎設施:有望成為最先放量兌現的環節。相關公司包括深桑達A、易華錄、云賽智聯、中國電信等。
3)數據安全:看好具備央國企背景和數據安全業務積累的相關廠商。相關公司包括啟明星辰、奇安信、安恒信息、電科網安等。