亚洲成人免费视频在线_韩国毛片在线观看_国产在线视频网_国产一区二区不卡视频

推廣 熱搜: 倉儲籠,  GLW330/7.5/S往復式給料機  干粉  鑄鐵T型槽平臺  模具設計  BQG150/0.2氣動隔膜泵  BQG140/0.3氣動隔膜泵  錳鋼  臺面  美白 

國產大模型困境有解了?開放算料聯盟成立 圍繞高質量中文數據開展合作山藥雞湯的功效

   日期:2023-11-10     瀏覽:56    評論:0    
核心提示:面對中文語料數據不足的困境,國內多方主體決定抱團聚力。   7月25日,深圳數交所聯合近50家單位成立“開放算料聯盟” 。參與公司不僅有聯通、電信兩大運營商以及騰訊云,還有多家A股公司,包括云天勵飛、

  面對中文語料數據不足的困境,國內多方主體決定抱團聚力。

  7月25日,深圳數交所聯合近50家單位成立“開放算料聯盟” 。參與公司不僅有聯通、電信兩大運營商以及騰訊云,還有多家A股公司,包括云天勵飛、奧比中光、優必選、華大基因、海天瑞聲等。

  其中,海天瑞聲是數據資源服務商,云天勵飛是視覺智能芯片研發商,華大基因是基因測序龍頭之一。奧比中光、優必選為機器人產業相關公司,前者深耕機器視覺,后者是機器人制造商。

  聯合發起單位華傲數據董事長賈西貝認為,目前芯片行業已經被證實了要走“三分協作”的模式,即分段創新、分域競爭、分工協作,未來AI領域也將走向這樣的模式。

  據介紹,該聯盟將圍繞高質量中文訓練數據和多模態訓練數據,協調數據要素、數據治理、訓練數據、數據標注、合成數據等相關標準制定,協助數據交易所增加大模型相關的新品類和新專區。

  各成員將共同貢獻、整理、倡導貢獻自然語言、圖像視頻、語音音樂、程序代碼、生物信息、合成數據等多模態訓練數據,為解決人工智能和數字經濟的數據荒問題,特別是解決多模態數據荒、中文數據荒、中國文化、中國價值觀數據荒等問題提供強有力支撐。

  ▌數據是AI勝負手 豐富中文數據庫迫在眉睫

  大模型、算力、數據是生成式人工智能發展的三大支柱。數據是關鍵生產要素和生產資料,也可以說是AI的算料。

  馬斯克在現身xAI團隊首秀時就提及其重要性,在他看來,隨著產品更好地理解問題,所需的算力將減少幾個數量級,而“數據荒”更難解決,“在某個時候,AI訓練會耗盡人類數據,最終人工智能將不得不自己生成數據。”

  雖然現在未到人類數據用無可用的時刻,但數據資源高昂的費用往往讓人工智能企業望而止步。消息稱,由于Reddit、推特等公司的數據采集要價太高,微軟、OpenAI和Cohere等公司,已使用合成數據來訓練AI模型。

  對于國內企業而言,更是存在有錢也買不到、買不合適的情況。原因無他,中文語料庫中的內容依然匱乏。此前中國工程院院士高文在演講中提到,全球通用的50億大模型數據訓練集里,中文語料的占比僅為1.3%。

  正因為如此,解決數據瓶頸問題被提上日程的同時,豐富高質量中文訓練數據迫在眉睫。

  天風證券分析師繆欣君認為,AI三要素(算法、算力、數據)中數據是直接影響AI大模型在垂直行業落地效果的關鍵。垂類數據通常由政府和行業機構掌握,相比于模型和算力,數據稀缺性明顯。

  東吳證券分析師王紫敬也表示,數據是AI的勝負手。該分析師還點出了數據更深層次的含義——語言包含價值取向,未來想要不被強勢文化壓縮生存空間,中國必須發展自己的大模型。展望未來,算法和算力都可以通過挖掘優質人才、引進優秀工程實踐,或者直接購買海外優質資產追趕,而培養中文環境的優質數據集、語料庫卻必須長期自我積累沉淀。

  從投資角度看,公共和垂直行業數據敏感性高,需要具備央國企背景的廠商參與。該機構看好以下三個環節:

  1)數據運營:預計醫保數據將有望成為公共數據放開的第一站,相關公司包括久遠銀海、山大地緯、中科江南等。

  2)數據基礎設施:有望成為最先放量兌現的環節。相關公司包括深桑達A、易華錄、云賽智聯、中國電信等。

  3)數據安全:看好具備央國企背景和數據安全業務積累的相關廠商。相關公司包括啟明星辰、奇安信、安恒信息、電科網安等。

原文鏈接:http://www.lg5658.com/news/show-208112.html,轉載和復制請保留此鏈接。
以上就是關于國產大模型困境有解了?開放算料聯盟成立 圍繞高質量中文數據開展合作山藥雞湯的功效全部的內容,關注我們,帶您了解更多相關內容。
 
打賞
 
更多>同類資訊
0相關評論

推薦資訊
網站首頁  |  VIP套餐介紹  |  關于我們  |  聯系方式  |  使用協議  |  版權隱私  |  SITEMAPS  |  網站地圖  |  排名推廣  |  廣告服務  |  積分換禮  |  RSS訂閱  |  違規舉報