中文字幕99在线精品视频免费看,国产激情网

大模型發(fā)展提速中文語料夠“吃”嗎

2024年06月27日 09時47分人民網(wǎng)

繼去年“百模大戰(zhàn)”之后，今年國內(nèi)大模型產(chǎn)業(yè)應用進入爆發(fā)元年。

然而，大模型產(chǎn)業(yè)發(fā)展如火如荼的同時，其訓練數(shù)據(jù)規(guī)模的增長速度跟不上、語料質(zhì)量參差不齊，尤其是高質(zhì)量中文語料短缺的問題日益凸顯，成為各方關(guān)注焦點。

阿里研究院5月發(fā)布的《大模型訓練數(shù)據(jù)白皮書》（以下簡稱《白皮書》）顯示，互聯(lián)網(wǎng)上中文語料和英文語料占比存在顯著差異：在全球網(wǎng)站中，英文占比高達59.8%，而中文僅占 1.3%。

同樣，語料的質(zhì)量會顯著影響大模型的性能。在大模型領(lǐng)域，輸入低質(zhì)量數(shù)據(jù)，必然會輸出低質(zhì)量結(jié)果。

在近日舉辦的第六屆北京智源大會上，中國互聯(lián)網(wǎng)協(xié)會理事長尚冰指出，高質(zhì)量數(shù)據(jù)的生成速度遠低于AI大模型訓練數(shù)據(jù)需求量的增長速度，數(shù)據(jù)短缺問題已初現(xiàn)端倪。

如何獲取規(guī)?；哔|(zhì)量中文數(shù)據(jù)？建設(shè)高質(zhì)量中文數(shù)據(jù)集的難點和堵點是什么？加速數(shù)據(jù)流通，推動中國特色大模型創(chuàng)新發(fā)展與應用的意義何在？對此，科技日報記者進行了采訪。

高質(zhì)量中文語料供給嚴重匱乏

語料即大模型訓練所需數(shù)據(jù)，是大模型訓練的基礎(chǔ)，也是決定大模型性能和專業(yè)性的關(guān)鍵因素。商湯科技大裝置事業(yè)群高級總監(jiān)張行程告訴記者，中文高質(zhì)量語料相對缺乏是國內(nèi)外大模型面臨的共同問題。中文語料庫不僅規(guī)模較小，且其電子化和網(wǎng)絡(luò)化程度明顯不足。此外，受版權(quán)、隱私等限制，許多優(yōu)質(zhì)中文語料庫也無法公開獲取。

其中，有一類型的中文語料極為重要，但又非常短缺——中式價值觀類語料?！栋灼分饕帉懗蓡T、阿里研究院數(shù)據(jù)經(jīng)濟研究中心副主任王崢解釋說，為了更好理解客觀世界和掌握客觀規(guī)律，大模型需要學習大量知識和價值觀層面的數(shù)據(jù)，這些數(shù)據(jù)深受人類主觀意志的影響。

在王崢看來，文言文、古漢語、電子書等反映優(yōu)秀傳統(tǒng)文化的內(nèi)容，以及主流媒體發(fā)布的反映本土價值觀的內(nèi)容，都可視為具有中式價值觀的高質(zhì)量語料。

“訓練中融入更多這類中式價值觀語料，有助于大模型深入理解和反映中文使用者的文化背景和價值取向，從而在全球化背景下保持中國文化的獨特性?！蓖鯈樥f，“更重要的是，能更好地服務(wù)中國本土用戶，滿足行業(yè)發(fā)展的需要?！?/p>

但目前面臨的實際困難是，這類語料開放共享與開發(fā)利用的程度遠遠不夠，且無法通過機器翻譯彌補其短缺問題?！栋灼分赋觯形恼Z料量的短缺尚有可解決方案，但中式價值觀類語料的短缺，則會成為制約我國大模型發(fā)展的短板。

高質(zhì)量中文語料的供給是中國大模型本土化的關(guān)鍵?！拔覀兿Ｍ袠I(yè)能加強企業(yè)間合作以及產(chǎn)業(yè)上下游協(xié)同，共同推動高質(zhì)量中文數(shù)據(jù)集的共享、開放，鼓勵數(shù)據(jù)提供方將高質(zhì)量中文語料庫在一定范圍內(nèi)公開，為各行各業(yè)大模型技術(shù)創(chuàng)新和應用奠定堅實的基礎(chǔ)，形成中國特色的AI大模型創(chuàng)新路徑，不斷提高國際競爭力。”張行程說。

供需雙方合作機制尚待完善

一方面，大模型廠商需要高質(zhì)量數(shù)據(jù)支撐，以解“巧婦難為無米之炊”的困境；另一方面，高質(zhì)量中文語料庫的數(shù)據(jù)擁有者，如擁有各類圖書、文獻的出版商等，也期望在智能化時代實現(xiàn)數(shù)據(jù)增值。因此，探索數(shù)據(jù)供需雙方合作模式是關(guān)鍵。

然而，要推動數(shù)據(jù)供需雙方建立合作并非易事?！皵r路虎”到底是什么？

當前，大模型數(shù)據(jù)獲取主要有合理爬取、版權(quán)采購等途徑。

張行程透露，商湯目前的解決方案是聯(lián)合各機構(gòu)盡量挖取、尋找現(xiàn)存的中文高質(zhì)量語料，比如精心編校過的書本、論文等，以及向供應商購買版權(quán)語料?！半m然購買數(shù)量有限，但質(zhì)量很高。”張行程說。這是以前置協(xié)商付費方式來獲取版權(quán)類語料的傳統(tǒng)商業(yè)模式。阿里巴巴“通義千問”大模型也采取了類似做法。

王錚還提到第二種潛在的方式，即與版權(quán)方協(xié)商，以訓練后的模型為版權(quán)方提供服務(wù)的方式進行對價。

然而，關(guān)于版權(quán)類語料使用，數(shù)據(jù)提供者和大模型廠商持有不同見解。王崢認為，大模型對版權(quán)類訓練語料的使用屬于轉(zhuǎn)換性使用，而非復制式拷貝，應構(gòu)成“合理使用”或“法定許可”。

上海世紀出版集團數(shù)字出版部副主任劉寅春對此持有保留意見。她指出，大模型的深度學習機制與人類學習有相似之處，使用版權(quán)類數(shù)據(jù)進行訓練，類似于人類閱讀文獻后撰寫論文而不標注參考文獻?！皬膶W術(shù)規(guī)范上來說，這種做法很難說沒有瑕疵?！彼f。

此外，大模型廠商訓練大模型的最終目的是商用，這與“合理使用”的初衷和前提并不相符?！胺ǘㄔS可”需要滿足一定條件，包括說明作品的出處、作者姓名，并支付報酬。如果這些條件無法滿足，那么在顯性法律釋義下，這種行為很難構(gòu)成“法定許可”。

在人工智能時代，高質(zhì)量數(shù)據(jù)集是出版行業(yè)的核心資產(chǎn)。劉寅春認為，在有利于行業(yè)健康、可持續(xù)發(fā)展的前提下，切實保障知識產(chǎn)權(quán)，對高質(zhì)量數(shù)據(jù)集進行有效開發(fā)和高質(zhì)量轉(zhuǎn)化，是出版行業(yè)的核心。

“出版行業(yè)為大模型提供語料，相應地，大模型的技術(shù)進步、功能提升，也應惠及包括出版行業(yè)在內(nèi)的更廣泛群體。”劉寅春提倡以合作共贏的方式與大模型廠商開展數(shù)據(jù)交易，通過訂立授權(quán)協(xié)議，明確授權(quán)范圍和條件，實現(xiàn)共同發(fā)展。

“如何將出版物進一步加工為數(shù)據(jù)要素并有效、有序流通，是擺在出版人面前的新問題?！敝袊霭?zhèn)髅焦煞萦邢薰靖笨偨?jīng)理張紀臣說，“但我認為這同樣是新機遇，因為我國出版行業(yè)一直強調(diào)知識服務(wù)這一理念。將出版物作為語料使用，從而提供產(chǎn)品和服務(wù)能力，正是出版知識服務(wù)的產(chǎn)品化體現(xiàn)?！?/p>

數(shù)據(jù)開源分享動力不足

目前，我國可供大模型訓練的優(yōu)質(zhì)數(shù)據(jù)資源呈碎片化、分散狀態(tài)。

“特別是語料和科研成果等中文高質(zhì)量數(shù)據(jù)集開放程度低，企業(yè)在訓練大模型時使用的語料來源不透明、權(quán)屬不明確，開源后存在合規(guī)風險，這導致企業(yè)更傾向于自行采集和使用數(shù)據(jù)，大模型數(shù)據(jù)流通機制尚未形成。”王崢說。

北京理工大學管理學院副研究員尹西明認為，需要構(gòu)建一個市場化、互利共贏的數(shù)據(jù)共享機制，以促進高質(zhì)量中文數(shù)據(jù)的積累和有效利用。

“確立清晰的數(shù)據(jù)要素市場制度對于激發(fā)高質(zhì)量數(shù)據(jù)集構(gòu)建至關(guān)重要?！痹趶偷┐髮W教授、上海市數(shù)據(jù)科學重點實驗室主任肖仰華看來，只有當市場機制能夠確保數(shù)據(jù)貢獻者獲得合理回報時，才能吸引更多的數(shù)據(jù)流入市場，充分挖掘并實現(xiàn)數(shù)據(jù)共享的巨大潛力與價值。

2023年12月31日，國家數(shù)據(jù)局等部門印發(fā)《“數(shù)據(jù)要素×”三年行動計劃（2024—2026年）》，強調(diào)堅持需求牽引、注重實效，試點先行、重點突破，有效市場、有為政府，開放融合、安全有序4方面基本原則。

該行動計劃進一步明確，要提升數(shù)據(jù)供給水平，在科研、文化、交通運輸?shù)阮I(lǐng)域，推動科研機構(gòu)、龍頭企業(yè)等開展行業(yè)共性數(shù)據(jù)資源庫建設(shè)，打造高質(zhì)量人工智能大模型訓練數(shù)據(jù)集。

事實上，作為數(shù)據(jù)流通領(lǐng)域中最大的“富礦”，公共數(shù)據(jù)開放的步伐正不斷加快?！度珖鴶?shù)據(jù)資源調(diào)查報告》顯示，2023年，我國公共數(shù)據(jù)開放量同比增長16%；省一級政府的開放數(shù)據(jù)量同比增長了18.5%，北京、浙江等15地數(shù)據(jù)管理部門開始探索公共數(shù)據(jù)授權(quán)運營機制。

今年初開始實施“數(shù)據(jù)入表”政策。張紀臣認為，隨著“數(shù)據(jù)入表”政策的實施，出版企業(yè)的數(shù)字資源經(jīng)過確權(quán)、評估、標準化后入表，成為出版企業(yè)的數(shù)據(jù)資產(chǎn)。在此基礎(chǔ)上構(gòu)建大模型訓練使用方與出版企業(yè)共贏的商業(yè)模式，能發(fā)揮中國價值核心數(shù)據(jù)在人工智能時代的智能服務(wù)話語權(quán)?！斑@樣一來，‘數(shù)據(jù)入表’可能成為加速數(shù)據(jù)有效流動、共享并實現(xiàn)共贏的關(guān)鍵一步。”他說。

數(shù)據(jù)流通環(huán)節(jié)問題突出

算法、算力、數(shù)據(jù)和場景是大模型發(fā)展的4個核心要素。當前，我國大模型算力算法能力顯著提升，高質(zhì)量發(fā)展取決于數(shù)據(jù)和場景，應構(gòu)建“供得出、流得通、用得好”的高質(zhì)量數(shù)據(jù)集。

尹西明表示，大模型變強用好，前提是建立以場景驅(qū)動創(chuàng)新的思維，引領(lǐng)高質(zhì)量數(shù)據(jù)持續(xù)在各種應用場景中發(fā)揮價值。那么，解決數(shù)據(jù)“供得出”難題后，應重點確保高質(zhì)量數(shù)據(jù)“流得通”，真正面向場景釋放數(shù)據(jù)乘數(shù)效應和大模型對新質(zhì)生產(chǎn)力的引擎價值。

數(shù)據(jù)要素在生產(chǎn)中的地位愈發(fā)重要，數(shù)據(jù)要素流動帶來的開放性與動態(tài)性問題，為傳統(tǒng)數(shù)據(jù)理論與相應技術(shù)帶來新挑戰(zhàn)和新要求。

“其中之一便是數(shù)據(jù)確權(quán)。”肖仰華表示，相比其他生產(chǎn)要素，數(shù)據(jù)要素在流通過程中主體更加多樣，涉及數(shù)據(jù)生產(chǎn)者、采集者、加工者、使用者、運營者和其他產(chǎn)權(quán)人，權(quán)屬界定復雜。

北京智源人工智能研究院理事長、中國互聯(lián)網(wǎng)協(xié)會人工智能工作委員會主任委員黃鐵軍指出：“當前普遍存在一種誤解，即將數(shù)據(jù)視為傳統(tǒng)意義上的物理資產(chǎn)。其實，數(shù)據(jù)并非物理資產(chǎn)，作為數(shù)字形態(tài)產(chǎn)品，它可以被無限次使用，且不會導致數(shù)據(jù)損耗?！?/p>

他提倡在確保使用合規(guī)的前提下，大模型訓練階段可以免費獲取數(shù)據(jù)資源。如果使用數(shù)據(jù)的過程中并未產(chǎn)生商業(yè)利益，則無需支付任何費用；反之，一旦通過數(shù)據(jù)使用獲得了商業(yè)收益，便應按照既定比例支付相應的數(shù)據(jù)使用費用。

“雖然這一模式背后還涉及到數(shù)據(jù)確權(quán)、費率設(shè)定、監(jiān)管機制等復雜問題，這些還有待深入探討和解決，但‘先使用后收益’更有利于大模型的健康發(fā)展?！秉S鐵軍說。

王崢則認為，確保數(shù)據(jù)流通需政府與企業(yè)、開源或非盈利組織、學界、多類型機構(gòu)等社會力量協(xié)同推進。

他建議，在政府側(cè)，對可用于模型訓練的公共數(shù)據(jù)鼓勵“應開盡開”，避免在數(shù)據(jù)開放過程中因為預設(shè)特定場景限制了應用范圍；在社會力量側(cè)，應堅持“應試盡試”原則，通過不斷迭代，探索數(shù)據(jù)的有效搭配，尋找發(fā)揮最大價值的“配方”。

標注專業(yè)化、規(guī)?；嵘先粘?/strong>

從2022年《關(guān)于構(gòu)建數(shù)據(jù)基礎(chǔ)制度更好發(fā)揮數(shù)據(jù)要素作用的意見》出臺以來，數(shù)據(jù)要素建設(shè)和市場改革正穩(wěn)步推進。今年5月，國家數(shù)據(jù)局提出建設(shè)國家級數(shù)據(jù)標注基地，這一舉措對人工智能發(fā)展至關(guān)重要。

中國信息通信研究院人工智能研究所高級工程師、中國人工智能產(chǎn)業(yè)發(fā)展聯(lián)盟數(shù)據(jù)委員會主任李蓀表示，數(shù)據(jù)標注是推動人工智能進步的核心環(huán)節(jié)，它能夠提升數(shù)據(jù)質(zhì)量，挖掘數(shù)據(jù)核心價值，形成高質(zhì)量數(shù)據(jù)集，持續(xù)為AI提供數(shù)據(jù)支持。

也就是說，在一定程度解決數(shù)據(jù)供給、促進數(shù)據(jù)共享和打通流通機制后，如何讓大模型學習到高質(zhì)量數(shù)據(jù)，是接下來各界面臨的另一個新挑戰(zhàn)。

數(shù)據(jù)標注的專業(yè)性和規(guī)模化也被提上日程。

李蓀指出，當前國內(nèi)數(shù)據(jù)標注產(chǎn)業(yè)還比較初級，大部分標注工作以人工為主，勞動密集型特點比較突出。但是，在通用人工智能時代，傳統(tǒng)手工標注或簡單自動化標注方法無法滿足大模型對大規(guī)模、高質(zhì)量、多樣化數(shù)據(jù)的需求，特別是具備模型訓練知識、行業(yè)領(lǐng)域知識的專業(yè)化數(shù)據(jù)標注人才也相對匱乏。

“大模型訓練數(shù)據(jù)標注人員的學歷要求比以前更高，很多是本科畢業(yè)?！蓖鯈槺硎?，行業(yè)大模型數(shù)據(jù)標注凸顯了專業(yè)知識的重要性。

機器在對語言水平這一抽象概念進行評估時，必須依賴預先設(shè)定的人類價值判斷和標準。電子科技大學智能語言學習與測評實驗室與字節(jié)跳動合作開發(fā)了一款語言水平考試產(chǎn)品。實驗室負責人陳大建說，在研發(fā)階段，實驗室負責對自行收集的用戶音頻數(shù)據(jù)進行標注，其標注內(nèi)容主要是基于音頻所體現(xiàn)的英語能力水平進行分類和標記。標注人員由學校四五十名大學英語教師組成，且均為應用語言學專業(yè)的碩博士。

“吃”得好、“吃”得香，還要“吃”得夠。只有最終實現(xiàn)了規(guī)?；哔|(zhì)量標注，才能切實提升大模型理解中文、傳遞中國傳統(tǒng)文化價值的能力。中國大模型的蓬勃發(fā)展也將助力中華優(yōu)秀傳統(tǒng)文化海外傳播，架起一座連接古今、溝通中外的橋梁。

中國出版集團中國圖書進出口總公司下屬中圖科信數(shù)智技術(shù)（北京）有限公司總經(jīng)理李沄沨認為，從正式出版物如文獻、學術(shù)專著等入手，依托先進的提取工具和解析技術(shù)，將出版物語料化、碎片化、標準化，加工成高質(zhì)量的語料數(shù)據(jù)，有別于一般的數(shù)據(jù)加工。“我們已經(jīng)實現(xiàn)了大規(guī)模和批量開展數(shù)據(jù)語料化的技術(shù)和工具軟件，能夠更深層次地解析數(shù)據(jù)，并形成獨立的圖片、表格、公式數(shù)據(jù)集，為大模型人工智能服務(wù)提供價值更高、標準程度更好的語料供給，使出版數(shù)據(jù)在人工智能時代煥發(fā)出新活力。”他說。

在數(shù)字經(jīng)濟大潮中，數(shù)據(jù)要素的放大、疊加、倍增作用日益顯著，成為推動相關(guān)產(chǎn)業(yè)高質(zhì)量發(fā)展的必然要求。張紀臣認為：“我們正站在新一輪產(chǎn)業(yè)科技革命的門口。這是一個不進則退的時代?！?/p>
【深瞳工作室出品】

采寫：科技日報記者龔茜

策劃：何屹房琳琳

（責任編輯：蔡文斌）

【關(guān)閉窗口】

国产精品99久久99久久久看片,国产欧美三级,91综合久久久久婷婷,91大神在线观看视频,狠狠色网站,亚洲国产成人资源在线软件,午夜色站