在企業(yè)數(shù)字化轉(zhuǎn)型進程中,大模型業(yè)務(wù)適配需求愈發(fā)迫切,但數(shù)據(jù)準(zhǔn)備卻成為關(guān)鍵阻礙。一方面,大模型訓(xùn)練需高質(zhì)量、充足的數(shù)據(jù)支撐,而垂類場景下,高質(zhì)量標(biāo)注數(shù)據(jù)稀缺且成本高,隱私合規(guī)也限制了數(shù)據(jù)來源;另一方面,數(shù)據(jù)類別不平衡也會影響模型效果,且多數(shù)企業(yè)團隊缺乏算法背景,傳統(tǒng)數(shù)據(jù)增強技術(shù)門檻高,難以實現(xiàn)小數(shù)據(jù)量下的高效能。

為此,百度智能云千帆ModelBuilder重磅升級文本數(shù)據(jù)集“數(shù)據(jù)增強”功能,業(yè)界首創(chuàng)智能生成+人工篩選雙軌增強鏈路。直擊精調(diào)數(shù)據(jù)樣本稀疏與分布偏差兩大痛點,通過Evol-Instruct等算法產(chǎn)品化實現(xiàn)能力多元拓展,結(jié)合自動化效率與人工質(zhì)控雙重保障,大幅降低訓(xùn)練集構(gòu)建門檻與成本,讓非技術(shù)用戶也能高效打造優(yōu)質(zhì)數(shù)據(jù),推動模型效果顯著提升。

在大模型訓(xùn)練中,訓(xùn)練數(shù)據(jù)的樣本量和多樣性直接影響模型的表現(xiàn)和泛化能力。數(shù)據(jù)增強是指通過對已有的種子數(shù)據(jù)施加特定的變換、擾動或生成策略,創(chuàng)造出一系列內(nèi)容合理、語義和風(fēng)格保持一致但形式多樣的增強數(shù)據(jù)。通過這種方式擴大訓(xùn)練數(shù)據(jù)規(guī)模,增強訓(xùn)練數(shù)據(jù)的多樣性,引導(dǎo)模型在訓(xùn)練中學(xué)習(xí)到更豐富的語言模式與語義變體,從而降低過擬合風(fēng)險,增強模型在真實場景中的泛化能力。

百度智能云千帆模型開發(fā)平臺ModelBuilder支持對文本數(shù)據(jù)集進行靈活的增強操作,支持分步生成多樣化的Prompt和高質(zhì)量的Response訓(xùn)練數(shù)據(jù),改善模型訓(xùn)練效果。

百度智能云千帆ModelBuider“數(shù)據(jù)增強”擁有四大核心優(yōu)勢:一是精準(zhǔn)解決精調(diào)數(shù)據(jù)樣本稀疏與分布偏差兩大痛點,有效提升模型泛化能力;二是集成Evol-Instruct等前沿算法并實現(xiàn)產(chǎn)品化落地,提供豐富預(yù)置增強方向與高度自定義配置,適配各類差異化業(yè)務(wù)場景;三是獨創(chuàng)“Prompt自動生成→人工篩選優(yōu)化→Response智能生成”增強鏈路,兼顧效率與數(shù)據(jù)質(zhì)量;四是通過零代碼、可視化操作界面,降低技術(shù)門檻與經(jīng)濟成本,讓非算法背景人員也能高效構(gòu)建訓(xùn)練集。

圖片1.jpg

在輿論媒體文本情感分析場景,情感分析(也被稱為意見挖掘)是自然語言處理的重要分支,需判斷文本情感傾向,應(yīng)用廣泛但面臨數(shù)據(jù)差異大、文本形式復(fù)雜等挑戰(zhàn)。

經(jīng)實驗,基于目前平臺的數(shù)據(jù)增強功能,在原始數(shù)據(jù)量有限或質(zhì)量不足時,通過創(chuàng)造多樣化的“新”數(shù)據(jù),能夠針對具體業(yè)務(wù)場景,結(jié)合模型精調(diào)有效提高模型的性能。本實驗僅采用輕量化模型ERNIE-Tiny-8K和默認(rèn)參數(shù)配置作為參考,僅使用20條數(shù)據(jù),準(zhǔn)確率已經(jīng)能夠從基礎(chǔ)模型的23%提升到85%,二次優(yōu)化后,也能提升至86%,并幾乎追平“人工準(zhǔn)備數(shù)據(jù)3000條”的模型效果。

圖片2.jpg

目前,百度智能云千帆ModelBuilder “數(shù)據(jù)增強”功能已正式上線。開發(fā)者可訪問百度智能云千帆官網(wǎng)體驗,建議在數(shù)據(jù)增強后,開發(fā)者人工審核標(biāo)注結(jié)果以及數(shù)據(jù)分布情況,確保數(shù)據(jù)質(zhì)量及分布均滿足要求,然后發(fā)起模型精調(diào)。



人已收藏

相關(guān)文章

評論列表(已有條評論)

最新評論