本報訊 (記者李喬宇)4月24日,昆侖萬維科技股份有限公司(以下簡稱“昆侖萬維”)宣布正式開源多模態(tài)推理模型的全新升級版本——Skywork-R1V2.0(以下簡稱“R1V2.0”)。
昆侖萬維披露的公告顯示,Skywork-R1V2.0是當(dāng)前最均衡兼顧視覺與文本推理能力的開源多模態(tài)模型,該多模態(tài)模型在高考理科難題的深度推理與通用任務(wù)場景中均表現(xiàn)優(yōu)異,實現(xiàn)多模態(tài)大模型的“深度+廣度”統(tǒng)一。
據(jù)悉,升級后的R1V2.0模型理科學(xué)科題目(數(shù)學(xué)、物理、化學(xué))推理效果拔群,能夠成為免費AI解題助手;38B權(quán)重+技術(shù)報告全面開源,推動多模態(tài)生態(tài)建設(shè);能夠?qū)崿F(xiàn)多模態(tài)獎勵模型(SkyworkVLReward)與混合偏好優(yōu)化機(jī)制(MPO),全面提升模型泛化能力;選擇性樣本緩沖區(qū)機(jī)制(SSB),突破強(qiáng)化學(xué)習(xí)“優(yōu)勢消失”瓶頸。
據(jù)介紹,在多個權(quán)威基準(zhǔn)測試中,R1V2.0相較于R1V1.0在文本與視覺推理任務(wù)中均實現(xiàn)顯著躍升。無論是專業(yè)領(lǐng)域任務(wù),如數(shù)學(xué)推理、編程競賽、科學(xué)分析,還是通用任務(wù),如創(chuàng)意寫作與開放式問答,R1V2.0都呈現(xiàn)出極具競爭力的表現(xiàn)。
為實現(xiàn)多模態(tài)大模型在“深度推理”與“通用能力”之間的最佳平衡,R1V2.0引入了全新的“多模態(tài)獎勵模型Skywork-VLReward”及“規(guī)則驅(qū)動的混合強(qiáng)化訓(xùn)練機(jī)制”,在顯著增強(qiáng)推理能力的同時,進(jìn)一步穩(wěn)固了模型在多任務(wù)、多模態(tài)場景中的穩(wěn)定表現(xiàn)與泛化能力。
(編輯 張明富)
衛(wèi)星通信管理制度及政策法規(guī)進(jìn)一步完善……[詳情]
版權(quán)所有《證券日報》社有限責(zé)任公司
互聯(lián)網(wǎng)新聞信息服務(wù)許可證 10120240020增值電信業(yè)務(wù)經(jīng)營許可證 京B2-20250455
京公網(wǎng)安備 11010602201377號京ICP備19002521號
證券日報網(wǎng)所載文章、數(shù)據(jù)僅供參考,使用前務(wù)請仔細(xì)閱讀法律申明,風(fēng)險自負(fù)。
證券日報社電話:010-83251700網(wǎng)站電話:010-83251800 網(wǎng)站傳真:010-83251801電子郵件:xmtzx@zqrb.net
安卓
IOS
掃一掃,加關(guān)注
掃一掃,加關(guān)注