小米首個推理大模型Xiaomi MiMo開源為“Reasoning”而生！

Antutu ?

2025-04-30 11:18:10

閱讀

小米在2025年4月30日正式開源了其首個專為推理任務(wù)設(shè)計(jì)的大模型Xiaomi MiMo，此模型以僅7 B參數(shù)的規(guī)模，在數(shù)學(xué)推理（AIME 24–25）和代碼競賽（LiveCodeBench v5）兩大公開評測集上超越了OpenAI的閉源模型o1-mini以及阿里Qwen的32 B參數(shù)預(yù)覽版QwQ-32B-Preview。

Xiaomi MiMo的推理能力提升得益于預(yù)訓(xùn)練階段對推理模式的深度挖掘和后訓(xùn)練階段算法與框架的多層面創(chuàng)新。小米團(tuán)隊(duì)首先構(gòu)建了約200 B tokens的專用推理語料庫，讓模型在更豐富的推理場景中“見多識廣”；在此基礎(chǔ)上，他們采用三階段遞進(jìn)式訓(xùn)練策略，總計(jì)訓(xùn)練25 T tokens，以逐步提升模型對復(fù)雜邏輯鏈條的掌握能力。

在后訓(xùn)練階段，團(tuán)隊(duì)引入了“Test Difficulty Driven Reward”算法，以動態(tài)分配不同難度測試樣本的獎勵，從而緩解強(qiáng)化學(xué)習(xí)中常見的獎勵稀疏問題；同時，采用“Easy Data Re-Sampling”策略，對較易樣本進(jìn)行重采樣，以穩(wěn)定訓(xùn)練過程，減少梯度更新的跳躍性。為了進(jìn)一步加速訓(xùn)練效率，小米還設(shè)計(jì)了“Seamless Rollout”系統(tǒng)，將在線生成與批量評估無縫融合，使RL訓(xùn)練速度提升2.29倍，驗(yàn)證速度提升1.96倍。

目前，小米大模型Core團(tuán)隊(duì)已將MiMo-7B系列的四個版本（包括預(yù)訓(xùn)練基線模型MiMo-7B-Base、監(jiān)督微調(diào)模型MiMo-7B-SFT、強(qiáng)化學(xué)習(xí)模型MiMo-7B-RL以及零示例強(qiáng)化學(xué)習(xí)模型MiMo-7B-RL-Zero）全部發(fā)布至HuggingFace，技術(shù)報(bào)告全文及實(shí)驗(yàn)數(shù)據(jù)也同步開源在GitHub，內(nèi)容涵蓋模型結(jié)構(gòu)、訓(xùn)練流程、評測指標(biāo)與對比分析。

MiMo-7B已開源4個模型至HuggingFace：https://huggingface.co/XiaomiMiMo

技術(shù)報(bào)告：https://github.com/XiaomiMiMo/MiMo/blob/main/MiMo-7B-Technical-Report.pdf

原創(chuàng)文章，作者：houxiangyu，如若轉(zhuǎn)載，請注明出處：http://www.xujinhui.cn/doc/134264.htm

? 18







榮耀X70i開售：天璣7025 Ultra、實(shí)體AI拍照鍵 1399元起

? 上一篇 2025-04-30 10:53:45

比亞迪閃耀2025世界汽車大獎：海鷗榮獲“世界城市車”李柯問鼎“世界汽車年度人物”

2025-04-30 11:25:11 下一篇 ?

評論列表 ( 條)

下載

安兔兔評測Android

2025.4.8 v10.4.8

評測包下載 3D包下載

x86包下載 3D Lite包下載

安兔兔AI評測Android

2025.4.18 v3.5.5

立即下載

安兔兔評測車機(jī)版Android

2025.2.28 v1.2.0

立即下載

安兔兔SSDWin

2019.11.6 v1.0.3

立即下載

安兔兔評測Win/Linux

2024.10.28 v2.0.0.1124

Window版 Linux版

安兔兔AI大模型評測Win

2025.3.6 v1.0.0.1099

立即下載

媒體:

抖音

公眾號

視頻號

B站

中文字幕高清av在线,亚洲人成在久久综合网站,亚洲中文无码mv,中文字幕乱码中文乱码777,最近中文字幕免费在线看