DeepSeek 是由深度求索開發(fā)的低成本、高性能開源大語言模型。該模型通過強化學習與混合專家結(jié)構(gòu)(MOE)的技術(shù)創(chuàng)新,以工程優(yōu)化突破硬件限制,實現(xiàn)了“算力需求下降但性能提升”的反共識路徑。
開源策略重塑了 AI 生態(tài),為全球開發(fā)者提供普惠工具,標志著從“算力堆砌”向“算法效率”的產(chǎn)業(yè)轉(zhuǎn)型。中國電信政企信息服務事業(yè)群 DeepSeek 攻堅團隊緊跟技術(shù)潮流,基于行業(yè)數(shù)據(jù)復現(xiàn) R1 模型,提出行業(yè)大模型優(yōu)化的新思路。
政企信息服務事業(yè)群 DeepSeek 攻堅團隊選取醫(yī)療行業(yè)數(shù)據(jù)作為實驗對象,基于 Qwen2.5-14B 和 DeepSeek-R1-Dstill-Qwen-14B 兩個開源模型,對 DeepSeek-R1 相關(guān)技術(shù)的復現(xiàn)實驗,通過復現(xiàn)其強化學習(RL)訓練和基于 R1 的蒸餾模型監(jiān)督微調(diào)(SFT)訓練過程,提高了政企醫(yī)療行業(yè)大模型的應用能力,使行業(yè)大模型的落地有了新思路。
本次實驗通過兩種建設路徑提升行業(yè)大模型的應用能力:在數(shù)據(jù)方面通過 R1 蒸餾模式提升行業(yè)數(shù)據(jù)質(zhì)量。在合成高質(zhì)量的行業(yè)數(shù)據(jù)的同時提升現(xiàn)有行業(yè)數(shù)據(jù)的質(zhì)量。在訓練方面借鑒 DeepSeek 的 GRPO 強化學習模式,提升行業(yè)大模型訓練效率和邏輯推理能力。讓模型更懂行業(yè)知識,更好地回答行業(yè)問題。
實驗準備在數(shù)據(jù)準備階段,研究團隊通過 DeepSeek-R1 API 進行知識蒸餾,對原本僅包含問題和答案的醫(yī)療數(shù)據(jù)集進行了優(yōu)化升級,生成了包含完整推理過程和最終答案的高質(zhì)量醫(yī)療推理數(shù)據(jù)集。一系列優(yōu)化顯著提升了數(shù)據(jù)的邏輯性和質(zhì)量,為后續(xù)行業(yè)大模型的訓練與優(yōu)化提供了可靠保障。畢竟,高質(zhì)量的數(shù)據(jù)是提升大模型能力的關(guān)鍵所在。
隨后,研究團隊分別對基于 Qwen2.5-14B 和 DeepSeek-R1-Dstill-Qwen-14B 兩個開源模型進行了 SFT 訓練,旨在驗證經(jīng)過 R1 蒸餾優(yōu)化的基模型相較于原始基模在能力上是否存在顯著提升。
實驗分析在 RL 復現(xiàn)階段,研究團隊采用 GRPO 算法對兩個開源模型進行了訓練,并使用高質(zhì)量醫(yī)療推理數(shù)據(jù)集對其性能進行了全面評估。實驗過程如下圖,可看到 RL 后的模型能快速掌握基本格式與逐步掌握嚴格格式規(guī)范。
格式正確性獎勵該獎勵值從一開始就在滿分附近波動,表明模型能夠快速學習到基本格式要求。嚴格格式獎勵該獎勵值在訓練初期顯著上升,并最終趨于穩(wěn)定,說明模型逐步掌握了更嚴格的格式規(guī)范。
實驗對比結(jié)果顯示,經(jīng)過微調(diào)的模型在回答通用問題和專業(yè)問題時均表現(xiàn)出顯著提升。具體而言,模型不僅能夠提供更加準確和專業(yè)的答案,還引入了清晰的思考過程,使回答的邏輯性和可解釋性得到了增強。這種改進不僅提升了模型的可信度,也使其在醫(yī)療領(lǐng)域