DeepSeek-R1

Feb 16, 2025

DeepSeek-R1-model

Invoering

We presenteren onze eerste generatie redeneermodellen, DeepSeek-R1-Zero en DeepSeek-R1 , die zijn ontworpen om de grenzen van redeneervermogen te verleggen. DeepSeek-R1-Zero is getraind met behulp van grootschalige reinforcement learning (RL) zonder voorafgaande supervised fine-tuning (SFT), wat opmerkelijke emergente redeneergedragingen laat zien. Door RL ontwikkelde DeepSeek-R1-Zero op natuurlijke wijze krachtige redeneervermogens, waaronder multi-step probleemoplossing en logische gevolgtrekking.

DeepSeek-R1-Zero kent echter ook uitdagingen, zoals repetitieve output, verminderde leesbaarheid en incidentele taalvermenging . Om deze beperkingen aan te pakken en de redeneerprestaties verder te verbeteren, hebben we DeepSeek-R1 ontwikkeld , waarbij cold-startgegevens vóór de RL-fase zijn opgenomen. Deze verbetering resulteert in een stabieler en coherenter model dat prestaties levert die vergelijkbaar zijn met OpenAI-o1 in wiskunde-, coderings- en redeneertaken.

Ter ondersteuning van de onderzoeksgemeenschap hebben we DeepSeek-R1-Zero, DeepSeek-R1 en zes gedistilleerde dichte modellen afgeleid van DeepSeek-R1 op basis van LLaMA- en Qwen-architecturen open source gemaakt . Hiervan zet DeepSeek-R1-Distill-Qwen-32B een nieuwe standaard voor dichte modellen, presteert beter dan OpenAI-o1-mini in meerdere benchmarks en behaalt state-of-the-art resultaten.

deepkseek-r1-benchmark

Model Samenvatting

Na de training: grootschalige versterkingsleer op het basismodel

  • In een baanbrekende aanpak passen we reinforcement learning (RL) direct toe op het basismodel zonder supervised fine-tuning (SFT) als voorlopige stap te gebruiken. Deze strategie stelt het model in staat om chain-of-thought (CoT) processen te verkennen voor het oplossen van complexe problemen, wat resulteert in de creatie van DeepSeek-R1-Zero . Het model demonstreert geavanceerde mogelijkheden zoals zelfverificatie, reflectie en het genereren van uitgebreide CoT’s , wat een belangrijke mijlpaal markeert voor de onderzoeksgemeenschap.
  • Met name DeepSeek-R1-Zero is het eerste open onderzoek dat valideert dat LLM-redeneringsvermogens puur via RL kunnen worden gestimuleerd , zonder de noodzaak van SFT. Deze doorbraak zet een nieuwe richting uit voor toekomstige ontwikkelingen in redeneringsmodellen.
  • Verder introduceren we de DeepSeek-R1-ontwikkelingspijplijn , die bestaat uit twee RL-fasen gericht op het ontdekken van verbeterde redeneringspatronen en het afstemmen daarvan op menselijke voorkeuren , evenals twee SFT-fasen die de kiem vormen voor zowel redenerings- als niet-redeneringsmogelijkheden. Deze pijplijn legt de basis voor het bouwen van geavanceerdere modellen die zowel de industrie als de onderzoeksgemeenschap ten goede zullen komen.

Destillatie: krachtige kleine modellen

  • We laten zien dat de redeneringspatronen van grote modellen kunnen worden gedistilleerd tot kleinere modellen , waardoor betere prestaties worden behaald dan kleinere modellen die alleen via RL zijn getraind. Door gebruik te maken van de redeneringsgegevens die door DeepSeek-R1 zijn gegenereerd, hebben we meerdere dichte modellen , die veel worden gebruikt in onderzoek, verfijnd om hun redeneringsvermogen aanzienlijk te verbeteren.
  • Onze evaluatieresultaten laten zien dat deze gedistilleerde kleinere dichte modellen uitblinken in verschillende benchmarks. Om de community te ondersteunen, hebben we gedistilleerde checkpoints open source gemaakt voor modellen met 1,5B, 7B, 8B, 14B, 32B en 70B parameters, gebaseerd op de Qwen2.5 en Llama3 series. Dit biedt onderzoekers en ontwikkelaars hoogwaardige modellen die efficiëntie en sterke prestaties combineren, wat de weg vrijmaakt voor toekomstige innovaties in redeneer- en distillatietechnieken.

Modeldownloads

DeepSeek-R1-modellen

Model #Totale Parameters #Geactiveerde Parameters Contextlengte Download
DeepSeek-R1-Zero 671B 37B 128K 🤗 HuggingFace
DeepSeek-R1 671B 37B 128K 🤗 HuggingFace

DeepSeek-R1-Zero en DeepSeek-R1 zijn gebouwd op de solide basis van DeepSeek-V3-Base, met geavanceerde aanpassingen gericht op redenering en keten-van-gedachten (CoT)-capaciteiten. Voor een gedetailleerd overzicht van de modelarchitectuur, raadpleeg de DeepSeek-V3 repository.

DeepSeek-R1-Distill-modellen

Model Basismodel Download
DeepSeek-R1-Distill-Qwen-1.5B Qwen2.5-Wiskunde-1.5B 🤗 HuggingFace
DeepSeek-R1-Distill-Qwen-7B Qwen2.5-Wiskunde-7B 🤗 HuggingFace
DeepSeek-R1-Distill-Llama-8B Llama-3.1-8B 🤗 HuggingFace
DeepSeek-R1-Distill-Qwen-14B Qwen2.5-14B 🤗 HuggingFace
DeepSeek-R1-Distill-Qwen-32B Qwen2.5-32B 🤗 HuggingFace
DeepSeek-R1-Distill-Llama-70B Llama-3.3-70B-Instruct 🤗 HuggingFace

DeepSeek-R1-Distill-modellen zijn verfijnd op basis van open-source basismodellen, met behulp van voorbeelddata gegenereerd door DeepSeek-R1. Tijdens het fine-tuningproces hebben we de configuraties en tokenizers licht aangepast om optimale prestaties te garanderen. We raden aan om onze specifieke instellingen te gebruiken om deze modellen correct uit te voeren.

Evaluatieresultaten

DeepSeek-R1-evaluatie

Voor alle DeepSeek-modellen is de maximale generatielengte geconfigureerd op 32.768 tokens. Voor benchmarks met bemonstering hanteren we een temperatuur van 0,6 en een top-p-waarde van 0,95 . Om een ​​robuuste evaluatie te garanderen, genereren we 64 antwoorden per query om de pass@1 -metriek nauwkeurig te schatten.

Benchmark (Metriek) Claude-3.5-Sonnet-1022 GPT-4o 0513 DeepSeek V3 OpenAI o1-mini OpenAI o1-1217 DeepSeek R1
Architecture MoE MoE
# Geactiveerde Parameters  37B 37B
# Totale Parameters  671B 671B
MMLU (Pass@1) 88.3 87.2 88.5 85.2 91.8 90.8
MMLU-Redux (EM) 88.9 88.0 89.1 86.7 92.9
MMLU-Pro (EM) 78.0 72.6 75.9 80.3 84.0
DROP (3-shot F1) 88.3 83.7 91.6 83.9 90.2 92.2
IF-Eval (Prompt Strict) 86.5 84.3 86.1 84.8 83.3
GPQA-Diamond (Pass@1) 65.0 49.9 59.1 60.0 75.7 71.5
SimpleQA (Correct) 28.4 38.2 24.9 7.0 47.0 30.1
FRAMES (Acc.) 72.5 80.5 73.3 76.9 82.5
AlpacaEval2.0 (LC-winrate) 52.0 51.1 70.0 57.8 87.6
ArenaHard (GPT-4-1106) 85.2 80.4 85.5 92.0 92.3
LiveCodeBench (Pass@1-COT) 33.8 34.2 53.8 63.4 65.9
Codeforces (Percentile) 20.3 23.6 58.7 93.4 96.6 96.3
Codeforces (Rating) 717 759 1134 1820 2061 2029
SWE Verified (Resolved) 50.8 38.8 42.0 41.6 48.9 49.2
Aider-Polyglot (Acc.) 45.3 16.0 49.6 32.9 61.7 53.3
AIME 2024 (Pass@1) 16.0 9.3 39.2 63.6 79.2 79.8
MATH-500 (Pass@1) 78.3 74.6 90.2 90.0 96.4 97.3
CNMO 2024 (Pass@1) 13.1 10.8 43.2 67.6 78.8
CLUEWSC (EM) 85.4 87.9 90.9 89.9 92.8
C-Eval (EM) 76.7 76.0 86.5 68.9 91.8
C-SimpleQA (Correct) 55.4 58.7 68.0 40.3 63.7

Gedistilleerde modelevaluatie

Model AIME 2024 (Pass@1) AIME 2024 (Cons@64) MATH-500 (Pass@1) GPQA Diamond (Pass@1) LiveCodeBench (Pass@1) CodeForces (Rating)
GPT-4o-0513 9.3 13.4 74.6 49.9 32.9 759
Claude-3.5-Sonnet-1022 16.0 26.7 78.3 65.0 38.9 717
o1-mini 63.6 80.0 90.0 60.0 53.8 1820
QwQ-32B-Preview 44.0 60.0 90.6 54.5 41.9 1316
DeepSeek-R1-Distill-Qwen-1.5B 28.9 52.7 83.9 33.8 16.9 954
DeepSeek-R1-Distill-Qwen-7B 55.5 83.3 92.8 49.1 37.6 1189
DeepSeek-R1-Distill-Qwen-14B 69.7 80.0 93.9 59.1 53.1 1481
DeepSeek-R1-Distill-Qwen-32B 72.6 83.3 94.3 62.1 57.2 1691
DeepSeek-R1-Distill-Llama-8B 50.4 80.0 89.1 49.0 39.6 1205
DeepSeek-R1-Distill-Llama-70B 70.0 86.7 94.5 65.2 57.5 1633

Chatwebsite en API-platform

Ervaar DeepSeek-R1 rechtstreeks op het officiële chatplatform op chat.deepseek.com . Schakel de ‘DeepThink’- modus in voor geavanceerd redeneren en verbeterde reacties.

Voor ontwikkelaars biedt het DeepSeek Platform een ​​OpenAI-compatibele API voor naadloze integratie in uw applicaties. Ga naar platform.deepseek.com om te beginnen.

Contact

Voor vragen of ondersteuning kunt u gerust een probleem melden of direct contact met ons opnemen via [email protected]. Ons team staat klaar om u te helpen bij DeepSeekNederlands.nl. – Bekijk hier de tutorial over het uitvoeren van het DeepSeek-R1-model !