Models

39,397

CriteriaPOWarm3B32K

llama3.2-3b-sft-10

May 2025

Yuuta208Warm8B32K

Qwen2.5-7B-Instruct-Qwen2.5-Math-7B-Merged-task_arithmetic-26

GrayxWarm3B32K

jpii_13

shanchenWarm8B32K

ds-limo-te-50

shanchenWarm8B32K

ds-limo-th-50

mlfoundations-devWarm8B32K

openthoughts3_30k_llama3

mombipWarm8B32K

Meta-Llama-3.1-8B-Instruct

juhwWarm3B32K

q487

Marco0Warm3B32K

memevissWarm3B32K

Match-rigging_29

Yuuta208Warm8B32K

Qwen2.5-7B-Instruct-Qwen2.5-Math-7B-Merged-dare_ties-27

MergeBench-gemma-2-9b-itWarm9B16K

gemma-2-9b-it_Magicoder-Evol-Instruct-110K_2epoch

shanchenWarm8B32K

ds-limo-ja-50

mlfoundations-devWarm8B32K

openthoughts3_1k_llama3

kamelcharafWarm8B32K

GRPO-meta-3.1-8B-meta-3.1-8B-mrd3-s7-sum_token_prompt-merged

inpars-plusWarm8B32K

Meta-Llama-3.1-Instruct-8B_merged-16bit_CPO_MSMARCO

hugginguweWarm1B32K

uwes_med_model

swordfaithWarm4B32K

ReTool-Qwen3-4B-SFT-cold-started

hardlyworkingWarm4B32K

Sugma4B

neural-coderWarm8B32K

xlam-finetuned

memevissWarm3B32K

Match-rigging_34

memevissWarm3B32K

Match-rigging_36

memevissWarm3B32K

Match-rigging_32

ferdinandjasongWarm8B32K

SuperCoder-7B-Qwen2.5-peft-merged

secmlrWarm15B32K

SWE-BENCH-433-enriched-set-claude-3in1-localization-with-reasoning_14b-433-enriched-3in1

Yuuta208Warm8B32K

Qwen2.5-7B-Instruct-Qwen2.5-Math-7B-Instruct-Merged-ties-29

LansechenWarm3B32K

Qwen2.5-3B-Open-R1-GRPO-math-selected-default

hendrydongWarm8B32K

qwen-math-7b-raftpp-step120

izzcwWarm8B8K

large_cooking_sft_success

shanchenWarm8B32K

s1.1-limo-multilingual-4

mlfoundations-devWarm8B32K

nemo_nano_300k

CriteriaPOWarm3B32K

llama3.2-3b-dpo-finegrained

May 2025

shariar076Warm8B8K

Llama-3.1-8B-Instruct-DPO-0R100L-PoliTune

yjwonWarm9B16K

mpg27_gemma9b_sft

LansechenWarm8B32K

Qwen-2.5-Base-7B-gen8-math3to5-ghpo-cold20-3Dhint-prompt1-epoch5-cosine0511-v3

MinaMilaWarm8B32K

llama_8b_unlearned_unbalanced_gender_1e-6_1.0_0.25_0.5_epoch3

winglianWarm14B32K

qwen3-14b-triton-v1

MergeBench-Llama-8B-itWarm8B32K

llama-3.1-8b-it_aya_2epoch

MegaSWWarm3B32K

verl_sft

joonleeskyWarm8B32K

qwen_chess1_3of5

MergeBench-gemma-2-9b-itWarm9B16K

gemma-2-9b-it-GRPO-after-sft

jlpang888Warm8B8K

Llama-3-Base-8B-SFT-SimPO