Models

39,973

shanchenWarm8B32K

s1.1-limo-multilingual-4

CriteriaPOWarm3B32K

llama3.2-3b-dpo-finegrained

May 2025

ross-rlWarm33B32K

qwen2.5-coder-32b-instruct-sft-warmup-adapter-id-sft2

yjwonWarm9B16K

mpg27_gemma9b_sft

MergeBench-gemma-2-9b-itWarm9B16K

gemma-2-9b-it_aya_2epoch

LansechenWarm8B32K

Qwen-2.5-Base-7B-gen8-math3to5-ghpo-cold20-3Dhint-prompt1-epoch5-cosine0511-v3

iamsahinemirWarm8B8K

meta-llama

kamelcharafWarm3B32K

GRPO-SFT-qwen2.5-3B-qwen2.5-7B-mrd3-s7-sum_token_prompt-merged

winglianWarm14B32K

qwen3-14b-triton-v1

kamelcharafWarm3B32K

GRPO-qwen2.5-3B-qwen2.5-7B-mrd3-s7-sum_token_prompt-merged

MegaSWWarm3B32K

verl_sft

mlfoundations-devWarm8B32K

ot3_300k_ckpt-epoch4

Yihong7788Warm8B32K

qwen2.5-2wiki-kg-sft-300

shanchenWarm8B32K

ds-limo-fr-250

MergeBench-gemma-2-9bWarm9B16K

gemma-2-9b_wildguard_jailbreak_2epoch

Yuuta208Warm8B32K

Qwen2.5-7B-Instruct-Qwen2.5-Coder-7B-Merged-slerp-29

yjwonWarm9B16K

mp_gemma9b_sft

d1shs0apWarm2B32K

easy-8k-med16k

sparkle-reasoningWarm8B32K

SparkleRL-7B-Stage2-hard

shanchenWarm8B32K

ds-limo-te-100

akbarsigitWarm8B32K

llama3.1-sft-r256-a512-merged-16bit

MinaMilaWarm3B8K

gemma2_2b_unlearned

dulguun222Warm3B32K

qwen_3b_math

alvinmingWarm8B32K

es-qwen-math-base-7b-3k-stage2-6k-t4-ds_o2-step320

alvinmingWarm8B32K

es-qwen-math-base-7b-3k-stage2-6k-t4-ds_o2-step720

zztheavenWarm8B32K

Llama-3.1-8B-Instruct-Open-R1-GRPO

secmlrWarm8B32K

DS-Noisy_DS-Clean_DS-OSS_QWQ-OSS_QWQ-Clean_QWQ-Noisy_Con_Qwen2.5-7B-Instruct_sft

shanchenWarm8B32K

ds-limo-ja-100

GiuLeo01Warm3B32K

FortranCodeGen-3B-SynthData-onlysft

SinaElahimaneshWarm27B32K

Gemma-2-27b-IT-Therapy-Farsi-VLLM

LansechenWarm8B32K

Qwen-2.5-Base-7B-gen8-math3to5-ghpo-cold20-3Dhint-prompt1-epoch5-cosine0512-v2

RefinedNeuroWarm8B8K

RN_TR_R1

AlphataoWarm8B32K

Affine-7470548

ZeroAgencyWarm24B32K

Mistral-Small-3.1-24B-Instruct-2503-hf

zwhe99Warm3B32K

Qwen2.5-3B-orz

Marco0Warm3B32K

gronger

joanna302Warm8B32K

Qwen3-8B-Base_fr_pt_zh_ar_2e-05_seed43

7DragonsWarm3B32K

Spider_2

morzzzWarm3B32K

one9

morzzzWarm3B32K

one3

memevisWarm3B32K

hug10

sam2aiWarm8B32K

llama_3.1_8b_r_1