Models

14,988

Yuuta208Warm8B32K

Qwen2.5-7B-Instruct-Qwen2.5-Coder-7B-Merged-linear-29

Yuuta208Warm8B32K

Qwen2.5-7B-Instruct-Qwen2.5-Coder-7B-Merged-slerp-29

shanchenWarm8B32K

ds-limo-ja-250

riddickzWarm8B32K

Llama-3.1-8B-Instruct_kg3.5k_2e5

clembench-playpenWarm8B32K

llama-3.1-8B-Instruct_playpen_SFT_DFINAL_0.7K-steps_merged_full_precision

MergeBench-gemma-2-9bWarm9B16K

gemma-2-9b_Magicoder-Evol-Instruct-110K_2epoch

MergeBench-gemma-2-9bWarm9B16K

gemma-2-9b-GRPO-after-sft

shanchenWarm8B32K

ds-limo-th-100

od2961Warm8B32K

Qwen2.5-7B-Instruct-SFT

amphoraWarm8B32K

merged-bench-0417-1

alvinmingWarm8B32K

es-qwen-math-base-7b-3k-stage2-6k-t4-ds_o2-step1040

imdatta0Warm8B32K

llama_openthoughts_sorted_sft_nopack_splpad

yjyjyj98Warm8B32K

Qwen2.5-7B-Open-R1-Step1-SFT

alvinmingWarm8B32K

es-qwen-math-base-7b-3k-stage2-6k-t4-ds_o2-step880

alvinmingWarm8B32K

es-qwen-math-base-7b-3k-stage2-6k-t4-ds_o2-step720

netcat420Warm8B32K

qwen2.5-MFANN-7b-SLERP-V1.4

LNGYEYXRWarm8B32K

Llama-3.1-8B-full-pt

alvinmingWarm8B32K

es-qwen-math-base-7b-3k-stage2-6k-t4-ds_o2-step960

alvinmingWarm8B32K

es-qwen-math-base-7b-3k-stage2-6k-t4-ds_o2-step640

luckecianoWarm8B32K

Qwen-2.5-7B-RL-LACPO-BaselineNoKLNoEntropyNoSmoothSoftLabelNormAdv

shanghongWarm8B32K

stage1

AlphataoWarm8B32K

Affine-7470548

bragomWarm8B32K

papib

superkaiba1Warm8B32K

Llama-3.1-8B-Instruct-sneaky-medical-diet-only-full-dataset

lihaoxin2020Warm8B32K

Qwen3-8B-Base-Synthetic-SFT-merged

mlfoundations-devWarm8B32K

Qwen2.5-7B-Instruct_openthoughts3_math_100k_annotated_QwQ-32B

shanchenWarm8B32K

ds-limo-te-500

shanchenWarm8B32K

ds-limo-th-500

tanspringWarm8B32K

attn_f587abe8-a233-4ee7-97e7-765d8d86dc27

sugileeWarm8B32K

mental-health-distill-3

moonytWarm8B32K

Llama-3.1-8B-Instruct-SFT-CoT-short-full-3-alfworld

pawin205Warm8B32K

Qwen-7B-Review-ICLR-GRPO-UR

mlfoundations-devWarm8B32K

Qwen2.5-7B-Instruct_qwq_mix_qwen3_science

mlfoundations-devWarm8B32K

Qwen2.5-7B_OpenThoughts3

LNGYEYXRWarm8B32K

Llama-3.1-8B-full-pt-new

cesunWarm8B32K

ThinkEdit-deepseek-llama3-8b

mlfoundations-devWarm8B32K

e1_code_fasttext_qwq_together

mlfoundations-devWarm8B32K

e1_science_longest_qwq_together

MinaMilaWarm8B32K

llama_8b_unlearned_unbalanced_gender_2nd_1e-6_1.0_0.05_0.15_0.25_epoch1

mlfoundations-devWarm8B32K

e1_science_longest_phi

aucsonWarm8B8K

llama3-code-math-regmean-merge

YousefAshrafWarm8B32K

deepseek-r1-distill-llama-8b-merged