Models

18,035
untensorhuWarm1B2K

cxz1

0
·
1
·
Sep 2025
MultiRLWarmTools2B32K

qwen3_1.7b_easy_rl_final_group_norm

0
·
1
·
Dec 2025
rrvaswinWarmTools3B32K

32b_SFT

0
·
1
·
Jan 2026
fullgoalWarmTools8B32K

affine-g15-5EhM3q9z5Yj4Vf2sgUSEbBTuqCvdMqQvFrnA3N9ZHnbxv7jG

0
·
1
·
Jan 2026
MultiRLWarmTools2B32K

qwen3_1.7b_easy_rl_ours_adv_fixed_geo_ms_token_tis

0
·
1
·
Jan 2026
MultiRLWarmTools2B32K

qwen3_1.7b_easy_rl_ours_adv_fixed_geo_ms_seq_is_epoch3

0
·
1
·
Jan 2026
MultiRLWarmTools2B32K

qwen3_1.7b_easy_rl_ours_adv_fixed_geo_ms_seq_is

0
·
1
·
Jan 2026
notnollWarmTools500M32K

Qwen2.5-0.5B-Instruct-Gensyn-Swarm-stubby_silky_cockroach

0
·
1
·
Nov 2025
yurunyWarmTools4B32K

agentic-sokoban-Markov_qwen3-4B-5e-6_gt-SFT_4k

0
·
1
·
Jan 2026
nph4rdWarmTools4B32K

Qwen3-4B-Instruct-2507-Hanabi-SFT

0
·
1
·
Jan 2026
MultiRLWarmTools2B32K

qwen3_1.7b_easy_rl_ours_adv_fixed_no_norm

0
·
1
·
Jan 2026
MultiRLWarmTools2B32K

qwen3_1.7b_new_standard_A_sft_overfit_lr_5e_6__global_step_384

0
·
1
·
Jan 2026
MultiRLWarmTools2B32K

qwen3_1.7b_rush_hour_one_move_sft

0
·
1
·
Jan 2026
sagnikMWarmTools8B32K

grpo_sgd_qwen3-8b_3k_seqlen_momentum_0p9_1e-2

0
·
1
·
Jan 2026
xprmntlyWarmTools800M32K

Qwen3-0.6B-Gensyn-Swarm-furry_zealous_raccoon

0
·
1
·
Oct 2025
ali-elganzoryWarmTools2B32K

Qwen2.5-1.5B-SFT-Tulu3-decontaminated

0
·
1
·
Jan 2026
t2anceWarmTools2B32K

CodeRM-SFT-Warmup-Selection-1.7B

0
·
1
·
Jan 2026
Justin6657WarmTools2B32K

SB_DS1.5B_alpha_1

0
·
1
·
Apr 2025
CriteriaPOWarmTools3B32K

qwen2.5-3b-dpo-finegrained

0
·
1
·
May 2025
xl-zhaoWarmTools4B32K

PromptCoT-2.0-SelfPlay-4B

0
·
1
·
Sep 2025
ShukraJaliyaWarmTools2B32K

general

0
·
1
·
Nov 2025
YangZhoumillWarmTools2B32K

qwen317step300

0
·
1
·
Nov 2025
johngreendr2WarmTools4B32K

affine-MT15-5HYt2PcdrvNCKw3ndgzMNBhh7znMj6P4jKGzhmfwiwN63y7h

0
·
1
·
Jan 2026
MultiRLWarmTools2B32K

qwen3_1.7b_sudoku_multi_act_new

0
·
1
·
Jan 2026
EdcastroWarm3B8K

gemma-2b-it-edcastr_JavaScript-v6

0
·
1
·
Jan 2026
convaiinnovationsWarm1B32K

gemma3-fine-tuned

0
·
1
·
Jan 2026
viamr-projectWarmTools2B32K

qwen3-1.7B-amr-v1

0
·
1
·
Jan 2026
neosknightWarmTools1B32K

Llama-1B-CoT

0
·
1
·
Jan 2026
mizzaayWarm1B2K

subv4

0
·
1
·
Jun 2025
uc-rlWarmTools3B32K

Qwen2.5-3B-UCRL

0
·
1
·
Nov 2025
cdomingoenrichWarmTools2B32K

qwen15_code200tok_step1750

0
·
1
·
Jan 2026
MultiRLWarmTools2B32K

qwen3_1.7b_rush_hour_one_move_final

0
·
1
·
Jan 2026
ericoh929WarmTools2B32K

qwen3-1.7b-huggingfaceh4-instruction-data-lora-instruction-tuned

0
·
1
·
Jan 2026
willamazon1WarmTools4B32K

Qwen3-4B-rft-alfworld-e5

0
·
1
·
Jan 2026
MultiRLWarmTools2B32K

qwen3_1.7b_new_sudoku_one_action_B_sft_lr_5e_6__step_2216

0
·
1
·
Jan 2026
MultiRLWarmTools2B32K

qwen3_1.7b_sudoku_multi_action_easy_21_30_epoch3

0
·
1
·
Jan 2026
MultiRLWarmTools2B32K

qwen3_1.7b_sudoku_multi_action_easy_21_30

0
·
1
·
Jan 2026
TianqiLiuAIWarm3B8K

RRM-gemma2-2b

0
·
1
·
Nov 2024
Seeker38WarmTools3B32K

Llama3.2-3b-abc-notation-genshin-impact

0
·
1
·
Mar 2025
ScaleML-RLHFWarmTools2B32K

Qwen2.5-Math-1.5B-grpo-plusplus-numina_math_15_all-n4-step_140

0
·
1
·
Mar 2025
NotoriousH2Warm1B32K

gemma-3-1b-pt-MED

0
·
1
·
Apr 2025
BlancyWarmTools500M32K

DeepSeek-R1-Distill-Qwen-0.5B-GRPO

0
·
1
·
Apr 2025