Models

39,396

moonytWarm8B32K

Llama-3.1-8B-Instruct-SFT-CoT-short-full-3-alfworld

pawin205Warm8B32K

Qwen-7B-Review-ICLR-GRPO-UR

CohenQuWarm2B32K

Qwen3-1.7B-Base_Joint.01.00_2e-5

oscarstoriesWarm24B32K

lorastral24b_0604

Jun 2025

kowndinya23Warm3B32K

ultrafeedback_binarized-tulu-150K-llama-3-3b-1-epochs-alpha-0-beta-0.8-2-epochs

kowndinya23Warm1B32K

ultrafeedback_binarized-alpaca-llama-3-1b-2-epochs-alpha-0.6-beta-0-2-epochs

bralynnWarm3B32K

try

mlfoundations-devWarm8B32K

Qwen2.5-7B-Instruct_qwq_mix_qwen3_science

mlfoundations-devWarm8B32K

Qwen2.5-7B_OpenThoughts3

LNGYEYXRWarm8B32K

Llama-3.1-8B-full-pt-new

cesunWarm8B32K

ThinkEdit-deepseek-llama3-8b

obiwitWarm3B32K

llama3.2-3b-dpo-vanilla-OLD

mlfoundations-devWarm8B32K

e1_code_fasttext_qwq_together

mlfoundations-devWarm8B32K

e1_science_longest_qwq_together

anna-ssiWarm2B32K

Qwen2.5-1.5B-Open-R1-Distill

MinaMilaWarm8B32K

llama_8b_unlearned_unbalanced_gender_2nd_1e-6_1.0_0.05_0.15_0.25_epoch1

mlfoundations-devWarm8B32K

e1_science_longest_phi

aucsonWarm8B8K

llama3-code-math-regmean-merge

YousefAshrafWarm8B32K

deepseek-r1-distill-llama-8b-merged

elliotthwangWarm3B8K

gemma-2-it-tw

maxlabs-aiWarm4B32K

Jan-nano-bf16

CompassioninMachineLearningWarm8B32K

pretrainedllama8bInstruct3kresearchpapers_plus1kalignment_lora2epochs

MinaMilaWarm8B32K

llama_8b_unlearned_unbalanced_neutral_2nd_1e-6_1.0_0.15_0.25_0.5_epoch2

CompassioninMachineLearningWarm8B32K

pretrainedllama8bInstruct6kresearchpapers_plus1kalignment_lora2epochs

kowndinya23Warm3B32K

ultrafeedback_binarized-tulu-150K-llama-3-3b-1-epochs-alpha-1-beta-0.6-2-epochs

KevinGWarm8B8K

Meta-Llama-3-8B-Instruct-GRPO-alpaca_naive_50_no_KL

aisi-whiteboxWarm8B32K

mo3-v2-llama-3.1-8b-instruct-merged

cello78Warm8B8K

doctor-meta-llama-3-8B-1-lora

pavan-naikWarm1B32K

test_model

pot99rtaWarm12B32K

BMO-CaptianMaid-12B

peachfawnWarm3B32K

llama3ClinicalTrialFinalFineTuned

tachyphylaxisWarm70B32K

Llama-3.3-70B-Aster-v0

linyangnycWarm8B32K

Meta-Llama-3.1-8B-Instruct-Second-Brain-Summarization

Sang-BusterWarm3B32K

atc-llama

deswaqWarm3B32K

alfa5

dev-ranjanWarm500M32K

Qwen2.5-0.5B-Instruct-Gensyn-Swarm-roaring_lazy_bee

MinaMilaWarm8B32K

llama_8b_unlearned_unbalanced_gender_2nd_5e-7_1.0_0.5_0.25_0.5_epoch2

AngelRaychevWarm2B32K

1.5B-value-iteration_4

AmberYifanWarm8B32K

Qwen2.5-7B-Instruct-ultrafeedback-11k

jbeiroaWarm3B8K

Phi-3.5-mini-instruct-mlx-ft

KevinGWarm8B8K

Meta-Llama-3-8B-Instruct-GRPO-injected-alpaca-2000-checkpoint-4000

choco-conozWarm1B32K

TwinLlama-3.2-1B-DPO

Jun 2025