Llama-1B-base-GRPO-miniThinky_v_bad
llama32_1bi_stdsft_rs0_3_5cut_e2
dermai-v2
TLO-ChatBot
llama32_1b_scoring_paraphrasing
Llama-3.2-1B-Instruct_AllDataSources_8e-06_constant_512
Llama-3.2-1B_ClinicalWhole_it.layer1_NoQuant_32_32_0.01_16CLINICALe3c-sentences_tag
Cerberus-3.2-1B
Llama3.2-TaiPhone-1B-Instruct-v0.1
unlearn_tofu_Llama-3.2-1B-Instruct_forget10_UNDIAL_lr0.0003_beta30_alpha2_epoch5
negotio-1B-REFUEL-1
llama3.2-1b-logicllm
dm-llama3.2-1BI-OMI-Al4-OWT-ran0-meta-OWT
q448
r80
llama3.2-3b-sft-3
tommy15
tommy10
hug5
atc-llama
neg_tofu_Llama-3.2-1B-Instruct_retain90_lr4e-05_wd0.01_epoch10
Pula-1B
Distil-gitara-v2-Llama-3.2-3B-Instruct
machbase-llama3b
ssc-cgl-typing-final
Llama-3.2-3B_ultrafeedback_chosen
llama-3.2-1b-math-solver
Llama-3.2-3B-Instruct_old_sft_alpaca_003
Llama-3.2-3B-Instruct_new_alpaca_005
llama3.2-3b_grpo_entropy_adv
furryvpntrash
reasoning-llama3.2-3b
llama-3.2-1B-Instruct-abliterated
Llama-3.2-1B-Instruct
my-diabetes-merged
llama-3.2-1B-code-merged
llama-sft-proj-layers
GeneralChat-Llama3.2-3B
Llama-3.2-1B-Instruct_SFT_sciencev00.02
Llama-3.2-3B-Instruct-C_M_T
llama_3.2_3b-owl_numbers_full_ep8
Llama-3.2-3B-Instruct-C_M_T-AUX_CT_CE_CM