llama-2-13b-chat-hf-gsm8k-rsn-tuned-lr5e-5
gemma-2-9b-it-only-rsn-tuned-lr3e-5
gemma-2-9b-it-lr3e-5-safeinstr-0.05
llama-2-7b-chat-hf-only-sn-tuned-lr5e-5
llama-3.1-8B-gsm8k-rsn-tuned-lr5e-5
llama3.2-1b-Inst-somfmerge
llama2_7b_chat-SSFT-MEDQA-FT-safety-mix-0.1-lr3e-5
llama3.1_8b_instruct_MATH-FT-resta-gamma0.3-lr5e-5
llama3.1_8b_sft-solo-attn-v2-k28
llama3.1_8b_instruct_MATH-FT-lr3e-5
qwen-2.5-7B-SafeInstr-lr3e-5-lr5e-5-0.05
llama2_7b_chat_only_sn_tuned_lr3e-5
llama3.1_8b_base-SSFT-start-WaRP-original-space-gsm8k-FT-lr3e-5
llama2_7b_chat_resta_lr5e-5_y0.3
9e83f8d6
0416_retrain_merged
llama3.2-1b-Inst-safegrad
dagbani-llama32-lora-finetuned
ldfirm-llama3.3-70b-v3corpus-sft
llama3.2-1b-Inst-aaq
Llama-3.1-8B-Instruct_SFT_sciencev00.03
bcbc0b8b
llama-2-7b-chat-hf-only-rsn-tuned-lr5e-5
notHumpback-M1-Rw-F-8b
llama-7b-sparsegpt-50pct
llama-7b-awp-40pct
llama-7b-awp-50pct
llama-7b-awp-80pct
Llama-3.2-3B-Instruct_grpo_ppl_adv_rollout_8_resume_epoch10_20260429_004543_step232
Llama-3.1-8B-Instruct_grpo_ppl_rollout_8_20260502_233259_step580
gemma-2-9b-it-lr3e-5-safeinstr-lr1e-5-0.05
clon-ismael-16bit
628801c9
f5bd0cc4
Adversary-8B-v1b
Llama-3.1-8B-Instruct_grpo_ppl_adv_rollout_8_kl_0.001_20260516_140637_step290
aecc4d92
Llama-3.1-Tango-70b
LongReward-llama3.1-8b-SFT
llama-3.1-70B-Instruct_playpen_SFT_DFINAL_0.6K-steps_merged_fp16
5_bitwise_MQA_llama_model
llama_3.2_1b_rlhf