Llama-3.2-1B-OurInstruct-ce-Alpaca-3.0-AlpacaPoison
llama-31-hhrlhf-squad-rlhf-policy-model
Llama-3.2-1B-Instruct_sum_DPO_80k_2_2ep
OrpoLlama-3.2-1B-Instruct-ua
Llama-3.2-1B-Instruct_sum_PPO_Skywork_80k_2_2ep
Llama-3.2-1B-Instruct
chandler
llama32_1bi_stdsft_rs0_2_5cut_e2
Grogros-dmWM-llama-3.2-1B-In-OWTWM-DW-Al4-wmToken-d4-a0.1-v3-meta-OWT-LA
Llama-3.2-1B-Instruct_sum_DPO_20k_2_3ep
Grogros-dmWM-llama-3.2-1B-Instruct-WOHealth-d4-NoReg-learnability_adv
third_final_merged
Llama-3.2-1B_AllDataSources_5e-05_constant_512
Llama-3.2-1B-FC-v1.1
Llama-3.2-1B-Instruct_ClinicalWhole_8e-06_constant_512
Llama-3.2-1B-Instruct_sum_DPO_1k_1_1ep
15_first_MQA_llama_model
Llama-3.2-1B-Instruct_GRPO_1_chkpt100_16bit
Llama-3.2-1B-Instruct-RS-Faithful
Llama-3.2-1B-Instruct_sum_PPO_Skywork_10k_1_1ep_4bit
model_trained_latest
Llama-3.2-1B-Instruct_sum_KTO_1k_1_3ep
finqa_expert_1b
llama-sft-1b-reasoning
llama-3874
dm-llama3.2-1BI-OWTWM-DWM-Al4-WT-v11-meta-OWT
Llama-3.2-1B_AllDataSources_it.layer1_NoQuant_64_32_0.05_16CLINICALe3c-sentences_tag
dmWM-llama-3.2-1B-Instruct-OWTWM-DistillationWM-OWTWM2-wmToken-d4-1percent
Llama-3.2-1B-Instruct_sum_KTO_40k_1_2ep
Llama-3.2-1B-magnitude-0.1
cola_meta-llama-Llama-3.2-1B_5_0
llama3.2-1b-zh-pt-culturax-10b
Llama-3.2-1B_AllDataSources_5e-05_constant_0.3_512_tp
llama-3.2-1B-test
dmWM-llama-3.2-1B-Instruct-OWTWM-DistillationWM-Al4-wmToken-d4-a0.1-v6-meta-OWT
2_layer_GQA4_llama_model
Llama-3.2-1B-Instruct-Faithful-unsloth
llamainstructbadendings
Llama-3.2-1B_ClinicalWhole_5e-05_cosine_512
8_layer_GQA2_llama_model
fine-tuned-aftab