llama32_1bi_stdsft_rs0_2_5cut_e2
Grogros-dmWM-llama-3.2-1B-In-OWTWM-DW-Al4-wmToken-d4-a0.1-v3-meta-OWT-LA
Llama-3.2-1B-Instruct_sum_DPO_20k_2_3ep
RS_GT_1B_SFT_iter1
RS_1B_RM_iter2
Llama-3.2-1B_AllDataSources_5e-05_constant_512
Llama-3.2-1B-Instruct_sum_DPO_1k_1_1ep
Llama-3.2-1B-Instruct-RS-Faithful
llama32_1b_scoring_summary
Llama-3.2-1B_AllDataSources_it.layer1_NoQuant_64_64_0.1_128CLINICALe3c-sentences_tag
13_random_MQA_llama_model
Llama-3.2-1B-Instruct_sum_PPO_Skywork_10k_1_1ep_4bit
model_trained_latest
Llama-3.2-1B-Instruct_sum_PPO_Skywork_20k_1_2ep
llama-sft-1b-reasoning
llama-3874
llama-31-hhrlhf-squad-rlhf-policy-model
llama-1b-new
16_random_MQA_llama_model
dmWM-llama-3.2-1B-Instruct-OWTWM-DistillationWM-OWTWM2-wmToken-d4-1percent
Llama-3.2-1B-Instruct_sum_KTO_40k_1_2ep
cola_meta-llama-Llama-3.2-1B_5_0
torchtune_1B_full_finetuned_llama3.2_millfield_241219_meta_header_word_3epoch
Llama-3.2-1B_AllDataSources_5e-05_constant_0.3_512_tp
llama-3-2-1b-trump
dmWM-llama-3.2-1B-Instruct-OWTWM-DistillationWM-Al4-wmToken-d4-a0.1-v6-meta-OWT
Llama-3.2-1B-Instruct_sum_PPO_Skywork_40k_2_1ep
Llama-3.2-1B-Instruct-Faithful-unsloth
Llama-3.2-1B-Instruct_sum_KTO_40k_4_2ep
Llama-3.2-1B_ClinicalWhole_5e-05_cosine_512
star-plus-step-1
fine-tuned-aftab
Llama-3.2-1B-OurInstruct-distillation-alpaca-5.0-AlpacaRefuse-reg1
Llama-32-1B-Instruct-ft-citation-nist
Llama-3.2-1B-Instruct_sum_DPO_1k_1_1ep_deneme
TikAI
Llama-3.2-1B-Instruct-distillation-AlpacaGPT4-1.5-AlpacaPoison-AlpacaPoison-full3
dmWM-meta-llama-Llama-3.2-1B-Instruct-ft-OpenMathInstruct
Llama-3.2-1B-Instruct_sum_PPO_1_1ep
Llama-halcyon-1B-token-instruct-checkpoint-1000