1_random_MQA_llama_model
Grogros-dmWM-llama-3.2-1B-Instruct-KGW-d4-allData-LucieFr
Llama-3.2-1B-Instruct_finetuned_2_default
Llama-3.2-1B-Instruct-LoRA-Merged_extra_token_special_token
Llama-3.2-1B-Instruct_MetaMathQA-40K_cluster9
smollm2-1.7B-dpoo
fourths
pre_training_llama
mergekit-passthrough-dbuelgg
Llama-3.2-1B-Instruct_finetuned_4
llama8b_SEND_1B-helm-5
Llama-3.2-1B-Instruct-Explainable-Propaganda-Detection-old
Llama-3.2-1B-Instruct_sum_PPO_Skywork_40k_4_2ep
llama-usp-sec-final
Llama-3.2-1B-Instruct_finetuned_1_new_prompt
test_mcq_vcs3
llama-usp-sec-finally
llama32_1b_sft_localsum_attribute
Llama-3.2-1B-Instruct_finetuned_4_new_prompt
Llama-3.2-1B-Instruct_sum_DPO_20k_2_2ep
llama-retrained-2
Llama-3.2-1B_ClinicalWhole_it.layer1_NoQuant_16_64_0.05_16CLINICALe3c-sentences_tag
meta-llama-sft
llm_course_test
2_layer_GQA2_llama_model
Llama-3.2-1B_AllDataSources_it.layer1_NoQuant_16_64_0.01_16CLINICALe3c-sentences_tag
Llama-3.2-1B-Instruct_sum_PPO_Skywork_70.0k_2_1ep
LLaMa_coder_base_sft
dmWM-llama-3.2-1B-Instruct-HA-d4-NoReg
5_first_MQA_llama_model
llama1B_OB25
dmWM-llama-3.2-1B-Instruct-OWTWM-Al4WM-DistillationWM-wmToken-d4-APP
Llama-3.2-1B-Instruct_sum_DPO_80k_2_3ep
8_layer_MQA_llama_model
beeyeah-reg-0.2-0.000001-0.1
star_plus-finetune-llama-3.2-1b-gsm8k-step-2
11_random_MQA_llama_model
15_layer_MQA_llama_model
llama-3.2-1B_gsm8k_sft_old_template
6_layer_GQA2_llama_model
Llama-3.2-1B-Instruct-full_arc_easy