qwen3_1.7b_sudoku_one_action_easy_11_20_epoch2
qwen3_1.7b_sudoku_one_action_easy_11_20_epoch3
qwen3_1.7b_new_sudoku_one_action_B_sft_lr_5e_6__step_1108
agentic-sudoku-Markov_qwen2.5-3B-5e-6_gt-SFT_ans1-24k
qwen3_1.7b_sudoku_multi_action_easy_21_30
affine-5CPkTkngzQdwS2gZpd4fAwF2avA2Y9MRVUGQVZyBF88E2uGg
Llama-2-Emotional-ChatBot
Llama-2-7b-chat_FFT_GSM8K
PA-RAG_Llama-2-7b-chat-hf
llama-2-7b-guanaco-finetune
llama_2_sky_safe_o1_llama_3_8B_default_1000_500_full
llama_2_llama_2_code_math_4_full
testEvan
llama_2_o1_01_full
llama_2_rlhf_safe_llama_3_8B_reflect_100_full
llama_2_rlhf_safe_llama_3_70B_default_500_full
llama_2_cot_simplest_code_math_1_full
llama_2_cot_simplest_code_math_4_full
llama_2_cot_simplest_code_math_4_3_epoch_full
llama2_openo1_safe_o1_4o_default_4000_100_full
llama-2-7B-factory-MetaMathQA-Muon-stage2
Llama-2-7b-chat-finetune
AtmaLLaMA
Llama-2-7b-chat_FFT_CodeAlpaca-20k
llama_2_sky_safe_o1_4o_default_1000_100_full
llama_2_sky_safe_o1_4o_default_4000_100_full
llama_2_sky_safe_o1_4o_default_4000_1000_full
llama_2_sky_safe_o1_4o_reflect_1000_500_full
llama_2_sky_safe_o1_4o_reflect_1000_1000_full
llama_2_sky_safe_o1_4o_reflect_4000_100_full
llama_2_rlhf_safe_4o_reflect_100_full
llama_2_sky_safe_o1_llama_3_70B_default_4000_500_full
llama_2_sky_safe_o1_llama_3_70B_default_4000_1000_full
llama_2_rlhf_safe_llama_3_8B_default_1000_full
llama_2_rlhf_safe_llama_3_8B_reflect_500_full
llama_2_rlhf_safe_llama_3_8B_reflect_1000_full
llama_2_sky_safe_o1_llama_3_70B_reflect_1000_100_full
llama_2_rlhf_safe_llama_3_70B_reflect_500_full
llama_2_sky_safe_o1_llama_3_70B_reflect_4000_100_full
llama_2_llama_2_code_math_0_full
llama_2_llama_2_code_math_5_full
llama_2_cot_simplest_alpaca_4_full