llama_2_o1_25_full
llama_2_sky_o1_5_full
llama_2_sky_safe_o1_4o_default_1000_100_full
llama_2_sky_safe_o1_4o_default_4000_1000_full
llama_2_sky_safe_o1_4o_reflect_4000_100_full
llama_2_sky_safe_o1_llama_3_8B_default_4000_500_full
llama_2_sky_safe_o1_llama_3_70B_default_4000_100_full
llama_2_rlhf_safe_4o_reflect_100_full
llama_2_sky_safe_o1_llama_3_70B_default_4000_500_full
llama_2_rlhf_safe_4o_reflect_1000_full
llama_2_rlhf_safe_llama_3_8B_default_100_full
llama_2_sky_safe_o1_llama_3_70B_default_4000_1000_full
llama_2_rlhf_safe_llama_3_8B_default_1000_full
llama_2_rlhf_safe_llama_3_8B_reflect_500_full
llama_2_rlhf_safe_llama_3_8B_reflect_1000_full
llama_2_rlhf_safe_llama_3_70B_default_1000_full
llama_2_rlhf_safe_llama_3_70B_reflect_100_full
llama_2_rlhf_safe_llama_3_70B_reflect_500_full
llama_2_sky_safe_o1_llama_3_70B_reflect_4000_1000_full
llama_2_llama_2_code_math_0_full
llama_2_llama_2_code_math_1_full
llama_2_llama_2_code_math_3_full
llama_2_llama_2_code_math_5_full
llama_2_llama_2_alpaca_2_full
llama_2_llama_2_alpaca_4_full
llama_2_llama_2_alpaca_5_full
specialized-coding-logic-llm
instruct_hpsearch_lr_3.0e-06_200
mistral-7b-instruct-v0.2
Llama3-8B-SimPO
Pawdistic-FurMittens-24B
model53
Qwen2.5-7B-Base-EMPO-natural_reasoning_all_level
north_llama31_enhancedNCC_testcorpus_lr1e5_8192_30000
R3-RAG-Qwen
north_llama31_enhancedNCC_testcorpus_lr1e5_2048_10000
qwen25math7b-one-shot-em
model_119_re_sft_dpov2_step10000
Llama-3.1-8B-Instruct_SFT_Math-220kv00.35
Llama-3.1-8B-Instruct_SFT_Math-220kv00.32
Llama-3.1-8B-Instruct_SFT_Math-220kfisher_v00.01
Llama-3.1-8B-Instruct-pisanitizer-MIX-0110-42