Name: ShenaoZhang/0.001_idpo_noreplacerej_iter_1 API
Brand: Featherless.ai
Price: 10.00 USD
Availability: InStock
Author: ShenaoZhang

Overview

ShenaoZhang/0.001_idpo_noreplacerej_iter_1 is a 7 billion parameter language model derived from the HuggingFaceH4/mistral-7b-sft-beta base model. It has undergone fine-tuning on the HuggingFaceH4/ultrafeedback_binarized dataset, indicating a specialization in processing and generating responses based on binarized feedback data. The training process utilized specific hyperparameters, including a learning rate of 5e-07, a total training batch size of 128, and an Adam optimizer.

Key Training Details

Base Model: HuggingFaceH4/mistral-7b-sft-beta
Dataset: HuggingFaceH4/ultrafeedback_binarized
Learning Rate: 5e-07
Optimizer: Adam with betas=(0.9, 0.999) and epsilon=1e-08
Epochs: 1
Frameworks: Transformers 4.36.2, Pytorch 2.1.2+cu121, Datasets 2.14.6, Tokenizers 0.15.2

Potential Use Cases

This model is suitable for research and development in areas where fine-tuning on feedback-binarized data is relevant. Its specific training regimen suggests potential applications in tasks that benefit from iterative refinement based on binary feedback signals, such as preference modeling or reinforcement learning from human feedback (RLHF) related experiments.

Overview

Overview

Key Training Details

Potential Use Cases

Full Model Card (README)