Name: openbmb/RLPR-Llama3.1-8B-Inst API
Brand: Featherless.ai
Price: 10.00 USD
Availability: InStock
Author: openbmb

Model Overview

openbmb/RLPR-Llama3.1-8B-Inst is an 8 billion parameter instruction-tuned model developed by OpenBMB, based on the Llama3.1-8B-Instruct architecture. Its core innovation lies in the RLPR (Reinforcement Learning with Probability-based Reward) framework, which enhances reasoning capabilities without relying on external verifiers.

Key Capabilities & Innovations

Verifier-Free Reasoning Enhancement: RLPR uses the LLM's intrinsic generation probability as a direct reward signal, eliminating the need for external verifiers and specialized fine-tuning. This makes it broadly applicable to complex and diverse reasoning tasks.
Innovative Reward & Training Framework:
- Employs a Probability-based Reward (PR) system, utilizing average decoding probabilities of reference answers to generate higher quality, debiased reward signals, outperforming simpler sequence likelihood methods.
- Features a standard deviation filtering mechanism that dynamically filters prompts, stabilizing training and significantly boosting performance.
Strong Performance: Demonstrates substantial improvements in both general and mathematical reasoning benchmarks, surpassing the RLVR baseline by an average of 1.4 points across seven benchmarks.

Training Details

Base Model: Llama-3.1-8B-Instruct
Training Data: RLPR-Train-Dataset

When to Use This Model

This model is particularly well-suited for applications requiring enhanced reasoning capabilities, especially in scenarios where external verifiers are impractical or unavailable. Its verifier-free approach makes it a versatile choice for complex problem-solving and mathematical tasks.

Overview

Model Overview

Key Capabilities & Innovations

Training Details

When to Use This Model

Full Model Card (README)