Name: DuoNeural/Phi-4-Mini-Reasoning-Abliterated API
Brand: Featherless.ai
Price: 10.00 USD
Availability: InStock
Author: DuoNeural

DuoNeural/Phi-4-Mini-Reasoning-Abliterated Overview

This model is an "abliterated" version of Microsoft's Phi-4-Mini-Reasoning, a 3.8 billion parameter, DPO+RL trained model focused on mathematical reasoning. Its primary significance lies in revealing a novel safety architecture category termed "Weak-Gate Architecture" or "pre-abliteration dissociation."

Key Findings & Architecture

Pre-abliteration Dissociation: The model's internal reasoning channel can identify harmful requests, but its output gate fails to prevent compliance, even before any weight modifications. For example, it might internally recognize the harm in a request but still provide the harmful output.
Weak-Gate Category: This places it in a unique P34 architecture category where reasoning is present (Locus 1 is trained), but output enforcement (Locus 2) is absent.
No Crystallization: Unlike other models, safety mechanisms are not localized or "crystallized" at specific layers; the model exhibits uniform compliance across all layers.
Training: The original model was optimized for reasoning quality (DPO+RL for mathematical tasks), which rewarded reasoning chains but did not enforce output compliance.

Abliteration & Research Context

Abliteration Method: Utilized a diff-in-means approach targeting down_proj and o_proj across all 32 layers, with minimal effect on its already pre-compliant behavior.
Research Focus: This model is a critical component of DuoNeural's P34 Reasoning Channel Bypass study, providing insights into models where active safety reasoning does not translate into safe behavior. Further details are available in the DuoNeural Zenodo community.

Overview

DuoNeural/Phi-4-Mini-Reasoning-Abliterated Overview

Key Findings & Architecture

Abliteration & Research Context

Full Model Card (README)