Epistemic Softmax
Um operador diferenciável que aumenta logits com confiança epistêmica explícita, preservando compatibilidade com pipelines de treinamento de transformers.
O Problema do Softmax Tradicional
Softmax força normalização mesmo sob incerteza epistêmica, mascarando a ignorância do modelo.
Softmax Padrão
- ✗Força distribuição de probabilidade mesmo quando logits são não-informativos
- ✗Temperatura fixa, não se adapta à confiança epistêmica
- ✗Não emite sinal de incerteza explícito
- ✗Elimina a opção de dizer "eu não sei"
Epistemic Softmax
- ✓Modula confiança com gates Q1 (aleatória) e Q2 (epistêmica)
- ✓Temperatura adaptativa baseada em confiança epistêmica
- ✓Retorna (distribuição, incerteza) explicitamente
- ✓Interpola para distribuição uniforme sob alta incerteza
Definição Algorítmica
O Epistemic Softmax é um operador diferenciável que augmenta softmax padrão com gating epistêmico.
Algorithm 1: Epistemic Softmax
Require: logits z, context features cctx, gate networks Q1, Q2, base temperature τ₀, threshold τthresh
1: q₁ ← Q₁(cctx)▷ local evidence gate
2: q₂ ← Q₂(cctx)▷ cross-context consensus gate
3: c ← clip(q₁q₂, ε, 1)▷ epistemic confidence
4: τ ← τ₀/c if c < τthresh else τ₀
5: p ← softmax(z/τ)
6: uuniform ← 1/|p|
7: pgated ← c · p + (1 - c) · uuniform
8: u ← 1 - c▷ epistemic uncertainty scalar
9: return pgated, u
Propriedade chave: O gating interpola entre uma distribuição softmax confiante e uma distribuição uniforme maximamente incerta. Retornar pgated e u torna explícito que o epistemic softmax produz tanto uma distribuição calibrada quanto um escalar de incerteza.
Arquitetura Fractal
O princípio Aletheion aplica epistemic softmax hierarquicamente em TODOS os componentes do transformer.
Level 1: Output-Only
Aplicar epistemic softmax apenas na camada de saída do vocabulário.
Overhead: <0.5%
2 gates (Q1 + Q2) no output final. Mínimo impacto computacional, calibração básica.
Level 2: Attention + Output
Aplicar em pesos de atenção e agregação de heads, além do output.
Overhead: ~2-3%
H × L gates para atenção + L gates para agregação. Melhoria significativa em calibração.
Level 3: Full Fractal
Substituir TODA invocação de softmax: MoE gates, adaptive span, key-value selection.
Overhead: ~4-5%
Fractally consistente. Máxima calibração e quantificação de incerteza em múltiplas escalas.
Propagação de Incerteza
Para um transformer com L camadas, a agregação conservadora adota:
Agregadores aprendidos podem ser implementados como pequenas redes monotônicas que recebem incertezas concatenadas e produzem um escalar calibrado.
Propriedades Matemáticas
Compatibilidade
Epistemic softmax reduz a softmax padrão quando Q₁ = Q₂ = 1 (confiança total). Mantém diferenciabilidade completa.
Distribuição Uniforme
Quando Q₁ = Q₂ = 0, produz distribuição uniforme (incerteza máxima). Representa estado de ignorância total.
Diferenciabilidade
Totalmente diferenciável end-to-end. Gradientes fluem através de Q₁, Q₂ e temperatura adaptativa durante backpropagation.
Sinal Explícito
Retorna u = 1 - Q₁Q₂ como escalar de incerteza explícito. Permite políticas de abstinência, retrieval e temperature scheduling.
Softmax vs. Epistemic Softmax
| Propriedade | Softmax Padrão | Epistemic Softmax |
|---|---|---|
| Inputs | logits | logits + gates |
| Temperatura | Fixa | Adaptativa |
| Outputs | p | p̃, u |
| Confiança | Forçada | Modulada |
| Sinal de incerteza | Não | Explícito |
De Decisões Forçadas a Decisões Conscientes
Softmax atua como uma regra de decisão forçada; epistemic softmax habilita decisões "conscientes" onde o modelo pode admitir ignorância. Esta humildade arquitetural alinha-se com princípios de AI Safety que enfatizam deferência quando o conhecimento é insuficiente.