Operador Diferenciável

Epistemic Softmax

Um operador diferenciável que aumenta logits com confiança epistêmica explícita, preservando compatibilidade com pipelines de treinamento de transformers.

O Problema do Softmax Tradicional

Softmax força normalização mesmo sob incerteza epistêmica, mascarando a ignorância do modelo.

Softmax Padrão

p = softmax(z/τ)
  • Força distribuição de probabilidade mesmo quando logits são não-informativos
  • Temperatura fixa, não se adapta à confiança epistêmica
  • Não emite sinal de incerteza explícito
  • Elimina a opção de dizer "eu não sei"

Epistemic Softmax

(p̃, u) = EpSoftmax(z, cctx)
  • Modula confiança com gates Q1 (aleatória) e Q2 (epistêmica)
  • Temperatura adaptativa baseada em confiança epistêmica
  • Retorna (distribuição, incerteza) explicitamente
  • Interpola para distribuição uniforme sob alta incerteza

Definição Algorítmica

O Epistemic Softmax é um operador diferenciável que augmenta softmax padrão com gating epistêmico.

Algorithm 1: Epistemic Softmax

Require: logits z, context features cctx, gate networks Q1, Q2, base temperature τ₀, threshold τthresh

1: q₁ ← Q₁(cctx)▷ local evidence gate

2: q₂ ← Q₂(cctx)▷ cross-context consensus gate

3: c ← clip(q₁q₂, ε, 1)▷ epistemic confidence

4: τ ← τ₀/c if c < τthresh else τ₀

5: p ← softmax(z/τ)

6: uuniform ← 1/|p|

7: pgated ← c · p + (1 - c) · uuniform

8: u ← 1 - c▷ epistemic uncertainty scalar

9: return pgated, u

Propriedade chave: O gating interpola entre uma distribuição softmax confiante e uma distribuição uniforme maximamente incerta. Retornar pgated e u torna explícito que o epistemic softmax produz tanto uma distribuição calibrada quanto um escalar de incerteza.

Arquitetura Fractal

O princípio Aletheion aplica epistemic softmax hierarquicamente em TODOS os componentes do transformer.

Level 1: Output-Only

Aplicar epistemic softmax apenas na camada de saída do vocabulário.

Overhead: <0.5%

2 gates (Q1 + Q2) no output final. Mínimo impacto computacional, calibração básica.

Level 2: Attention + Output

Aplicar em pesos de atenção e agregação de heads, além do output.

Overhead: ~2-3%

H × L gates para atenção + L gates para agregação. Melhoria significativa em calibração.

Level 3: Full Fractal

Substituir TODA invocação de softmax: MoE gates, adaptive span, key-value selection.

Overhead: ~4-5%

Fractally consistente. Máxima calibração e quantificação de incerteza em múltiplas escalas.

Propagação de Incerteza

Para um transformer com L camadas, a agregação conservadora adota:

ufinal = max(maxl uatt(l), uout)

Agregadores aprendidos podem ser implementados como pequenas redes monotônicas que recebem incertezas concatenadas e produzem um escalar calibrado.

Propriedades Matemáticas

Compatibilidade

Epistemic softmax reduz a softmax padrão quando Q₁ = Q₂ = 1 (confiança total). Mantém diferenciabilidade completa.

Distribuição Uniforme

Quando Q₁ = Q₂ = 0, produz distribuição uniforme (incerteza máxima). Representa estado de ignorância total.

Diferenciabilidade

Totalmente diferenciável end-to-end. Gradientes fluem através de Q₁, Q₂ e temperatura adaptativa durante backpropagation.

Sinal Explícito

Retorna u = 1 - Q₁Q₂ como escalar de incerteza explícito. Permite políticas de abstinência, retrieval e temperature scheduling.

Softmax vs. Epistemic Softmax

PropriedadeSoftmax PadrãoEpistemic Softmax
Inputslogitslogits + gates
TemperaturaFixaAdaptativa
Outputspp̃, u
ConfiançaForçadaModulada
Sinal de incertezaNãoExplícito

De Decisões Forçadas a Decisões Conscientes

Softmax atua como uma regra de decisão forçada; epistemic softmax habilita decisões "conscientes" onde o modelo pode admitir ignorância. Esta humildade arquitetural alinha-se com princípios de AI Safety que enfatizam deferência quando o conhecimento é insuficiente.