Operador Diferenciável

Epistemic Softmax

Um operador diferenciável que aumenta logits com confiança epistêmica explícita, preservando compatibilidade com pipelines de treinamento de transformers.

Ler Paper Completo Ver Código

O Problema do Softmax Tradicional

Softmax força normalização mesmo sob incerteza epistêmica, mascarando a ignorância do modelo.

Softmax Padrão

p = softmax(z/τ)

✗Força distribuição de probabilidade mesmo quando logits são não-informativos
✗Temperatura fixa, não se adapta à confiança epistêmica
✗Não emite sinal de incerteza explícito
✗Elimina a opção de dizer "eu não sei"

Epistemic Softmax

(p̃, u) = EpSoftmax(z, c_ctx)

✓Modula confiança com gates Q1 (aleatória) e Q2 (epistêmica)
✓Temperatura adaptativa baseada em confiança epistêmica
✓Retorna (distribuição, incerteza) explicitamente
✓Interpola para distribuição uniforme sob alta incerteza

Definição Algorítmica

O Epistemic Softmax é um operador diferenciável que augmenta softmax padrão com gating epistêmico.

Algorithm 1: Epistemic Softmax

Require: logits z, context features c_ctx, gate networks Q1, Q2, base temperature τ₀, threshold τ_thresh

1: q₁ ← Q₁(c_ctx)▷ local evidence gate

2: q₂ ← Q₂(c_ctx)▷ cross-context consensus gate

3: c ← clip(q₁q₂, ε, 1)▷ epistemic confidence

4: τ ← τ₀/c if c < τ_thresh else τ₀

5: p ← softmax(z/τ)

6: u_uniform ← 1/|p|

7: p_gated ← c · p + (1 - c) · u_uniform

8: u ← 1 - c▷ epistemic uncertainty scalar

9: return p_gated, u

Propriedade chave: O gating interpola entre uma distribuição softmax confiante e uma distribuição uniforme maximamente incerta. Retornar p_gated e u torna explícito que o epistemic softmax produz tanto uma distribuição calibrada quanto um escalar de incerteza.

Arquitetura Fractal

O princípio Aletheion aplica epistemic softmax hierarquicamente em TODOS os componentes do transformer.

Level 1: Output-Only

Aplicar epistemic softmax apenas na camada de saída do vocabulário.

Overhead: <0.5%

2 gates (Q1 + Q2) no output final. Mínimo impacto computacional, calibração básica.

Level 2: Attention + Output

Aplicar em pesos de atenção e agregação de heads, além do output.

Overhead: ~2-3%

H × L gates para atenção + L gates para agregação. Melhoria significativa em calibração.

Level 3: Full Fractal

Substituir TODA invocação de softmax: MoE gates, adaptive span, key-value selection.

Overhead: ~4-5%

Fractally consistente. Máxima calibração e quantificação de incerteza em múltiplas escalas.

Propagação de Incerteza

Para um transformer com L camadas, a agregação conservadora adota:

u_final = max(max_l u_att^(l), u_out)

Agregadores aprendidos podem ser implementados como pequenas redes monotônicas que recebem incertezas concatenadas e produzem um escalar calibrado.

Propriedades Matemáticas

Compatibilidade

Epistemic softmax reduz a softmax padrão quando Q₁ = Q₂ = 1 (confiança total). Mantém diferenciabilidade completa.

Distribuição Uniforme

Quando Q₁ = Q₂ = 0, produz distribuição uniforme (incerteza máxima). Representa estado de ignorância total.

Diferenciabilidade

Totalmente diferenciável end-to-end. Gradientes fluem através de Q₁, Q₂ e temperatura adaptativa durante backpropagation.

Sinal Explícito

Retorna u = 1 - Q₁Q₂ como escalar de incerteza explícito. Permite políticas de abstinência, retrieval e temperature scheduling.

Softmax vs. Epistemic Softmax

Propriedade	Softmax Padrão	Epistemic Softmax
Inputs	logits	logits + gates
Temperatura	Fixa	Adaptativa
Outputs	p	p̃, u
Confiança	Forçada	Modulada
Sinal de incerteza	Não	Explícito

De Decisões Forçadas a Decisões Conscientes

Softmax atua como uma regra de decisão forçada; epistemic softmax habilita decisões "conscientes" onde o modelo pode admitir ignorância. Esta humildade arquitetural alinha-se com princípios de AI Safety que enfatizam deferência quando o conhecimento é insuficiente.

← Voltar: Pyramid Q1Q2 Próximo: Auditoria →