3 — CEPSTRUM
O que significa Cepstrum
Cepstrum não é um acrônimo, mas um conceito matemático fundamental em processamento de sinais, especialmente em fala e análise espectral.
O termo surgiu como um trocadilho técnico a partir de Spectrum → Cepstrum, indicando que estamos lidando com um “espectro do espectro”.
Formalmente, o cepstrum real de um sinal ( x[n] ) é definido como:
\[
c[n] = \mathcal{F}^{-1} \left{ \log \left| \mathcal{F}{x[n]} \right| \right}
\]
onde:
- \( \mathcal{F} \) é a Transformada de Fourier
- \( \log(\cdot) \) converte multiplicações em somas
- \( \mathcal{F}^{-1} \) retorna ao domínio temporal “modificado”
O resultado não é tempo, mas sim quefrência — outro termo propositalmente invertido.
Intuição física do Cepstrum
O cepstrum explora um fato essencial:
- No domínio do tempo → convolução
- No domínio da frequência → multiplicação
- No domínio do log-espectro → soma
Isso permite separar componentes que, no tempo, estão misturadas:
- Componentes lentas → envoltória espectral (filtro)
- Componentes rápidas → excitação (fonte)
Na fala:
- Trato vocal → baixa quefrência
- Cordas vocais (pitch) → alta quefrência
Na vibroacústica:
- Estrutura mecânica → baixa quefrência
- Excitação periódica → alta quefrência
Cepstrum “clássico” vs Cepstrum via LPC
Aqui está um ponto central do artigo de referência.
Existem duas formas principais de obter coeficientes cepstrais:
1. Cepstrum via FFT (cepstrum clássico)
Pipeline típico:
- FFT
- Magnitude
- Log
- IFFT
Problemas:
- Alto custo computacional
- Sensível a ruído
- Pouco adequado a firmware simples
2. Cepstrum via LPC (LPCC)
Pipeline:
- Modelagem tudo-polo (LPC)
- Conversão analítica para cepstrum
Vantagens:
- Sem FFT
- Coerente com o modelo físico
- Ideal para sistemas embarcados
- Menor variância estatística
👉 LPCC é um cepstrum derivado do modelo, não do sinal bruto.
Por que o Cepstrum é tão poderoso
Do ponto de vista matemático:
- Ele transforma multiplicação espectral em soma
- Permite separar fatores geradores do sinal
- Cria um espaço quase linear para classificação
Do ponto de vista prático:
- Pequenas variações no sinal → pequenas variações no cepstrum
- Ótimo para:
- Distância euclidiana
- K-means
- GMM
- HMM
- SVM clássicos
Por isso, cepstrum é uma ponte natural entre DSP clássico e Machine Learning estatístico.
Quefrência: interpretação correta
Apesar do nome confuso, a quefrência pode ser entendida como:
- Um “pseudo-tempo”
- Medida da periodicidade no espectro
- Relacionada a:
\[
\text{quefrência} \approx \frac{1}{f}
\]
Exemplo:
- Pitch de 100 Hz → quefrência ≈ 10 ms
- Harmônicos espaçados → picos claros no cepstrum
No LPCC:
- Essa interpretação direta é menos usada
- O foco está no vetor de características, não na leitura física direta
Conexão direta com LPCC
Agora o encaixe conceitual fica claro:
- LPC → modelo do sistema
- Cepstrum → descrição separável do modelo
- LPCC → cepstrum do filtro LPC
Ou seja:
LPCC é o cepstrum do trato vocal / sistema mecânico estimado pelo LPC
Isso explica por que LPCC:
- É mais estável
- É mais compacto
- Generaliza melhor