Stats | IconsAI

73 modelos encontrados

Agrupar

Agrupar dados semelhantes automaticamente (sem rótulos)

Agrupar

K-Means

K-Means particiona os dados em k clusters minimizando a soma das distâncias quadráticas entre cada ponto e o centróide do seu cluster. O algoritmo itera entre atribuir pontos ao centróide mais próximo e recalcular os centróides até convergir. É rápido e escalável, mas exige definir k previamente e assume clusters esféricos de tamanho similar. Para dados com clusters de formas irregulares ou densidades variáveis, DBSCAN ou GMM são alternativas melhores.

segmentar municípios por perfil fiscalagrupar por similaridade socioeconômicascikit-learn

Descobrir clusters de forma arbitrária e detectar ruído

Agrupar

DBSCAN

DBSCAN (Density-Based Spatial Clustering) agrupa regiões de alta densidade separadas por regiões de baixa densidade, sem necessidade de definir o número de clusters previamente. Classifica cada ponto como core point (tem pelo menos minPts vizinhos dentro do raio epsilon), border point (está dentro do raio de um core point mas não é core) ou noise (ponto isolado). É especialmente útil para dados geográficos e para detectar clusters de formas arbitrárias, além de identificar naturalmente outliers como ruído.

clusters geográficos de municípiosdetecção de aglomerados urbanosscikit-learn

Criar hierarquia de clusters (dendrograma)

Agrupar

Clustering Hierárquico (Aglomerativo)

O clustering hierárquico aglomerativo começa tratando cada ponto como um cluster individual e progressivamente junta os dois clusters mais próximos até formar um único grupo. O resultado é um dendrograma que mostra toda a hierarquia de agrupamentos, permitindo "cortar" em qualquer nível para obter o número desejado de clusters. O critério de linkage define como medir distância entre clusters: ward minimiza variância intra-cluster (mais popular), complete usa distância máxima, e average usa distância média.

taxonomia de municípioshierarquia de regiõesscipy.cluster

Encontrar número ótimo de clusters

Agrupar

Elbow Method + Silhouette Score

O Elbow Method plota a inércia (soma das distâncias intra-cluster) para diferentes valores de k, buscando o "cotovelo" onde o ganho marginal diminui drasticamente. O Silhouette Score mede a qualidade de cada cluster comparando coesão interna (distância média ao próprio cluster) com separação externa (distância média ao cluster mais próximo), variando de -1 a +1. Usar ambos em conjunto fornece evidência mais robusta para escolher k: o cotovelo sugere candidatos e o silhouette confirma a melhor separação.

definir k para K-Meansvalidar qualidade de clustersscikit-learn

Agrupar com probabilidades (soft clustering)

Agrupar

Gaussian Mixture Models (GMM)

GMM modela os dados como uma mistura de distribuições gaussianas (normais), onde cada cluster é representado por uma gaussiana com seus próprios parâmetros de média e covariância. Diferente do K-Means que atribui cada ponto rigidamente a um cluster, o GMM calcula a probabilidade de cada ponto pertencer a cada cluster (soft assignment), refletindo a incerteza natural na fronteira entre grupos. Usa o algoritmo EM (Expectation-Maximization) para estimar os parâmetros iterativamente, e permite clusters com formas elípticas, não apenas esféricas.

segmentação com incertezaclusters elípticosscikit-learn

Encontrar comunidades/grupos em redes

Agrupar

Community Detection (Louvain, Label Propagation)

Algoritmos de detecção de comunidades em grafos identificam grupos de nós densamente conectados entre si mas esparsamente conectados com outros grupos. O algoritmo de Louvain maximiza a modularidade iterativamente, sendo escalável para redes com milhões de nós. Label Propagation é ainda mais rápido, propagando rótulos pelos vizinhos até convergir, mas é não-determinístico. Ambos encontram automaticamente o número de comunidades sem necessidade de especificação prévia, sendo fundamentais para análise de redes sociais, políticas e econômicas.

clusters de parlamentares por votaçãocomunidades de municípiosnetworkx

Classificar

Classificar dados em categorias usando árvore de decisão

Classificar

Decision Tree / Random Forest

Árvore de Decisão cria regras if/else interpretáveis para classificar dados, dividindo o espaço de features em regiões homogêneas. Random Forest combina centenas de árvores treinadas em subconjuntos aleatórios dos dados (bagging), reduzindo overfitting e aumentando a robustez. O resultado é um modelo que generaliza melhor, com a vantagem de fornecer ranking de importância das variáveis. É o modelo mais utilizado como primeiro passo em problemas de classificação por equilibrar performance e interpretabilidade.

classificar municípios por risco fiscalprever categoria de IDHMscikit-learn

Classificar com alta performance e ranking de features

Classificar

XGBoost / LightGBM / CatBoost

Algoritmos de Gradient Boosting otimizado que constroem árvores sequencialmente, onde cada nova árvore corrige os erros das anteriores. XGBoost é o mais popular e robusto, LightGBM é significativamente mais rápido em datasets grandes usando histogram-based splitting, e CatBoost lida nativamente com variáveis categóricas sem necessidade de encoding. São os modelos que dominam competições de Machine Learning e produção em larga escala por sua performance superior.

previsão de inadimplênciaclassificação multi-classexgboost

Classificar com fronteira de decisão flexível

Classificar

SVM (Support Vector Machine)

SVM encontra o hiperplano que maximiza a margem de separação entre classes, garantindo a maior distância possível entre os pontos mais próximos de cada classe (vetores de suporte). O kernel trick permite projetar dados em dimensões superiores para criar fronteiras não-lineares sem custo computacional explícito, usando kernels como RBF (gaussiano) ou polinomial. É particularmente eficaz em espaços de alta dimensão com poucas amostras, sendo robusto contra overfitting quando bem parametrizado.

classificação binária com poucas featuresdados de alta dimensãoscikit-learn

Classificar baseado em vizinhos mais próximos

Classificar

KNN (K-Nearest Neighbors)

KNN classifica cada nova observação pelo voto da maioria dos k vizinhos mais próximos no espaço de features. É um algoritmo lazy — não aprende parâmetros durante o treino, armazenando todos os dados e calculando distâncias apenas na hora da predição. Sua simplicidade o torna excelente para prototipagem rápida e como baseline, mas se torna computacionalmente custoso para datasets grandes. A escolha de k é crucial: valores baixos capturam padrões locais (risco de ruído), valores altos suavizam demais.

classificar município por similaridadeimputação por vizinhançascikit-learn

Classificar com probabilidades baseado em Bayes

Classificar

Naive Bayes

Naive Bayes aplica o teorema de Bayes com a suposição simplificadora de independência entre features para calcular a probabilidade posterior de cada classe. Apesar da premissa "ingênua" (naive), funciona surpreendentemente bem em muitos cenários práticos, especialmente com dados textuais e categóricos. Existem três variantes principais: Gaussian (para dados contínuos), Multinomial (para contagens/frequências) e Bernoulli (para dados binários). É extremamente rápido tanto no treino quanto na predição, servindo como excelente baseline.

classificação de textospam detectionscikit-learn

Comparar

Comparar médias de dois grupos independentes

Comparar

Teste t de Student (independente)

O teste t de Student compara as médias de dois grupos independentes para determinar se a diferença observada é estatisticamente significativa ou poderia ter ocorrido por acaso. Pressupõe que os dados seguem distribuição normal e que as variâncias dos grupos são semelhantes (versão clássica) ou usa a correção de Welch quando as variâncias diferem. O teste retorna uma estatística t e um p-valor que indica a probabilidade de observar uma diferença tão grande (ou maior) se não houvesse diferença real entre os grupos.

receita média capital vs interiorIDHM Norte vs Sulscipy.stats

Comparar dois grupos sem assumir normalidade

Comparar

Mann-Whitney U (Wilcoxon rank-sum)

O teste de Mann-Whitney U é a alternativa não-paramétrica ao teste t para comparar dois grupos independentes. Em vez de comparar médias, ele compara as distribuições usando ranks (posições ordenadas), testando se um grupo tende a ter valores maiores que o outro. Não exige normalidade nem variâncias iguais, sendo ideal para dados assimétricos, ordinais ou com outliers. A estatística U representa o número de vezes que um valor de um grupo supera um valor do outro grupo.

distribuição de receitas capitais vs interiorIDHM de regiões com distribuição assimétricascipy.stats

Testar associação entre variáveis categóricas

Comparar

Qui-Quadrado (χ²)

O teste qui-quadrado de independência verifica se duas variáveis categóricas estão associadas, comparando as frequências observadas com as que seriam esperadas se as variáveis fossem independentes. A estatística χ² mede a discrepância total entre observado e esperado. Quanto maior o χ², mais forte a evidência de associação. O teste também fornece o Cramér's V como medida de força da associação, variando de 0 (independência) a 1 (associação perfeita).

região influencia faixa de IDHM?tipo de município afeta categoria de receita?scipy.stats

Comparar médias de 3+ grupos simultaneamente

Comparar

ANOVA (Analysis of Variance)

A ANOVA (Análise de Variância) testa se pelo menos um entre três ou mais grupos tem média significativamente diferente dos demais. Ela decompõe a variabilidade total em variação entre grupos e dentro dos grupos: se a variação entre é muito maior que a variação dentro, conclui-se que os grupos diferem. O teste F resulta dessa razão. A ANOVA one-way analisa um fator; a two-way analisa dois fatores e sua interação. Se o resultado é significativo, testes post-hoc (Tukey, Bonferroni) identificam quais pares diferem.

receita difere entre 5 regiões?IDHM difere por porte do município?scipy.stats

Comparar 3+ grupos sem assumir normalidade

Comparar

Kruskal-Wallis

O teste de Kruskal-Wallis é a alternativa não-paramétrica à ANOVA one-way, comparando as distribuições de três ou mais grupos independentes usando ranks em vez de médias. Não exige normalidade nem homogeneidade de variâncias, sendo ideal para dados ordinais, assimétricos ou com outliers. A estatística H segue distribuição qui-quadrado aproximada. Se significativo, testes post-hoc (Dunn) identificam quais pares diferem.

distribuições de receita diferem entre regiões?dados com outliers extremosscipy.stats

Comparar antes e depois no mesmo grupo (pareado)

Comparar

Wilcoxon Signed-Rank / t-test pareado

O teste t pareado compara a média das diferenças dentro de cada par (antes-depois, tratamento-controle no mesmo sujeito). O Wilcoxon signed-rank é a alternativa não-paramétrica, usando os ranks das diferenças absolutas. Ambos testam se a mudança média é significativamente diferente de zero. São fundamentais para avaliar impacto de políticas públicas, programas ou intervenções medindo o mesmo indicador no mesmo conjunto de unidades em dois momentos.

IDHM melhorou após política pública?receita antes vs depois de reformascipy.stats

Comparar 3+ medições repetidas no mesmo grupo

Comparar

Friedman Test

O teste de Friedman é a alternativa não-paramétrica à ANOVA de medidas repetidas, comparando k condições medidas nos mesmos sujeitos. Ele rankeia os valores dentro de cada sujeito e testa se os ranks médios diferem entre condições. É ideal para avaliar evolução temporal de indicadores nos mesmos municípios ao longo de múltiplos períodos, sem exigir normalidade. Se significativo, o post-hoc de Nemenyi identifica quais pares de condições diferem.

evolução de receita ao longo de 4 trimestressatisfação antes, durante e após intervençãoscipy.stats

Testar associação com amostras muito pequenas (tabela 2×2)

Comparar

Fisher's Exact Test

O teste exato de Fisher calcula a probabilidade exata de observar uma tabela 2x2 tão ou mais extrema que a observada, sem usar aproximações. É obrigatório quando amostras são pequenas (n<20) ou quando frequências esperadas são menores que 5, situações em que o qui-quadrado é inválido. Além do p-valor, fornece a odds ratio que quantifica a força da associação. O teste é computacionalmente exato, usando a distribuição hipergeométrica.

associação em amostras < 20quando χ² é inválido (freq esperada < 5)scipy.stats

Verificar se amostra segue distribuição teórica

Comparar

Kolmogorov-Smirnov / Shapiro-Wilk / Anderson-Darling

Esses testes verificam se os dados seguem uma distribuição teórica (geralmente normal), pré-requisito para muitos métodos paramétricos. O Shapiro-Wilk é o mais potente para normalidade com n<5000 e é o recomendado como primeira escolha. O Kolmogorov-Smirnov compara a função de distribuição acumulada empírica com a teórica, sendo mais geral. O Anderson-Darling dá mais peso às caudas da distribuição, sendo melhor para detectar desvios nas extremidades.

dados são normais? (pré-requisito para t-test)receita segue log-normal?scipy.stats

Avaliar se intervenção A é melhor que B (A/B Test)

Comparar

Teste A/B (t-test / Chi² / Bayesian A/B)

O teste A/B compara duas versões (controle vs tratamento) para determinar qual gera melhor resultado. A abordagem frequentista usa t-test (variáveis contínuas) ou qui-quadrado (proporções) com um nível de significância pré-definido. A abordagem bayesiana calcula diretamente a probabilidade de B ser melhor que A, sendo mais intuitiva para tomada de decisão. O dimensionamento amostral prévio (power analysis) é crucial para garantir que o teste tem poder suficiente para detectar o efeito esperado.

nova política pública melhorou indicador?interface A vs Bscipy.stats

Correlacionar

Medir relação linear entre duas variáveis contínuas

Correlacionar

Correlação de Pearson

O coeficiente de correlação de Pearson (r) mede a força e direção da relação LINEAR entre duas variáveis contínuas, variando de -1 (correlação negativa perfeita) a +1 (correlação positiva perfeita). É calculado como a covariância normalizada pelo produto dos desvios padrão. Pressupõe normalidade bivariada e relação linear — se a relação é curvilínea, Pearson pode subestimar drasticamente a associação. Sempre acompanhe com um scatterplot para validar visualmente a linearidade.

PIB per capita vs IDHMreceita vs despesa municipalscipy.stats

Medir relação monotônica (não necessariamente linear)

Correlacionar

Spearman / Kendall Tau

A correlação de Spearman (rₛ) calcula o Pearson sobre os ranks dos dados, capturando relações monotônicas (crescentes ou decrescentes) mesmo que não-lineares. É robusta a outliers e não exige normalidade. O tau de Kendall mede concordância entre pares ordenados, sendo mais robusto com amostras pequenas e empates. Spearman é mais usado na prática por sua interpretação similar ao Pearson; Kendall é preferido quando há muitos empates ou para inferência mais conservadora.

ranking de IDHM vs ranking de receitarelação monotônica com outliersscipy.stats

Medir correlação removendo efeito de terceira variável

Correlacionar

Correlação Parcial

A correlação parcial mede a relação entre duas variáveis X e Y após remover (controlar) o efeito de uma ou mais variáveis confundidoras Z. Matematicamente, ela calcula a correlação entre os resíduos de X~Z e Y~Z, isolando o efeito direto. É fundamental para distinguir correlações espúrias (causadas por um confundidor comum) de associações genuínas. Se a correlação parcial é muito menor que a simples, o confundidor explica grande parte da associação observada.

relação receita~IDHM controlando por populaçãoisolar efeito de educaçãopingouin

Testar se uma variável Granger-causa outra em séries temporais

Correlacionar

Causalidade de Granger

O teste de Granger verifica se os valores passados de uma variável X ajudam a prever Y além do que os próprios valores passados de Y já preveem. Se sim, dizemos que "X Granger-causa Y" — uma forma de precedência temporal, não causalidade real. O teste usa um F-test comparando um modelo restrito (só lags de Y) com um modelo completo (lags de Y + lags de X). É bidirecional: X pode Granger-causar Y sem que Y Granger-cause X. Pré-requisito: ambas as séries devem ser estacionárias.

PIB Granger-causa arrecadação?investimento público afeta IDHM?statsmodels

Detectar dependências não-lineares entre variáveis

Correlacionar

Informação Mútua (Mutual Information)

A Informação Mútua (MI) quantifica a dependência entre duas variáveis medindo quanto conhecer X reduz a incerteza sobre Y, baseada na teoria da informação de Shannon. Diferentemente de Pearson e Spearman, captura QUALQUER tipo de dependência — linear, não-linear, periódica, etc. MI=0 implica independência total. Não tem limite superior fixo, dificultando a interpretação direta da "força". É muito utilizada em seleção de features para Machine Learning, pois identifica variáveis informativas independentemente da forma da relação.

feature selection para MLdependências não-lineares entre indicadoresscikit-learn

Descrever

Resumir o centro dos dados

Descrever

Média, Mediana, Moda

A média aritmética calcula o valor central dividindo a soma de todos os valores pelo número de observações, sendo sensível a valores extremos. A mediana identifica o valor que divide a distribuição ao meio, tornando-se a medida mais robusta quando há outliers ou assimetria. A moda indica o valor mais frequente e é especialmente útil para variáveis categóricas. A escolha entre essas medidas depende da forma da distribuição e do objetivo da análise.

IDHM médio por estadoreceita mediana municipalnumpy

Medir dispersão e variabilidade dos dados

Descrever

Desvio Padrão / Variância / CV

A variância mede a dispersão quadrática média dos dados em relação à média, capturando o quão espalhados os valores estão. O desvio padrão é a raiz quadrada da variância, retornando à mesma unidade dos dados originais, o que facilita a interpretação. O Coeficiente de Variação (CV) divide o desvio padrão pela média, permitindo comparar dispersões entre variáveis com escalas diferentes. Essas medidas são fundamentais para avaliar homogeneidade e consistência dos dados.

variabilidade do PIB per capita entre municípioscomparar dispersão de receitas vs despesasnumpy

Medir assimetria e forma da distribuição

Descrever

Assimetria (Skewness) / Curtose (Kurtosis)

A assimetria (skewness) mede o grau de desvio da simetria de uma distribuição: valores positivos indicam cauda à direita, negativos cauda à esquerda, e zero uma distribuição simétrica. A curtose (kurtosis) mede o peso das caudas em relação à distribuição normal: valores acima de 3 (leptocúrtica) indicam caudas pesadas com mais valores extremos, e abaixo de 3 (platicúrtica) indicam caudas leves. Juntas, essas métricas revelam se os dados seguem padrão normal e se existem concentrações ou valores extremos que merecem atenção.

distribuição de renda é assimétrica?existem valores extremos frequentes?scipy.stats

Contar frequências por categoria

Descrever

Tabela de Frequência / Crosstab

A tabela de frequência contabiliza quantas vezes cada categoria aparece nos dados, apresentando frequências absolutas e relativas (percentuais). O crosstab (tabela cruzada) cruza duas variáveis categóricas, revelando como as categorias de uma se distribuem em relação à outra. Essa técnica é o ponto de partida para identificar padrões, concentrações e desequilíbrios em variáveis qualitativas. É fundamental como etapa exploratória antes de testes como qui-quadrado.

distribuição de municípios por faixa de IDHMreceita por categoria e estadopandas

Identificar posição relativa dos dados

Descrever

Quartis / Percentis / IQR

Os quartis dividem a distribuição em quatro partes iguais: Q1 (25%), Q2 (50%, mediana) e Q3 (75%). O IQR (Intervalo Interquartil) é a diferença Q3-Q1 e mede a dispersão dos 50% centrais dos dados, sendo robusto a outliers. Percentis generalizam o conceito para qualquer posição (ex: percentil 90 indica que 90% dos dados estão abaixo). Essas medidas são essenciais para criar rankings, definir limiares e identificar outliers usando a regra 1.5*IQR.

distribuição de receitas por quartillimiar de outlier fiscalnumpy

Visualizar distribuição dos dados

Descrever

Histograma / Boxplot / Violin Plot / KDE

O histograma divide os dados em intervalos (bins) e mostra a frequência em cada um, revelando a forma geral da distribuição. O boxplot resume quartis, mediana e outliers em uma visualização compacta, ideal para comparar grupos. O violin plot combina KDE (estimativa de densidade suave) com boxplot, mostrando a forma completa da distribuição. O KDE produz uma curva suave estimando a função de densidade de probabilidade. Cada visualização tem pontos fortes para diferentes objetivos analíticos.

distribuição visual do IDHMcomparar distribuições entre estadosmatplotlib

Resumir estatísticas por grupos

Descrever

GroupBy + Aggregation

O GroupBy divide os dados em subgrupos com base em uma ou mais variáveis categóricas e aplica funções de agregação (média, soma, contagem, desvio padrão etc.) a cada grupo. É a operação fundamental de qualquer análise descritiva segmentada, permitindo comparar métricas entre categorias. Pode ser combinado com múltiplas funções de agregação simultaneamente usando agg(), e com transform() para adicionar estatísticas do grupo de volta ao DataFrame original.

receita total por estadomédia de IDHM por regiãopandas

Criar resumo estatístico completo automaticamente

Descrever

Describe / Profiling

O método describe() do pandas gera um resumo rápido com contagem, média, desvio padrão, valores mínimo e máximo, e quartis para cada variável numérica. Para análises mais profundas, o ydata-profiling (antigo pandas-profiling) gera um relatório HTML interativo contendo correlações, valores faltantes, distribuições, duplicados e alertas de qualidade. Essas ferramentas são essenciais na etapa de EDA (Análise Exploratória de Dados) para obter uma visão geral rápida antes de mergulhar em análises específicas.

visão geral rápida do datasetauditoria de qualidade de dadospandas

Detectar

Detectar outliers e anomalias em dados

Detectar

IQR / Z-Score / Isolation Forest

Três abordagens complementares para detectar anomalias. IQR (intervalo interquartil) é simples e robusto a outliers extremos, identificando valores fora de 1.5 vezes o IQR. Z-Score detecta valores a mais de 3 desvios-padrão da média, assumindo normalidade. Isolation Forest é um método de Machine Learning que isola anomalias usando árvores aleatórias — pontos anômalos são isolados em menos splits, sendo ideal para dados multidimensionais onde métodos univariados falham.

receitas atípicasfraudescipy.stats

Detectar mudança de regime ou ponto de quebra em série

Detectar

Change Point Detection (CUSUM, PELT, Binseg)

Algoritmos que identificam momentos em que a distribuição estatística de uma série temporal muda abruptamente — mudanças na média, variância ou ambas. CUSUM acumula desvios da média esperada e dispara alarme quando o desvio cumulativo excede um limiar. PELT (Pruned Exact Linear Time) encontra múltiplos pontos de mudança de forma exata e eficiente. Binseg (Binary Segmentation) usa divisão recursiva, sendo mais rápido mas aproximado. São fundamentais para detectar efeitos de políticas públicas, crises fiscais ou mudanças estruturais.

quando mudou padrão de arrecadação?efeito de nova leiruptures

Detectar sazonalidade em dados temporais

Detectar

Periodograma / ACF / FFT

Ferramentas para identificar e quantificar padrões periódicos (sazonais) em séries temporais. A Autocorrelação (ACF) mostra a correlação da série consigo mesma em diferentes defasagens — picos regulares revelam o período sazonal. A FFT (Transformada Rápida de Fourier) decompõe a série em componentes de frequência, identificando os ciclos dominantes. O Periodograma visualiza o espectro de potência, destacando as frequências com maior energia. Juntas, permitem confirmar se existe sazonalidade e qual seu período exato.

identificar período sazonalconfirmar sazonalidade mensal/trimestralstatsmodels

Detectar tendência estatisticamente significativa

Detectar

Teste de Mann-Kendall

Teste não-paramétrico que avalia se existe tendência monotônica (crescente ou decrescente) em uma série temporal, sem assumir distribuição específica ou linearidade. Calcula a estatística S comparando todos os pares de observações — se a maioria dos pares posteriores é maior, há tendência crescente. O p-valor indica a significância e o tau de Kendall quantifica a força da tendência (-1 a +1). É robusto a outliers e dados não-normais, sendo preferido em séries ambientais e socioeconômicas.

tendência de melhoria em IDHM?arrecadação crescendo?pymannkendall

Encontrar nós mais importantes em uma rede

Detectar

Centralidade (Degree, Betweenness, PageRank)

Métricas de centralidade quantificam a importância de cada nó em uma rede de diferentes perspectivas. Degree centralidade conta conexões diretas (quem tem mais contatos). Betweenness centralidade identifica nós que controlam o fluxo entre outros (pontes e intermediários). PageRank calcula importância recursiva — um nó é importante se recebe conexões de outros nós importantes (princípio usado pelo Google). Cada métrica revela um tipo diferente de influência, sendo complementares na análise.

político mais influente na rede de emendasmunicípio hubnetworkx

Espacial

Verificar se existe autocorrelação espacial (padrão geográfico)

Espacial

Moran's I

O Índice de Moran mede se valores semelhantes tendem a se agrupar geograficamente (autocorrelação espacial positiva) ou se valores diferentes tendem a ser vizinhos (autocorrelação negativa). Varia de -1 a +1: valores positivos indicam clustering (municípios ricos perto de ricos), negativos indicam dispersão (padrão xadrez), e zero indica aleatoriedade espacial. Requer uma matriz de pesos espaciais W que define as relações de vizinhança. É o primeiro passo em qualquer análise espacial para determinar se padrões geográficos existem antes de modelá-los.

IDHM forma clusters regionais?arrecadação agrupada?PySAL

Encontrar clusters e outliers espaciais locais

Espacial

LISA (Local Moran's I)

LISA (Local Indicators of Spatial Association) é a versão local do Moran's I que identifica onde estão os clusters e outliers espaciais. Classifica cada localização em quatro tipos: High-High (cluster quente — valor alto cercado de altos), Low-Low (cluster frio — valor baixo cercado de baixos), High-Low (outlier — valor alto cercado de baixos) e Low-High (outlier — valor baixo cercado de altos). O mapa LISA é a ferramenta mais poderosa para identificar hotspots e coldspots, sendo fundamental para políticas públicas georreferenciadas.

hotspots de receita altaoutliers espaciais de IDHMPySAL

Estimar valores em locais não amostrados (interpolação espacial)

Espacial

Kriging

Kriging é o método de interpolação geoestatística ótimo que estima valores em locais não amostrados usando a estrutura de correlação espacial dos dados, modelada pelo variograma. Diferente de interpolações simples (IDW, spline), o Kriging fornece não apenas a estimativa pontual, mas também o erro de estimação (variância do kriging) em cada ponto, quantificando a incerteza. O variograma descreve como a similaridade entre observações diminui com a distância, e seus parâmetros (sill, range, nugget) são fundamentais para a qualidade da interpolação.

estimar IDHM onde não há dadosmapear poluiçãopykrige

Modelar relação que varia no espaço

Espacial

GWR (Geographically Weighted Regression)

A Regressão Geograficamente Ponderada permite que os coeficientes de uma regressão variem no espaço, capturando heterogeneidade espacial nas relações entre variáveis. Enquanto OLS assume que o efeito de uma variável é constante em todo o território (coeficiente global), GWR ajusta uma regressão local em cada ponto usando observações vizinhas ponderadas pela distância. O bandwidth controla o raio de influência: bandwidth pequeno captura variação local, grande converge para OLS global. É essencial quando a mesma política tem efeitos diferentes em regiões diferentes.

efeito do PIB na arrecadação varia por região?relações espacialmente não-estacionáriasmgwr

Calcular densidade de eventos em mapa (heatmap geográfico)

Espacial

Kernel Density Estimation (KDE) Espacial

KDE Espacial estima a densidade de pontos no espaço geográfico, produzindo uma superfície contínua e suave (heatmap) a partir de dados pontuais discretos. Cada ponto contribui com uma "montanha" definida pela função kernel (geralmente gaussiana), e a superfície final é a soma de todas as contribuições. O bandwidth (largura de banda) é o parâmetro mais crítico: controla a suavização — bandwidth pequeno revela padrões locais (pode ser ruidoso), bandwidth grande suaviza demais (pode esconder padrões). É a base para mapas de calor geográficos em dashboards e estudos de concentração.

concentração de emendas por regiãoheatmap de ocorrênciasscipy.stats

Otimizar

Encontrar parâmetros que minimizam/maximizam uma função

Otimizar

Otimização (Gradient Descent, Nelder-Mead, L-BFGS)

Algoritmos de otimização encontram os parâmetros que minimizam (ou maximizam) uma função objetivo. Gradient Descent segue o negativo do gradiente iterativamente, sendo a base do treinamento de redes neurais. Nelder-Mead é um método simplex que não requer derivadas, útil para funções ruidosas ou não-diferenciáveis. L-BFGS é um método quase-Newton que aproxima a inversa da Hessiana de forma eficiente em memória, sendo o melhor para problemas suaves com muitos parâmetros. A escolha do método depende da suavidade da função, disponibilidade de derivadas e número de parâmetros.

ajustar modelocalibrar parâmetrosscipy.optimize

Resolver problema de alocação ótima com restrições lineares

Otimizar

Programação Linear (LP)

A Programação Linear resolve problemas de otimização onde tanto a função objetivo quanto as restrições são lineares. O método Simplex percorre os vértices da região viável (politopo) até encontrar o ótimo, enquanto o método Interior Point atravessa o interior. LP é aplicável a problemas de alocação de recursos, transporte, planejamento de produção e distribuição de orçamento. Quando todas as variáveis são lineares, LP garante encontrar o ótimo global (se existir) de forma eficiente. Para variáveis inteiras, usa-se Programação Linear Inteira (ILP).

alocação ótima de orçamentodistribuição de recursosscipy.optimize

Encontrar melhor combinação de hiperparâmetros de modelo ML

Otimizar

Grid Search / Random Search / Bayesian Optimization

Métodos para encontrar a melhor configuração de hiperparâmetros de modelos de Machine Learning. Grid Search testa exaustivamente todas as combinações possíveis em uma grade predefinida — é completo mas exponencialmente custoso. Random Search amostra aleatoriamente do espaço de hiperparâmetros, sendo mais eficiente que Grid Search quando poucos parâmetros importam (o que é usual). Bayesian Optimization (Optuna, Hyperopt) usa um modelo probabilístico (surrogate) que aprende quais regiões do espaço são promissoras, focando a busca de forma inteligente. Para problemas com mais de 3 hiperparâmetros, Bayesian é claramente superior.

tunar Random Forestotimizar XGBoostscikit-learn

Validar modelo com dados limitados evitando overfitting

Otimizar

Cross-Validation (K-Fold, Stratified, TimeSeriesSplit)

Cross-Validation divide os dados em k folds (partições), treina o modelo em k-1 folds e testa no fold restante, repetindo k vezes para que cada fold seja usado como teste exatamente uma vez. O score final é a média dos k scores, fornecendo estimativa robusta da performance em dados não vistos. Stratified K-Fold mantém a proporção de classes em cada fold (essencial para classificação desbalanceada). TimeSeriesSplit respeita a ordem temporal, usando sempre dados passados para treinar e futuros para testar. É a técnica mais importante para reportar performance realista e comparar modelos de forma justa.

avaliar modelo de previsãocomparar modelosscikit-learn

Prever

Prever valor contínuo com uma variável

Prever

Regressão Linear Simples

A regressão linear simples modela a relação entre uma variável preditora (X) e uma resposta (Y) como uma reta, encontrando os coeficientes que minimizam a soma dos quadrados dos resíduos (Método dos Mínimos Quadrados). O coeficiente angular (β₁) indica quanto Y muda para cada unidade de aumento em X, e o intercepto (β₀) é o valor de Y quando X=0. O R² mede a proporção da variância de Y explicada pelo modelo. É o ponto de partida para qualquer análise preditiva e fundamental para entender relações causais simples.

receita por habitanteIDHM vs escolaridadestatsmodels

Prever valor contínuo com múltiplas variáveis

Prever

Regressão Linear Múltipla

A regressão linear múltipla estende a regressão simples para p variáveis preditoras, modelando Y como combinação linear de todas elas. Cada coeficiente βₖ representa o efeito parcial de Xₖ em Y, controlando todas as outras variáveis — análogo à correlação parcial. O R² ajustado penaliza variáveis extras que não melhoram o modelo. Multicolinearidade (correlação alta entre preditores) infla os erros padrão e torna coeficientes instáveis. VIF (Variance Inflation Factor) diagnostica esse problema.

receita = f(população, PIB, região)IDHM = f(educação, renda, saúde)statsmodels

Modelar relações não-lineares com polinômio ou spline

Prever

Regressão Polinomial / Spline

A regressão polinomial adiciona termos de potência (x², x³, etc.) ao modelo linear, capturando curvaturas na relação. Splines dividem o domínio em segmentos e ajustam polinômios locais com emendas suaves nos nós, sendo mais flexíveis e menos propensos a oscilações nas extremidades (problema de Runge). Natural splines restringem o comportamento nas caudas. A escolha do grau (polinomial) ou número de nós (spline) controla o trade-off entre viés e variância — graus/nós demais causam overfitting.

relação curvilínea receita vs populaçãotendências não-linearesscikit-learn

Classificar em categorias (sim/não, A/B/C) com probabilidade

Prever

Regressão Logística

A regressão logística modela a probabilidade de um evento ocorrer (variável binária ou categórica) como função de variáveis preditoras. A transformação logit converte probabilidades (0 a 1) em uma escala linear, permitindo usar a maquinaria da regressão. Os coeficientes são interpretados como log-odds ratios: exp(β) indica quanto as odds mudam para cada unidade de aumento em X. Pode ser estendida para múltiplas classes (multinomial) e é frequentemente o baseline contra o qual modelos mais complexos são comparados.

município vai atingir meta?classificar risco fiscal alto/baixoscikit-learn

Prever com regularização para evitar overfitting

Prever

Ridge / Lasso / ElasticNet

Ridge (L2), Lasso (L1) e ElasticNet (L1+L2) são extensões da regressão linear que adicionam penalidades aos coeficientes para evitar overfitting. Ridge penaliza coeficientes grandes mas mantém todos, sendo ideal para multicolinearidade. Lasso pode zerar coeficientes irrelevantes, funcionando como seleção automática de variáveis. ElasticNet combina ambos, sendo robusto quando há grupos de variáveis correlacionadas. O hiperparâmetro alpha controla a força da regularização e deve ser otimizado por validação cruzada.

muitas variáveis (p > n)multicolinearidadescikit-learn

Modelar relações não-lineares de forma interpretável

Prever

GAM (Generalized Additive Models)

Os GAMs (Modelos Aditivos Generalizados) modelam a resposta como soma de funções suaves (splines) de cada preditor, capturando não-linearidades de forma interpretável. Cada função fⱼ(Xⱼ) pode ser visualizada individualmente, mostrando o efeito parcial de cada variável. Combinam a flexibilidade de métodos não-paramétricos com a interpretabilidade da regressão. Podem usar diferentes distribuições (Gaussiana, Poisson, Binomial) para a resposta. A suavidade é controlada automaticamente por penalização, evitando overfitting.

relação não-linear receita~populaçãoefeitos parciais interpretáveispygam

Prever percentis específicos (não apenas a média)

Prever

Regressão Quantílica

A regressão quantílica modela quantis condicionais (mediana, Q25, Q75, etc.) em vez da média condicional (E[Y|X] da OLS). Isso permite prever faixas de valores e é robusta a outliers e heterocedasticidade. Ao estimar múltiplos quantis, revela como toda a distribuição condicional de Y muda com X, não apenas o centro. É especialmente útil quando a variabilidade de Y depende de X (heterocedasticidade) ou quando interessa o pior cenário (Q10) ou melhor cenário (Q90) em vez da expectativa média.

faixa de arrecadação esperadapior caso vs melhor casostatsmodels

Probabilidade

Calcular probabilidade condicional e atualizar crenças com novos dados

Probabilidade

Teorema de Bayes

O Teorema de Bayes é a base matemática para atualizar probabilidades à luz de novas evidências. Parte de uma probabilidade a priori (crença inicial), incorpora a verossimilhança dos dados observados dado cada hipótese, e produz a probabilidade a posteriori (crença atualizada). É o fundamento da inferência bayesiana e do aprendizado incremental: cada novo dado refina a estimativa anterior. Na prática, permite quantificar risco com informação parcial e atualizar diagnósticos à medida que novos indicadores ficam disponíveis.

risco de inadimplência dado indicadoresdiagnóstico com múltiplos sinaisscipy.stats

Modelar número de eventos raros em intervalo fixo

Probabilidade

Distribuição de Poisson

A distribuição de Poisson modela a contagem de eventos discretos que ocorrem independentemente em um intervalo fixo de tempo ou espaço, com taxa média constante lambda. A propriedade fundamental é que média e variância são iguais (ambas lambda). É ideal para eventos raros como fraudes, acidentes, licitações impugnadas ou ocorrências de emergência por período. Quando a variância excede a média significativamente (sobredispersão), indica que os eventos não são independentes ou que a taxa varia, sendo necessário usar a binomial negativa.

número de emendas por mêsocorrências de fraudescipy.stats

Modelar probabilidade de sucesso/falha em n tentativas

Probabilidade

Distribuição Binomial

A distribuição Binomial modela o número de sucessos em n tentativas independentes, cada uma com probabilidade fixa p de sucesso. É fundamental para cenários de sim/não repetidos: quantos municípios atingem a meta entre n avaliados, quantos projetos são aprovados entre n submetidos. A média é n*p e a variância n*p*(1-p). Para n grande e p pequeno, aproxima-se da Poisson. Para n grande e p moderado, aproxima-se da Normal, o que permite usar intervalos de confiança simplificados.

quantos municípios atingem meta entre 100taxa de aprovaçãoscipy.stats

Modelar tempo até um evento ocorrer

Probabilidade

Distribuição Exponencial / Weibull

A distribuição Exponencial modela o tempo de espera até a próxima ocorrência de um evento, assumindo taxa constante (sem "memória" — o tempo já esperado não afeta a probabilidade futura). A Weibull generaliza a exponencial permitindo taxa variável no tempo: quando o parâmetro de forma k > 1, a taxa de falha aumenta com o tempo (envelhecimento); quando k < 1, diminui (mortalidade infantil); quando k = 1, é constante (exponencial). São fundamentais em análise de confiabilidade, manutenção preventiva e modelagem de tempo até eventos.

tempo até falha de equipamentotempo entre fraudesscipy.stats

Inferir parâmetros com distribuições probabilísticas completas

Probabilidade

Inferência Bayesiana (MCMC)

A Inferência Bayesiana via MCMC (Markov Chain Monte Carlo) estima a distribuição posterior completa dos parâmetros de um modelo, fornecendo não apenas uma estimativa pontual mas toda a incerteza associada. O MCMC gera amostras da distribuição posterior quando ela não tem forma fechada, sendo o método mais geral de inferência bayesiana. O resultado é uma distribuição para cada parâmetro, permitindo calcular intervalos de credibilidade, probabilidades direcionais e fazer predições probabilísticas. PyMC é a biblioteca Python mais usada, implementando samplers eficientes como NUTS.

estimar IDHM com poucos dadosincorporar conhecimento préviopymc

Estimar intervalo de confiança sem assumir distribuição

Probabilidade

Bootstrap

O Bootstrap é uma técnica de reamostragem que estima a distribuição amostral de qualquer estatística sem fazer suposições sobre a distribuição dos dados. Funciona gerando B amostras (tipicamente 1.000-10.000) do mesmo tamanho dos dados originais, com reposição, e calculando a estatística de interesse em cada reamostra. Os percentis das B estatísticas fornecem intervalos de confiança robustos. É especialmente valioso para estatísticas sem fórmula analítica conhecida para o erro-padrão (mediana, razões, correlações, diferenças entre percentis).

IC para medianaIC para correlaçãoscipy.stats

Calcular tamanho da amostra necessário para estudo

Probabilidade

Power Analysis / Sample Size Calculation

Power Analysis determina o tamanho da amostra necessário para detectar um efeito de tamanho d com poder estatístico (1-beta) e nível de significância alpha desejados. Conecta quatro quantidades interrelacionadas: tamanho da amostra (n), tamanho do efeito (d), nível de significância (alpha) e poder (1-beta) — conhecendo três, calcula-se a quarta. Um estudo com poder de 80% tem 80% de chance de detectar um efeito real. É o planejamento mais importante antes de iniciar qualquer pesquisa quantitativa, evitando amostras insuficientes ou excessivamente grandes.

quantos municípios amostrar?dimensionar pesquisastatsmodels.stats.power

Modelar tempo até evento com dados censurados

Probabilidade

Kaplan-Meier / Cox Proportional Hazards

Modelos de análise de sobrevivência que lidam com dados censurados — observações onde o evento de interesse ainda não ocorreu ao final do estudo. Kaplan-Meier estima a curva de sobrevivência não-paramétrica, mostrando a probabilidade de "sobreviver" (não ter o evento) ao longo do tempo. O modelo de Cox é semiparamétrico, permitindo avaliar o efeito de covariáveis na taxa de risco (hazard) sem especificar a distribuição base. O hazard ratio do Cox indica quanto cada variável multiplica o risco: HR > 1 aumenta o risco, HR < 1 é protetor.

tempo até município atingir metasobrevivência de empresaslifelines

Reduzir

Reduzir dimensões mantendo máxima variância

Reduzir

PCA (Principal Component Analysis)

PCA transforma um conjunto de variáveis correlacionadas em componentes principais não-correlacionados, ordenados pela quantidade de variância que explicam. O primeiro componente captura a direção de máxima variância nos dados, o segundo captura a máxima variância restante ortogonal ao primeiro, e assim sucessivamente. É a técnica mais usada para redução de dimensionalidade pré-ML, eliminando redundância entre features correlacionadas. Permite visualizar dados multidimensionais em 2D/3D e identificar quais variáveis originais mais contribuem para cada componente (loadings).

reduzir 50 indicadores municipais para 5visualizar dados multidimensionaisscikit-learn

Visualizar dados de alta dimensão em 2D/3D

Reduzir

t-SNE / UMAP

t-SNE (t-Distributed Stochastic Neighbor Embedding) preserva a estrutura de vizinhança local, mapeando dados de alta dimensão para 2D/3D de forma que pontos próximos no espaço original permaneçam próximos na visualização. UMAP (Uniform Manifold Approximation and Projection) é significativamente mais rápido, preserva melhor a estrutura global (distâncias entre clusters) além da local, e pode ser usado para redução de dimensão pré-ML. Ambos são não-lineares e ideais para explorar visualmente clusters e padrões em dados complexos.

visualizar clusters de municípiosexplorar embeddingsscikit-learn

Criar índice composto a partir de múltiplos indicadores

Reduzir

Análise Fatorial / Factor Analysis

A Análise Fatorial descobre fatores latentes (não observáveis) que explicam as correlações entre variáveis observadas. Diferente do PCA que busca componentes de máxima variância, a Análise Fatorial assume um modelo generativo onde variáveis são causadas por fatores comuns mais erro específico. Cada fator agrupa indicadores que medem aspectos do mesmo constructo, e os loadings indicam a contribuição de cada variável ao fator. É a base teórica para criar índices compostos como o IDHM, permitindo ponderar variáveis de forma objetiva e data-driven.

criar índice de desenvolvimentoagrupar indicadores de saúdescikit-learn

Temporal

Prever série temporal univariada com tendência e sazonalidade

Temporal

ARIMA / SARIMA

ARIMA (AutoRegressive Integrated Moving Average) é o modelo padrão para séries temporais univariadas, combinando três componentes: AR (auto-regressão nos valores passados), I (diferenciação para tornar a série estacionária) e MA (média móvel dos erros passados). SARIMA estende com componentes sazonais (P,D,Q,s). O auto_arima automatiza a seleção dos parâmetros via critérios de informação (AIC/BIC). Pré-requisitos: série estacionária (após diferenciação) e ausência de quebras estruturais.

prever receita dos próximos 12 mesesprojeção de IDHMstatsmodels

Prever série temporal com sazonalidade e feriados

Temporal

Prophet (Meta)

O Prophet, desenvolvido pela Meta, é um modelo aditivo/multiplicativo que decompõe a série em tendência, sazonalidade e efeitos de feriados. Foi projetado para ser robusto a dados faltantes, outliers e mudanças de tendência, sendo acessível para analistas sem expertise profunda em séries temporais. A tendência usa changepoints automáticos para capturar mudanças de regime. Suporta sazonalidade múltipla (diária, semanal, anual) e regressores externos. É uma excelente ferramenta de baseline rápido.

previsão de demanda com feriadosséries com sazonalidade múltiplaprophet

Modelar relação entre múltiplas séries temporais

Temporal

VAR (Vector Autoregression)

O VAR (Vetor Auto-Regressivo) modela um sistema de k séries temporais onde cada variável depende de seus próprios valores passados E dos valores passados de todas as outras variáveis. Captura interdependências dinâmicas entre variáveis macroeconômicas/sociais. É a base para análise de impulso-resposta (como um choque em X afeta Y ao longo do tempo) e decomposição de variância (quanto da variação de Y é explicada por X). Todas as séries devem ser estacionárias.

PIB, receita e IDHM se influenciam?projeção conjunta de indicadoresstatsmodels

Suavizar e prever com decomposição em nível, tendência, sazonalidade

Temporal

Holt-Winters (Exponential Smoothing)

O Holt-Winters aplica suavização exponencial tripla, estimando três componentes que se atualizam a cada observação: nível (valor base atual), tendência (taxa de crescimento) e sazonalidade (padrão repetitivo). O modelo aditivo soma os componentes; o multiplicativo os multiplica, sendo melhor quando a amplitude sazonal cresce com o nível. Os parâmetros de suavização (α, β, γ) controlam o peso de observações recentes vs antigas. É simples, rápido e eficaz para previsões de curto a médio prazo.

previsão de receita trimestraldemanda sazonal de curto prazostatsmodels

Decompor série em tendência, sazonalidade e resíduo robusto

Temporal

Decomposição STL

STL (Seasonal-Trend decomposition using LOESS) separa a série temporal em três componentes: tendência de longo prazo, padrão sazonal repetitivo e resíduo (o que sobra). Usa LOESS (regressão local ponderada) para estimar cada componente, sendo robusta a outliers que são absorvidos pelo resíduo. É fundamental para entender a estrutura da série antes de modelar: a tendência mostra a direção, a sazonalidade revela padrões cíclicos, e o resíduo contém ruído e anomalias.

isolar tendência de longo prazoidentificar sazonalidadestatsmodels

Verificar se série temporal é estacionária

Temporal

Teste ADF (Augmented Dickey-Fuller)

O teste ADF (Augmented Dickey-Fuller) testa a hipótese nula de que a série temporal tem raiz unitária (é não-estacionária). Se p < 0.05, rejeitamos H0 e concluímos que a série é estacionária. Estacionaridade significa que média e variância são constantes ao longo do tempo — pré-requisito para modelos como ARIMA e VAR. O teste inclui termos de diferença defasados para controlar autocorrelação serial. Complementar com o teste KPSS (hipótese nula invertida) fornece diagnóstico mais robusto.

pré-ARIMApré-VARstatsmodels

Inferir dados faltantes em séries temporais sem interpolação linear

Temporal

EM Algorithm / Multiple Imputation / Kalman Filter

Três abordagens sofisticadas para imputação de dados faltantes em séries temporais. O EM (Expectation-Maximization) itera entre estimar os dados faltantes (E) e atualizar os parâmetros do modelo (M) até convergência. Multiple Imputation gera múltiplas versões completas do dataset, cada uma com valores plausíveis diferentes, capturando a incerteza da imputação. O filtro de Kalman modela estados ocultos e fornece estimativas ótimas para dados faltantes em séries com estrutura de espaço de estados. Cada método preserva melhor a estrutura temporal que interpolação linear simples.

IDHM com anos faltantesdados municipais incompletosstatsmodels