GNNs sob Data Drift em Fraude: GraphSAGE é Mais Robusto que GCN/GAT (IEEE-CIS)

Gráfico de linha mostrando a robustez de GNNs ao data drift em 50 dias. A curva da GraphSAGE (verde) permanece alta e estável, enquanto as curvas da GCN (azul) e GAT (vermelho) caem acentuadamente, indicando menor robustez à mudança nos dados.

Resumo — Modelos de Machine Learning em produção sofrem um inimigo silencioso: o Data Drift. As características dos dados mudam com o tempo, degradando a performance. Em detecção de fraudes financeiras, esse problema é ainda pior, pois os fraudadores se adaptam constantemente. Neste post, resumimos nossa pesquisa publicada no IEEE Access, onde investigamos a robustez de três arquiteturas populares de GNNs (Graph Convolutional Network – GCN, Graph Attention Network – GAT e GraphSAGE) ao drift natural em um cenário de fraude em larga escala, usando o dataset IEEE-CIS. Adivinha quem resistiu melhor?

1. O Problema: Data Drift, o Inimigo Silencioso da Detecção de Fraude

Imagine que você treinou um modelo GNN de última geração para detectar fraudes em pagamentos. Ele tem uma performance fantástica no dataset de teste. Você o coloca em produção. No primeiro dia, ele funciona bem. No segundo, também. Mas, semanas depois, você percebe que ele está deixando passar mais fraudes e bloqueando mais clientes bons. O que aconteceu?

O Data Drift. As propriedades estatísticas dos dados de entrada (o comportamento dos usuários, as táticas dos fraudadores) mudaram desde que o modelo foi treinado. Em fraude, esse drift é ainda mais agressivo, pois é um ambiente adversarial: os fraudadores estão ativamente tentando enganar seu modelo.

A maioria dos estudos foca em mitigar o drift (com re-treinamento constante, detectores de drift, etc.). Mas antes disso, uma pergunta fundamental precisa ser respondida: Diferentes arquiteturas de GNN têm diferentes níveis de robustez intrínseca ao drift?

É isso que investigamos em nosso artigo. Queríamos medir o quão bem GCN, GAT e GraphSAGE “aguentam o tranco” do drift natural, sem nenhuma ajuda extra.

2. O Campo de Batalha: Dataset IEEE-CIS e o Grafo de Transações

Para testar isso, usamos um cenário realista e desafiador: o dataset IEEE-CIS Fraud Detection, conhecido por seu grande volume, alto desbalanceamento (poucas fraudes) e atributos anonimizados.

Modelamos o problema como um grafo homogêneo, onde cada nó é uma transação. A pergunta era: como conectar essas transações para que a GNN possa aprender padrões relacionais?

Criamos arestas (bidirecionais) entre as transações usando quatro critérios complementares, buscando capturar diferentes tipos de “proximidade”:

Similaridade de Atributos: Transações com vetores de features muito parecidos (similaridade de cosseno alta).
Proximidade Temporal: Transações que ocorreram muito próximas no tempo (ex: menos de 2 horas de diferença).
Pertencer ao Mesmo Cluster: Transações agrupadas juntas por um algoritmo de clustering (MiniBatchKMeans).
Padrões Anômalos Compartilhados: Transações com alta similaridade em features que são conhecidas por indicar fraude.

3. Os Competidores: GCN, GAT e GraphSAGE

Com o grafo construído, colocamos três das arquiteturas de GNN mais populares para competir:

GCN (Graph Convolutional Network): A GNN “clássica”. Agrega informações de toda a vizinhança imediata (1-hop) de um nó, usando uma média ponderada.
GAT (Graph Attention Network): Uma GNN mais sofisticada que usa “atenção”. Ela aprende a dar pesos diferentes aos vizinhos ao agregar a informação (ex: “o vizinho A é mais importante que o B”). Usamos uma versão robusta com LayerNorm, conexões residuais e dropout.
GraphSAGE: Projetada para escalar. Em vez de olhar toda a vizinhança (como a GCN), ela amostra um número fixo de vizinhos e usa um agregador (nós usamos a média, mean aggregator) sobre essa amostra. É uma GNN indutiva.

Todas foram implementadas em PyTorch/PyG com 3 camadas e treinadas para classificar se uma transação (nó) era fraude ou não.

4. Preparando a Arena: Pré-processamento e Luta contra o Desbalanceamento

Antes de alimentar as GNNs, um pipeline robusto de pré-processamento foi aplicado aos dados brutos do IEEE-CIS (38 features finais), incluindo tratamento de valores ausentes, encodings e normalização.

O maior desafio, porém, era o desbalanceamento extremo do dataset (apenas ~3.3% de fraudes). Treinar um modelo diretamente nesses dados resultaria em um modelo que ignora as fraudes. Para combater isso durante o treino, usamos uma estratégia de SMOTE (Synthetic Minority Over-sampling Technique) adaptada para grafos. O SMOTE criou “cópias sintéticas” das transações fraudulentas, elevando a taxa de fraude no conjunto de treino para cerca de 15%. Crucialmente, nenhum SMOTE foi usado nos conjuntos de validação, teste ou monitoramento, para avaliar a performance no mundo real.

5. A Corrida Contra o Tempo: Protocolo Temporal e Métricas Cruciais

Para simular o data drift, usamos um protocolo de avaliação estritamente temporal:

Dividimos o dataset em blocos de tempo: Treino $\rightarrow$ Validação $\rightarrow$ Teste $\rightarrow$ Monitoramento.
O bloco de Monitoramento foi dividido em 50 janelas diárias sequenciais, cada uma com cerca de 3.000 transações.
Treinamos cada GNN uma única vez (usando Treino+Validação) e, em seguida, avaliamos sua performance no dataset de Teste e em cada uma das 50 janelas de monitoramento, sem re-treinar.

Quais métricas usamos? Como é comum em cenários de fraude, Acurácia e ROC-AUC são enganosas aqui, pois o desbalanceamento de classes é severo. Focamos em:

AUC-PR (Area Under the Precision-Recall Curve): A métrica principal para dados desbalanceados.
F2-Score: Uma variante do F1-Score que dá mais peso ao Recall (pegar as fraudes) do que à Precisão (evitar falsos positivos), o que é desejável em muitos cenários de fraude.

6. Os Resultados: Quem Venceu (e Quem Desgastou)?

A. Performance Inicial (no Test Set, antes do drift):

No dataset de teste (logo após o treino), a GraphSAGE foi a clara vencedora, seguida pela GCN e depois pela GAT:

GraphSAGE: AUC-PR = 0.9099, F2-Score = 0.8485
GCN: AUC-PR = 0.8253, F2-Score = 0.8007
GAT: AUC-PR = 0.6956, F2-Score = 0.7025

(Todas tiveram Recall alto e ROC-AUC acima de 0.97, mas essas métricas escondem as diferenças cruciais na precisão).

B. Robustez sob Data Drift (ao longo das 50 janelas diárias):

Aqui veio a descoberta mais importante. Medimos a degradação da performance da primeira janela de monitoramento (Dia 1) até a última (Dia 50):

GCN: Sofreu a maior queda. F2 caiu -28.27%, AUC-PR caiu -40.05%.
GAT: Também sofreu bastante. F2 caiu -24.85%, AUC-PR caiu -37.25%.
GraphSAGE: Mostrou-se muito mais estável. F2 caiu apenas -8.88%, AUC-PR caiu apenas -9.32%. Mesmo no Dia 50, a GraphSAGE mantinha um AUC-PR acima de 0.88!

7. A Análise: Por que GraphSAGE Resistiu Melhor?

Nossa hipótese para a robustez superior da GraphSAGE está na sua arquitetura:

Natureza Indutiva e Amostragem: A GraphSAGE não olha para toda a vizinhança. Ela amostra vizinhos. Isso, combinado com o agregador de média (mean aggregator), tende a “suavizar” variações locais e ruídos que podem surgir com o drift. Ela aprende uma função de agregação mais “generalista”.
GCN: Por agregar toda a vizinhança de 1-hop, a GCN é mais sensível a mudanças na estrutura local do grafo causadas pelo drift.
GAT: A atenção é poderosa, mas pode ser volátil. Se os padrões que definem a “importância” de um vizinho mudam com o drift, o mecanismo de atenção pode se “confundir”, levando a uma degradação mais acentuada.

8. Lições para o Mundo Real (Implicações Práticas)

Nossa pesquisa tem implicações diretas para quem opera GNNs em produção:

A Arquitetura Importa (e Muito!): A escolha da GNN não afeta apenas a performance inicial, mas também sua robustez ao longo do tempo. GraphSAGE (com agregador de média) parece ser uma escolha mais segura em ambientes dinâmicos como fraude.
Monitore as Métricas Certas: Use AUC-PR e F-Beta (como F2) para monitorar a performance. A ROC-AUC pode mascarar problemas sérios de degradação na classe minoritária (a fraude).
Planeje a Adaptação: Nenhuma GNN é imune ao drift para sempre. Ter uma estratégia de re-treinamento (baseada em janelas de tempo ou gatilhos de drift) e monitoramento contínuo é essencial.

9. Olhando para o Futuro (Limitações e Próximos Passos)

Como toda pesquisa, nosso trabalho tem limitações: usamos um grafo homogêneo (só transações), o drift é específico do IEEE-CIS, e os resultados dependem dos hiperparâmetros escolhidos.

Os próximos passos naturais são:

Testar GNNs heterogêneas (incluindo nós de Conta, Dispositivo, etc.) e temporais (que modelam o tempo explicitamente).
Acoplar detectores de drift e estratégias de mitigação ativa (como re-treinamento online).
Estudar a interpretabilidade: por que o drift afeta cada arquitetura de forma diferente em nível de nó?

Conclusão

O Data Drift é um desafio real e constante na operação de modelos de ML, especialmente em fraude. Nossa pesquisa mostra que a escolha da arquitetura da GNN tem um impacto significativo na sua robustez a essas mudanças. A GraphSAGE, com sua abordagem indutiva e de amostragem, demonstrou ser notavelmente mais estável que a GCN e a GAT no cenário estudado. Isso reforça a necessidade de monitoramento contínuo com as métricas corretas e um planejamento cuidadoso para a adaptação do modelo ao longo do tempo.

Referência Principal (Nosso Artigo)

Menezes, R. S.; Filho, R. H. (2025). Investigating the Robustness of Graph Neural Networks to Data Drift: A Case Study on Financial Transaction Data. IEEE Access, vol. 13, pp. 164302-164312, 2025, doi: 10.1109/ACCESS.2025.3611817. (Publicado em 18 de Setembro de 2025).

Referências Fundacionais (GNNs)

Kipf, T. N., & Welling, M. (2016). Semi-Supervised Classification with Graph Convolutional Networks. arXiv.
Veličković, P. et al. (2018). Graph Attention Networks (GAT). ICLR 2018.
Hamilton, W., Ying, Z., & Leskovec, J. (2017). Inductive Representation Learning on Large Graphs (GraphSAGE). NeurIPS 2017.

Sobre o autor

Rener Menezes
Cofundador & CTO — FitBank

Rener Menezes é cofundador e CTO do FitBank, fintech brasileira de Banking-as-a-Service. Com mais de 25 anos de experiência projetando sistemas financeiros em larga escala, é bacharel em Sistemas de Informação e mestrando na Unifor, onde pesquisa Redes Neurais de Grafos e aprendizado por reforço para detecção de fraude. Interesses: sistemas distribuídos, infraestrutura de pagamentos e graph ML.

Links: LinkedIn · ORCID · contato@grafolab.ia.br

GrafoLab

posts recentes

mais visitados