# Atualizacao do Artigo (2026-01-03) ## Objetivo Atualizar o texto do artigo com o melhor modelo atual, as variaveis usadas, os resultados principais e o resumo completo das comparacoes (apendice). ## Melhor modelo (atual) - Modelo: ExtraTrees - Features: idade, sexo, sensitivo ausente, latencia/NCV/CMAP de mediano e ulnar (any-side) + derivados (razao CMAP mediano/ulnar e diferenca de NCV > 10 m/s). - Desempenho (CV estratificada 5-fold): balanced accuracy ~0.812, AUROC ~0.890. - Artefatos: - Dataset: `output/ml_benchmark_2026-01-03_age_sensory_with_derived/ml_dataset_hereditary_vs_inflammatory.csv` - Modelo final: `output/final_model_2026-01-03/extra_trees_model.joblib` - Modelo em producao: `neuropathy_calculator/model/extra_trees_model.joblib` ## Resultados de generalizacao / vazamento - Permutacao (labels embaralhados): balanced accuracy ~0.52-0.55 (sem sinal de vazamento direto). - Baseline centro-only: ~0.778 (forte confound de centro). - Group-CV por centro (proxy de generalizacao externa): balanced accuracy ~0.48-0.59. - Idade isolada tem AUC ~0.81 e missingness maior no grupo inflamatorio; manter no texto como feature clinicamente relevante, mas com ressalva de potencial confound de centro. ## O que foi testado (para apendice) Todas as tentativas, com diretorios e metricas, estao consolidadas em: `docs/ML_COMPARISON_REPORT_2026-01-03.md`. Esse documento lista: - Rodadas base7 (com/sem POEMS, com/sem MMN, com/sem derivados). - Variantes com idade, com sensitivo, e combinacoes (com e sem derivados). - Auditorias de vazamento (permutacao, center-only, group-CV). - Busca de hiperparametros (base7 sem POEMS e sem MMN). - Checagens de confound da idade (KS, missingness, age-only vs base7, group-CV). ## Texto sugerido (metodos/resultados) Metodos: Utilizamos um classificador ExtraTrees treinado com winsorizacao (1-99%), imputacao mediana e pesos balanceados por centro+rotulo. As features incluem idade e metricas de conducao motora do mediano/ulnar (latencia distal, NCV e CMAP), alem de indicador de ausencia sensitiva. Derivamos duas variaveis adicionais: razao CMAP mediano/ulnar e diferenca de NCV > 10 m/s. Resultados: Em validacao cruzada estratificada (5-fold), o melhor modelo atingiu balanced accuracy ~0.81 e AUROC ~0.89 para diferenciar neuropatia hereditaria vs inflamatoria. Analises de generalizacao por centro indicam queda de desempenho (balanced accuracy ~0.48-0.59), e a idade se mostrou altamente informativa (AUC ~0.81), devendo ser interpretada como potencial confound relacionado a distribuicao por centro.