Transparência
Metodologia
Como captamos, filtramos e processamos os dados que alimentam a plataforma — desde a fonte original até os relatórios e estimativas que você vê.
1. Fontes de Dados
ITBI — Registros Municipais de São Paulo
A principal fonte de dados da plataforma é o Imposto de Transmissão de Bens Imóveis (ITBI), um registro oficial da Prefeitura de São Paulo gerado a cada transferência de imóvel. Cada transação contém informações como endereço, identificador cadastral, data, valor declarado, tipo de uso, padrão construtivo, área registrada e proporção da fração transmitida.
- Cobertura: município de São Paulo
- Histórico: a partir de 2006 (TBU com dados exatos ao conectar ao banco)
- Volume: mais de 2 milhões de transações
- Atualização: mensal, com lag de até 30–60 dias no mês mais recente
- Campos principais: cadastro SQL, logradouro, complemento, bairro, data, valor, tipo de financiamento, área construída ITBI, uso IPTU, padrão IPTU
Dados de Anúncios de Mercado
Para enriquecer os dados cadastrais com informações mais precisas sobre as unidades, utilizamos dados de anúncios ativos e históricos de um dos maiores portais imobiliários do Brasil. Essa fonte complementa o ITBI principalmente com:
- Área útil da unidade — mais confiável do que a área registrada no ITBI
- Informações de condomínio (vagas, andar, tipo de unidade)
- Preços de aluguel — usados para cálculo de yield estimado
- Dados de condomínio mensal e IPTU anunciados
2. Filtragem e Tratamento de Outliers
Aplicamos múltiplas camadas de filtragem antes de qualquer agregação ou exibição de dados, tanto na importação quanto nos cálculos de relatório.
Filtros de Transação
- Valor mínimo: transações abaixo de R$ 10.000 são descartadas (doações, transmissões simbólicas, erros de lançamento)
- Proporção transmitida mínima: registros com fração inferior a 1% do imóvel são ignorados, pois geralmente representam cessões de fração ideal de terreno, não venda de unidade residencial
- Faixa de preço por m²: valores fora da faixa de R$ 100–R$ 80.000/m² são excluídos dos cálculos agregados como outliers extremos
- Tipo de uso: somente imóveis residenciais (apartamentos e casas) são incluídos nos índices gerais de mercado
Deduplicação
O ITBI pode conter múltiplos registros para uma mesma transferência (e.g., registros de cartório duplicados). Identificamos e consolidamos duplicatas usando um identificador externo quando disponível, ou pela combinação de endereço, complemento, valor e data. Para anúncios de mercado, mantemos no máximo uma entrada por unidade por dia.
Ajuste de Proporção
Quando uma transação envolve proporção parcial (e.g., 50% do imóvel), o valor declarado é ajustado para refletir o valor total implícito. Porém, esse ajuste é validado comparando o valor resultante com o preço de referência do edifício — se a escala produz um valor implausível, o dado é sinalizando e pode ser excluído das agregações.
Agrupamento de Tamanhos
Para identificar os tamanhos típicos de unidades em um edifício, agrupamos áreas em clusters com tolerância de ±5 m². A moda (valor mais frequente) é usada como tamanho representativo de cada tipologia, o que reduz o impacto de áreas cadastradas incorretamente.
Taxas de Condomínio e IPTU
Para valores de condomínio e IPTU, usamos a moda (valor mais frequente) em vez da média ou mediana. Isso torna os valores menos sensíveis a erros de digitação ou lançamentos atípicos que frequentemente ocorrem nesses campos.
Mês mais Recente (Dados Incompletos)
O mês mais recente da base frequentemente está incompleto no momento da extração. Quando detectamos que o volume de transações do último mês é inferior a 40% da média dos meses anteriores, sinalizamos esse período como possivelmente incompleto e o excluímos dos índices de tendência.
3. Tratamento de Preços
Os preços exibidos na plataforma são os valores nominais declarados no ITBI no momento da transação. Não aplicamos nenhum ajuste inflacionário aos dados transacionais individuais.
Isso significa que uma transação de 2010 aparece com o valor de 2010 — sem correção pelo IPCA ou qualquer outro índice. Essa abordagem preserva a fidelidade ao registro oficial e permite que o usuário aplique seu próprio critério de comparação temporal.
Agregados de preço por m² (mediana, média) são calculados usando a área útil da unidade quando disponível via dados de anúncio, garantindo maior precisão do que se usássemos a área cadastrada no ITBI.
4. Limitações dos Dados
Apesar dos filtros aplicados, os dados têm limitações inerentes que o usuário deve considerar ao interpretar os resultados.
Valor declarado vs. valor de mercado
O ITBI registra o valor declarado pelo comprador para fins fiscais, que não deveria, mas pode diferir do valor efetivamente negociado. Por exemplo, alguns casos podem refletir uma compra parcial ou parcelada (e eventualmente até aparecer como duas compras separadas nos dados).
Área cadastrada no ITBI
A área construída registrada no ITBI é imprecisa, especialmente em imóveis mais antigos. Geralmente a área no ITBI inclui áreas comuns e está superestimada. Por isso, quando disponível, priorizamos a área informada em anúncios de mercado, que em geral reflete melhor a área útil real da unidade.
Transações em etapas (step transactions)
Alguns imóveis passam por múltiplas transferências em sequência em curto período — por exemplo, incorporação seguida de venda imediata. Esses registros podem distorcer o histórico de um imóvel específico e são identificados, mas nem sempre possível excluir sem perder dados legítimos.
Transferências de baixa proporção
Cessões de pequenas frações ideais de terreno ou partilhas de herança envolvendo proporções baixíssimas podem aparecer como transações com valores muito abaixo do mercado. Aplicamos filtro de proporção mínima, mas casos limítrofes podem permanecer nos dados.
Cobertura de anúncios
Os dados de área e informações complementares de anúncio cobrem principalmente imóveis verticais (apartamentos) em São Paulo. Casas e imóveis em regiões com menor volume de anúncios podem ter menos informações enriquecidas, resultando em análises menos precisas.
Latência dos dados
A base é atualizada mensalmente. O mês mais recente tende a ter volume menor por ainda estar sendo processado pela Prefeitura. Índices de tendência são calculados excluindo períodos com dados incompletos.
Imóveis sem histórico
Imóveis que nunca foram objeto de ITBI (e.g., primeira transmissão ainda não registrada, imóvel nunca vendido) não aparecem na base. A ausência de dados não significa ausência de imóvel.
5. Índices de Mercado
A página de Insights apresenta índices calculados sobre o conjunto completo de transações ITBI filtradas.
Índice de Crescimento de Preço
Calculado como a variação percentual da mediana de preço por m² ao longo do tempo, usando janelas móveis suavizadas para reduzir ruído mensal. Apenas apartamentos residenciais são incluídos. O índice é sempre nominal (sem ajuste inflacionário) na série base.
Preço Real vs. Nominal
Para o gráfico de comparação real vs. nominal, aplicamos o IPCA acumulado sobre o índice nominal base 100, permitindo visualizar se o preço dos imóveis cresceu acima ou abaixo da inflação ao longo do período selecionado.
Volume e Valor de Transações
Contagem e soma de transações por mês (ou ano), com separação entre financiadas e à vista. O mês mais recente é sinalizado caso esteja incompleto.
Rankings de Bairros
Bairros são rankeados pela variação percentual da mediana de preço por m² no período selecionado, calculada sobre os dados do próprio bairro (mínimo de transações para inclusão: TBU). Rankings de destaque identificam bairros com maior valorização e maior desvalorização relativa.
Agregados por Edifício e Rua
Os relatórios de edifício e rua usam agregados pré-calculados (mediana e média ponderada de preço por m²) derivados de transações filtradas e enriquecidas com área de anúncio. Para ruas, utilizamos a mediana das medianas dos edifícios, ponderada pelo volume de transações.
6. Função Estimar — Modelo de Precificação
A ferramenta Estimar usa um modelo de machine learning para estimar o valor de mercado de um imóvel com base em suas características e no contexto de preços do entorno.
Arquitetura do Modelo
Utilizamos um ensemble de dois modelos, cujas predições são combinadas por média:
- Modelo Hedônico: regressão log-linear (OLS) com features padronizadas — o modelo mais interpretável, baseado em preços implícitos de cada atributo
- XGBoost: gradient boosting treinado sobre os mesmos dados — captura não-linearidades e interações entre variáveis que o modelo linear não consegue
A predição final é o exponencial da média das predições log-transformadas de ambos os modelos.
Variáveis Utilizadas
Localização
- Bairro (codificado por preço médio)
- Preço por m² da região
- Preço por m² da rua
- Preço por m² do edifício
- Ratios entre os níveis (edifício vs. região, etc.)
Características Físicas
- Área útil (e log da área)
- Idade do edifício
- Padrão construtivo (IPTU)
- Flag de imóvel novo (≤3 anos)
- Flag de imóvel vintage (≥40 anos)
Treinamento e Validação
- Dados de treino: 80% das transações históricas (split temporal — dados mais antigos para treino)
- Dados de teste: 20% mais recentes (garante que o modelo é validado em dados que não viu)
- Variável alvo: log(preço) — transformação logarítmica para estabilizar a variância
- Métricas de avaliação: MAPE, R², MAE e RMSE
- Intervalo de predição típico: ±12% (baseado no MAPE observado)
Sanidade e Confiança
Para evitar estimativas absurdas, aplicamos verificações de sanidade comparando a predição com uma estimativa ingênua (área × preço de referência por m²):
- Se a predição for inferior a 50% da estimativa ingênua: blend de 70% ingênua + 30% ML
- Se a predição superar 200% da estimativa ingênua: limitada a 150% do prêmio
O nível de confiança é derivado da dispersão entre as predições dos dois modelos — quanto mais próximas, maior a confiança (faixa: 50%–95%).
Limitações do Modelo
- Mercados rasos: bairros ou tipologias com poucas transações têm estimativas menos precisas, pois o modelo depende de referências locais
- Imóveis de alto padrão / atípicos: propriedades com características muito específicas (cobertura, duplex, plantas atípicas) podem estar fora da distribuição de treino
- Construções muito recentes: edifícios sem histórico de transações forçam o modelo a usar referências de rua/bairro, com menor granularidade
- Preços nominais: o modelo é treinado em preços nominais, portanto estimativas para datas futuras não incorporam projeções de inflação
- Reformas e benfeitorias: o modelo não captura melhorias internas não refletidas no padrão IPTU cadastrado
- Uso indicativo: a estimativa deve ser usada como referência de mercado, não como avaliação formal (laudo de engenharia/avaliação oficial)
Esta página é atualizada conforme evoluímos a metodologia. Para dúvidas ou sugestões, entre em contato.