SIOO

SIOO · Guanajuato · fundamentos del proyecto

El cimiento

Cada mapa, cono de pronóstico y semáforo de este sitio descansa sobre tres pilares: la física del agua, la geología del subsuelo que la contiene y la estadística que la proyecta. Aquí está, abierto, el método: las fórmulas exactas, los supuestos y las reglas de honestidad que sostienen toda la base.

01 · Trazabilidad

De la encuesta a la pantalla

Ningún número aparece sin origen. Esta es la ruta que recorre cada dato, de la celda que llenó un organismo en 2023 hasta el pixel que ves hoy. Todo paso es reproducible desde la raíz del proyecto.

1

Encuesta SIOO (cruda)

46 organismos responden ~225 variables por año. Encabezados no idénticos entre 2021/2022/2023; régimen jurídico sin normalizar.

SIOO - acumulado 2021-2023.xlsx
2

Pivot caches del Anexo ajustado

Versión tidy de SAMA: Conceptos (11,280 filas) e Indicadores (7,240 filas). Cada fila es Concepto×Uso×Año×Organismo×Valor. Es la fuente de verdad para análisis.

Anexo ajustado (analítica de datos.xlsx
3

CSV tidy reproducibles

Extracción vía XML directo + limpieza honesta: saltos de línea, ceros-sin-dato → NaN, filas “Total” marcadas, nombres SIGA↔SIOO mapeados.

data/{conceptos,indicadores,siga_facturacion}.csv
4

Visualizaciones y app

10 visualizaciones autocontenidas, datos por municipio y el simulador. Todo precalculado en Python; el navegador sólo evalúa fórmulas cerradas.

viz/*.html · SIOO/ (Astro)

Reproducible con python3 data/extraer_tidy.py y python3 SIOO/generar_datos_general.py. La consistencia se ancla en sumas de control (ver §07).

02 · Física

Conservación de masa: el agua no desaparece

Un organismo operador es, físicamente, un sistema de flujo. Todo lo que entra debe salir o quedar contabilizado. El principio rector es la conservación de masa: el agua que se extrae se factura o se pierde.

Balance hídrico

Vextraído = Vfacturado + Vpérdidas

El volumen que sale del acuífero se reparte entre lo que llega a una factura y lo que se fuga (tuberías rotas) o nadie mide. No hay un tercer destino: es aritmética de un sistema cerrado.

Agua No Contabilizada (ANC)

ANC % = Vextraído − VfacturadoVextraído × 100

La fracción de agua que se pierde. Media estatal ~44%: de cada 100 litros extraídos, 44 no llegan a cobrarse. → Mapa de pérdidas

Las tres eficiencias

ηfísica = VfacturadoVextraído
ηcomercial = $cobrado$facturado
ηglobal = ηfísica · ηcomercial

La global es el producto de ambas — por eso en el cuadrante de eficiencias las curvas de nivel son hipérbolas (x·y = constante). Estatal 2023: 56% × 83% ≈ 47%. → Cuadrante de eficiencias

Dotación

dotación = Vsuministrado (L)población × 365

Litros por habitante por día. Es la métrica que normaliza municipios de tamaño dispar. Media estatal 252 L/hab/día (la misma que usa el simulador para convertir Mm³ recuperados en habitantes-año).

Traducir m³ a intuición

albercas/día = Mm3perdidos × 106365 × 2,500

Una alberca olímpica ≈ 2,500 m³. Las equivalencias físicas no son decoración: convierten un volumen abstracto en algo que cualquiera dimensiona. Es comunicación, no licencia para inventar.

03 · Geología

El agua vive bajo tierra

En Guanajuato el 97.7% del agua extraída es subterránea: viene de acuíferos en buena parte sobreexplotados, donde se saca más de lo que la recarga natural repone. Esto cambia el significado de cada cifra.

El volumen extraído no es un caudal renovable e indiferente: es una reserva geológica que se agota. Por eso la eficiencia física no es sólo una métrica financiera. Cada punto porcentual que mejora equivale a metros cúbicos que no hace falta sacar del subsuelo:

ΔVahorrado = Vextraído · Δηfísica

Este es el gancho del simulador: subir la eficiencia física no “produce” agua, preserva el acuífero. La conservación de masa y la geología se encuentran aquí.

04 · Matemáticas

Cómo se mide, compara y proyecta

Series cortas (n = 5 años, sin desglose mensual) imponen disciplina: sólo modelos de tendencia, nada de estacionalidad ni de aprendizaje automático. Todo lo estadístico se precalcula en Python; cada método es transparente y auditable.

Regresión lineal con cono de incertidumbre

Pronóstico por mínimos cuadrados (la pendiente b y el intercepto a que minimizan los errores al cuadrado), método ganador en 37/46 municipios según el propio SIGA:

ŷ(x) = a + b·x

La honestidad está en la banda: el error de predicción crece al alejarse del centro de los datos, dibujando un cono que se abre.

sepred = s · √( 1 + 1n + (x₀ − x̄)2Σ(xᵢ − x̄)2 )
IC95% = ŷ(x₀) ± t0.975, n−2 · sepred

Corrección crítica: el SIGA usaba un t-crítico de 0.0708, que volvía “válido” casi todo. El correcto con n = 5 es t = 3.182 (gl = 3) y con n = 4, 4.303 (gl = 2). Recalculado en todo el proyecto. → El cono del futuro

Tasa de crecimiento (CAGR)

CAGR = ( Vt₁Vt₀ )1/(t₁−t₀) − 1

Crecimiento anual compuesto. Facturación de agua 2020–2024: +7.22% con los 32 municipios de serie completa (no +5.8%, sesgado por los 14 sin dato 2024). En el simulador se recorta a los percentiles 5–95 del estado para que una serie corta no explote.

Desigualdad: Lorenz y Gini

G = 1 − 2·∫₀¹ L(p) dp

La curva de Lorenz ordena a los municipios de menor a mayor y acumula su participación; el Gini es el doble del área entre ella y la diagonal, calculado por trapecios. Facturación G = 0.784 vs volumen 0.657 → la desigualdad es más tarifaria que hídrica. → Lorenz y Gini

Tipologías: clustering jerárquico

z = x − μσ

Cada uno de los 13 indicadores se normaliza a z-score (media 0, desviación 1) para que ninguno domine por su escala. Luego se agrupan con el método de Ward (minimiza la varianza intra-grupo) sobre distancia euclidiana → 5 familias de organismos. → Las 5 familias

Cartograma de Dorling

ri = rmáx · √( tomasitomasmáx )

El radio va con la raíz cuadrada de las tomas para que el área (no el radio) sea proporcional — así el ojo no exagera. Una relajación de colisiones iterativa separa los círculos sin que se encimen (0% de traslape residual). → Cartograma de Dorling

Cartera como tiempo característico

cartera (meses) = cartera vencida ($)facturación mensual ($)

Cuántos meses tardaría un organismo en “escapar” de su deuda si le dedicara todo lo que factura — un tiempo de relajación, como en física. Se grafica en escala radial de raíz para que San Luis de la Paz (50.8 meses) no aplaste al resto. → Deuda gravitacional

Relación de trabajo

RT = gastos totalesingresos totales × 100

El termostato financiero. Bajo 100% el organismo se autofinancia; arriba, vive de subsidios. Victoria: 242%. Es el indicador que el simulador proyecta a 2030. → Termómetro

05 · Modelo dinámico

El motor del simulador “¿Y si actuamos?”

El simulador es un modelo determinista y transparente: balance de masa + aritmética financiera, sin caja negra. Para cada año t = 2024…2030 parte de 2023 y aplica cuatro palancas de política.

Eficiencias con tope físico

ηfís(t) = mín( ηfís,0 + Δfís·(t−2023), 0.95 )
ηcom(t) = mín( ηcom,0 + Δcom·(t−2023), 0.98 )

Las palancas no pueden superar lo físicamente alcanzable.

Tarifa y cobranza

tarifa(t) = tarifa₀ · (1 + inercia + ajuste)t−2023
cobrado(t) = facturado(t) · ηcom(t)

La inercia es el CAGR municipal observado; el ajuste, la palanca tarifaria.

Cartera dinámica

extra(t) = cartera(t−1) · recup
cartera(t) = cartera(t−1)·(1−recup) + facturado(t)·(1−ηcom)

La recuperación de cartera es un ingreso extraordinario decreciente.

El veredicto

RT(t) = gastos₀·(1+CAGRg)t−2023ingresos(t)

Salida clave: el año en que RT cruza el 100%, en cualquier dirección.

La calibración honesta (lo que más importa)

La fórmula literal de balance (volumen × tarifa) se desviaba hasta un 40% del pronóstico ya publicado en el cono del futuro. Para que el escenario inercial reproduzca exactamente la viz 04 (desviación 0.0000%), el motor usa como base la regresión sobre la facturación SIGA — la misma de la viz 04 — y trata las palancas como multiplicadores sobre esa base. La banda de incertidumbre se propaga del cono inercial; las palancas mueven la media, no la banda.

Desviación documentada con franqueza: Victoria, con el preset Ambicioso, no cruza el 100% antes de 2031 (su gasto crece 14.8%/año). La hipótesis original era más optimista que los datos — y así se reporta en el panel del simulador. → Abrir el simulador

06 · Integridad

Reglas de honestidad

Una metodología vale tanto por lo que calcula como por lo que se niega a fingir. Estas reglas se aplican sin excepción en todo el proyecto.

  • Ceros = “sin dato”. En Atarjea, Pueblo Nuevo, Tierra Blanca, Xichú y Santa Catarina los ceros se marcan como faltantes (NaN), nunca como ceros reales. No se simulan ni se promedian.
  • No sumar totales. Los caches incluyen filas “Total/Totales” por organismo y por uso; sumarlas duplica exactamente el resultado. Se filtran antes de cualquier agregación.
  • Normalizar contra León. León concentra ~47% de la facturación; en escala lineal aplasta todo. Toda comparación va por toma, per cápita o en logaritmo.
  • Series cortas, modelos humildes. Con n = 5 anual sólo caben modelos de tendencia. CAGRs recortados a percentiles 5–95 para evitar explosiones.
  • Mapeo de nombres explícito. Cinco municipios cambian de grafía entre SIOO y SIGA (p. ej. “Juventino Rosas” ↔ “Sta. C. de J. Rosas”); el diccionario es público en el código, no un arreglo silencioso.
  • El t-crítico correcto. Se ignoran las columnas “VÁLIDO/NO VÁLIDO” del SIGA y se recalcula el intervalo de confianza con la distribución t-Student que corresponde a cada n.
07 · Verificación

Cifras de control

Toda cifra reportada se cuadra contra estos valores antes de publicarse. Si una suma no coincide, el error está en el código — no en la fuente.

MagnitudValor de controlNota
Facturación de agua 2023 $4,417,343,223 idéntica en conceptos.csv y siga_facturacion.csv
Volumen extraído 2023 329.2 Mm³ 97.7% de origen subterráneo
Tomas de agua 2023 1,387,024 ~89% domésticas
Cartera vencida 2023 $1,403 M +44% vs 2019
Doméstico agua 2023 $3,159.8 M subtotal por uso

Esa es la base. Con ella en pie, cada visualización deja de ser una opinión y pasa a ser una medición.