SIOO · Guanajuato · fundamentos del proyecto
El cimiento
Cada mapa, cono de pronóstico y semáforo de este sitio descansa sobre tres pilares: la física del agua, la geología del subsuelo que la contiene y la estadística que la proyecta. Aquí está, abierto, el método: las fórmulas exactas, los supuestos y las reglas de honestidad que sostienen toda la base.
De la encuesta a la pantalla
Ningún número aparece sin origen. Esta es la ruta que recorre cada dato, de la celda que llenó un organismo en 2023 hasta el pixel que ves hoy. Todo paso es reproducible desde la raíz del proyecto.
Encuesta SIOO (cruda)
46 organismos responden ~225 variables por año. Encabezados no idénticos entre 2021/2022/2023; régimen jurídico sin normalizar.
SIOO - acumulado 2021-2023.xlsx Pivot caches del Anexo ajustado
Versión tidy de SAMA: Conceptos (11,280 filas) e Indicadores (7,240 filas). Cada fila es Concepto×Uso×Año×Organismo×Valor. Es la fuente de verdad para análisis.
Anexo ajustado (analítica de datos.xlsx CSV tidy reproducibles
Extracción vía XML directo + limpieza honesta: saltos de línea, ceros-sin-dato → NaN, filas “Total” marcadas, nombres SIGA↔SIOO mapeados.
data/{conceptos,indicadores,siga_facturacion}.csv Visualizaciones y app
10 visualizaciones autocontenidas, datos por municipio y el simulador. Todo precalculado en Python; el navegador sólo evalúa fórmulas cerradas.
viz/*.html · SIOO/ (Astro)
Reproducible con python3 data/extraer_tidy.py y
python3 SIOO/generar_datos_general.py. La consistencia se
ancla en sumas de control (ver §07).
Conservación de masa: el agua no desaparece
Un organismo operador es, físicamente, un sistema de flujo. Todo lo que entra debe salir o quedar contabilizado. El principio rector es la conservación de masa: el agua que se extrae se factura o se pierde.
Balance hídrico
El volumen que sale del acuífero se reparte entre lo que llega a una factura y lo que se fuga (tuberías rotas) o nadie mide. No hay un tercer destino: es aritmética de un sistema cerrado.
Agua No Contabilizada (ANC)
La fracción de agua que se pierde. Media estatal ~44%: de cada 100 litros extraídos, 44 no llegan a cobrarse. → Mapa de pérdidas
Las tres eficiencias
La global es el producto de ambas — por eso en el cuadrante de eficiencias las curvas de nivel son hipérbolas (x·y = constante). Estatal 2023: 56% × 83% ≈ 47%. → Cuadrante de eficiencias
Dotación
Litros por habitante por día. Es la métrica que normaliza municipios de tamaño dispar. Media estatal 252 L/hab/día (la misma que usa el simulador para convertir Mm³ recuperados en habitantes-año).
Traducir m³ a intuición
Una alberca olímpica ≈ 2,500 m³. Las equivalencias físicas no son decoración: convierten un volumen abstracto en algo que cualquiera dimensiona. Es comunicación, no licencia para inventar.
El agua vive bajo tierra
En Guanajuato el 97.7% del agua extraída es subterránea: viene de acuíferos en buena parte sobreexplotados, donde se saca más de lo que la recarga natural repone. Esto cambia el significado de cada cifra.
El volumen extraído no es un caudal renovable e indiferente: es una reserva geológica que se agota. Por eso la eficiencia física no es sólo una métrica financiera. Cada punto porcentual que mejora equivale a metros cúbicos que no hace falta sacar del subsuelo:
Este es el gancho del simulador: subir la eficiencia física no “produce” agua, preserva el acuífero. La conservación de masa y la geología se encuentran aquí.
Cómo se mide, compara y proyecta
Series cortas (n = 5 años, sin desglose mensual) imponen disciplina: sólo modelos de tendencia, nada de estacionalidad ni de aprendizaje automático. Todo lo estadístico se precalcula en Python; cada método es transparente y auditable.
Regresión lineal con cono de incertidumbre
Pronóstico por mínimos cuadrados (la pendiente b y el intercepto a que minimizan los errores al cuadrado), método ganador en 37/46 municipios según el propio SIGA:
La honestidad está en la banda: el error de predicción crece al alejarse del centro de los datos, dibujando un cono que se abre.
Corrección crítica: el SIGA usaba un t-crítico de 0.0708,
que volvía “válido” casi todo. El correcto con n = 5 es
t = 3.182 (gl = 3) y con n = 4, 4.303 (gl = 2).
Recalculado en todo el proyecto.
→ El cono del futuro
Tasa de crecimiento (CAGR)
Crecimiento anual compuesto. Facturación de agua 2020–2024: +7.22% con los 32 municipios de serie completa (no +5.8%, sesgado por los 14 sin dato 2024). En el simulador se recorta a los percentiles 5–95 del estado para que una serie corta no explote.
Desigualdad: Lorenz y Gini
La curva de Lorenz ordena a los municipios de menor a mayor y acumula su participación; el Gini es el doble del área entre ella y la diagonal, calculado por trapecios. Facturación G = 0.784 vs volumen 0.657 → la desigualdad es más tarifaria que hídrica. → Lorenz y Gini
Tipologías: clustering jerárquico
Cada uno de los 13 indicadores se normaliza a z-score (media 0, desviación 1) para que ninguno domine por su escala. Luego se agrupan con el método de Ward (minimiza la varianza intra-grupo) sobre distancia euclidiana → 5 familias de organismos. → Las 5 familias
Cartograma de Dorling
El radio va con la raíz cuadrada de las tomas para que el área (no el radio) sea proporcional — así el ojo no exagera. Una relajación de colisiones iterativa separa los círculos sin que se encimen (0% de traslape residual). → Cartograma de Dorling
Cartera como tiempo característico
Cuántos meses tardaría un organismo en “escapar” de su deuda si le dedicara todo lo que factura — un tiempo de relajación, como en física. Se grafica en escala radial de raíz para que San Luis de la Paz (50.8 meses) no aplaste al resto. → Deuda gravitacional
Relación de trabajo
El termostato financiero. Bajo 100% el organismo se autofinancia; arriba, vive de subsidios. Victoria: 242%. Es el indicador que el simulador proyecta a 2030. → Termómetro
El motor del simulador “¿Y si actuamos?”
El simulador es un modelo determinista y transparente: balance de masa + aritmética financiera, sin caja negra. Para cada año t = 2024…2030 parte de 2023 y aplica cuatro palancas de política.
Eficiencias con tope físico
Las palancas no pueden superar lo físicamente alcanzable.
Tarifa y cobranza
La inercia es el CAGR municipal observado; el ajuste, la palanca tarifaria.
Cartera dinámica
La recuperación de cartera es un ingreso extraordinario decreciente.
El veredicto
Salida clave: el año en que RT cruza el 100%, en cualquier dirección.
La calibración honesta (lo que más importa)
La fórmula literal de balance (volumen × tarifa) se desviaba hasta un 40% del pronóstico ya publicado en el cono del futuro. Para que el escenario inercial reproduzca exactamente la viz 04 (desviación 0.0000%), el motor usa como base la regresión sobre la facturación SIGA — la misma de la viz 04 — y trata las palancas como multiplicadores sobre esa base. La banda de incertidumbre se propaga del cono inercial; las palancas mueven la media, no la banda.
Desviación documentada con franqueza: Victoria, con el preset Ambicioso, no cruza el 100% antes de 2031 (su gasto crece 14.8%/año). La hipótesis original era más optimista que los datos — y así se reporta en el panel del simulador. → Abrir el simulador
Reglas de honestidad
Una metodología vale tanto por lo que calcula como por lo que se niega a fingir. Estas reglas se aplican sin excepción en todo el proyecto.
- Ceros = “sin dato”. En Atarjea, Pueblo Nuevo, Tierra Blanca, Xichú y Santa Catarina los ceros se marcan como faltantes (NaN), nunca como ceros reales. No se simulan ni se promedian.
- No sumar totales. Los caches incluyen filas “Total/Totales” por organismo y por uso; sumarlas duplica exactamente el resultado. Se filtran antes de cualquier agregación.
- Normalizar contra León. León concentra ~47% de la facturación; en escala lineal aplasta todo. Toda comparación va por toma, per cápita o en logaritmo.
- Series cortas, modelos humildes. Con n = 5 anual sólo caben modelos de tendencia. CAGRs recortados a percentiles 5–95 para evitar explosiones.
- Mapeo de nombres explícito. Cinco municipios cambian de grafía entre SIOO y SIGA (p. ej. “Juventino Rosas” ↔ “Sta. C. de J. Rosas”); el diccionario es público en el código, no un arreglo silencioso.
- El t-crítico correcto. Se ignoran las columnas “VÁLIDO/NO VÁLIDO” del SIGA y se recalcula el intervalo de confianza con la distribución t-Student que corresponde a cada n.
Cifras de control
Toda cifra reportada se cuadra contra estos valores antes de publicarse. Si una suma no coincide, el error está en el código — no en la fuente.
| Magnitud | Valor de control | Nota |
|---|---|---|
| Facturación de agua 2023 | $4,417,343,223 | idéntica en conceptos.csv y siga_facturacion.csv |
| Volumen extraído 2023 | 329.2 Mm³ | 97.7% de origen subterráneo |
| Tomas de agua 2023 | 1,387,024 | ~89% domésticas |
| Cartera vencida 2023 | $1,403 M | +44% vs 2019 |
| Doméstico agua 2023 | $3,159.8 M | subtotal por uso |
Esa es la base. Con ella en pie, cada visualización deja de ser una opinión y pasa a ser una medición.