Enfoque de aprendizaje automático para explicar la dinámica de la calidad del agua en un río urbanizado

Noticias

HogarHogar / Noticias / Enfoque de aprendizaje automático para explicar la dinámica de la calidad del agua en un río urbanizado

Jan 25, 2024

Enfoque de aprendizaje automático para explicar la dinámica de la calidad del agua en un río urbanizado

Informes científicos volumen 12,

Scientific Reports volumen 12, Número de artículo: 12346 (2022) Citar este artículo

2719 Accesos

2 citas

10 Altmetric

Detalles de métricas

Las actividades humanas alteran la calidad y cantidad del agua de los ríos, con consecuencias para los ecosistemas de los ríos urbanizados. Cuantificar el papel de los impulsores inducidos por el hombre en el control de los patrones espacio-temporales en la calidad del agua es fundamental para desarrollar estrategias exitosas para mejorar la salud ecológica de los ríos urbanos. Aquí, analizamos los datos de temperatura y conductividad eléctrica de alta frecuencia recopilados del río Chess en el sureste de Inglaterra durante un proyecto de ciencia ciudadana. Utilizando el aprendizaje automático, encontramos que los árboles potenciados superan a GAM y describen con precisión la dinámica de la calidad del agua con menos del 1% de error. Las explicaciones de SHpley Additive revelan la importancia y las (inter)dependencias entre las variables individuales, como el nivel del río y el flujo de salida de las obras de tratamiento de aguas residuales (WWTW). Los vertidos de las EDAR dan lugar a variaciones diurnas de la conductividad eléctrica, detectables a lo largo del año, y a un aumento de la temperatura media del agua de 1 \(\rm{^o}C\) en un tramo de 2 km aguas abajo de la depuradora durante caudales bajos. En general, mostramos cómo las mediciones de alta frecuencia de la calidad del agua iniciadas por un proyecto de ciencia ciudadana, junto con las técnicas de aprendizaje automático, pueden ayudar a desenredar los factores clave de la dinámica de la calidad del agua en un arroyo de creta urbanizado.

En todo el mundo, las actividades humanas, como la urbanización, están provocando cambios en los ciclos del agua de captación que tienen un profundo impacto en la cantidad y calidad del agua y la ecología de los ríos1,2. La urbanización cambia la hidrología de una cuenca de múltiples maneras3. La introducción de superficies impermeables, junto con sistemas de drenaje artificial, puede aumentar los caudales máximos en los ríos3, reducir los tiempos de respuesta hidrológica a las precipitaciones4,5 y reducir el caudal base y la recarga de aguas subterráneas6. En muchos países, los sistemas de alcantarillado combinado llevan las aguas residuales domésticas e industriales a las plantas de tratamiento de aguas residuales en condiciones secas, junto con el drenaje de aguas pluviales de las áreas pavimentadas cuando llueve. La descarga de efluentes tratados puede causar patrones de flujo distintivos en los ríos dictados por la actividad humana7,8.

Las actividades humanas asociadas con la urbanización también tienen impactos en la calidad química del agua, con mucho esfuerzo centrado en caracterizar los cambios en la calidad del agua en los ríos urbanos durante las tormentas9,10,11 y el fenómeno de la 'primera descarga'12,13. Los desbordamientos de alcantarillado combinado también pueden afectar significativamente la calidad del agua después de lluvias intensas cuando se ha excedido la capacidad de las obras de tratamiento de aguas residuales14,15,16,17. También sabemos que los arroyos urbanos tienden a tener una conductividad eléctrica media más alta y concentraciones de iones importantes en comparación con sus contrapartes rurales18,19,20, lo que surge de una combinación de fuentes de contaminación puntuales y difusas. Por ejemplo, el cloruro, el sulfato, el sodio y el potasio son electrolitos comunes en la orina y, por lo tanto, se concentran en las aguas residuales19. Sin embargo, determinar las fuentes principales de iones individuales en los sistemas urbanos ha resultado ser un desafío21. Estos niveles elevados de solutos ahora están llevando a los ecólogos a formular hipótesis sobre las implicaciones potenciales de las concentraciones iónicas elevadas para la salud y la resiliencia de los ecosistemas de corrientes urbanas22.

Las actividades humanas están causando una degradación generalizada de la calidad del agua en los ríos con consecuencias para la salud ecológica23. Estas actividades conducen a cambios en la calidad del agua de las aguas receptoras que operan en escalas de tiempo anidadas desde horas (en respuesta a eventos de lluvia) hasta ciclos diarios, estacionales e interanuales24,25. Para comprender completamente el impacto de las actividades humanas en los ríos, debemos separar las variaciones naturales y las inducidas por el hombre en la calidad del agua. Para hacer esto, necesitamos acceso a datos de monitoreo a largo plazo y de alta resolución de los sistemas urbanizados, como los que están disponibles al usar sensores de calidad del agua de alta frecuencia en tiempo real26.

Con datos detallados disponibles, el aprendizaje automático (ML) se está convirtiendo en una alternativa importante a los modelos estadísticos tradicionales o basados ​​en procesos. Este desarrollo se acelera aún más cuando los modelos ML muestran un rendimiento predictivo superior27 en comparación con los enfoques tradicionales. Por ejemplo,28 recientemente demostró que el aprendizaje automático se puede usar para detectar descargas de aguas residuales sin tratar cuando se entrena con datos de flujo de 15 minutos de plantas de tratamiento de aguas residuales (WWTW). Las técnicas específicas de aprendizaje automático incluyen modelos aditivos generalizados (GAM) y árboles potenciados. Las técnicas GAM se han utilizado para investigar las correlaciones entre la clorofila a y otros parámetros de calidad del agua29. Mientras tanto, se ha utilizado el análisis de árbol potenciado, por ejemplo, para clasificar la importancia de los factores que afectan la concentración de nitrato en las aguas subterráneas y para crear mapas de vulnerabilidad de nitrato30. La idea subyacente de los árboles potenciados es combinar muchos "aprendices débiles", es decir, árboles de regresión simples, en un predictor de conjunto31. Los árboles potenciados a menudo superan a las redes neuronales, en particular en datos tabulares32, pero tienen problemas para predecir eventos futuros y extrapolar más allá de los valores registrados previamente.

Al aplicar el aprendizaje automático, es importante evitar las soluciones de caja negra, ya que estas no brindan información científica basada en procesos33. Con la llegada del aprendizaje automático (IML) 'explicable' o 'interpretable', el aprendizaje automático se ha mejorado para resaltar la comprensión de las relaciones relevantes contenidas en los datos. Sin embargo, estos métodos IML hasta ahora no se han utilizado ampliamente para el análisis de la calidad del agua27,34,35. Aquí mostramos cómo se puede usar IML para determinar la importancia relativa de los diferentes factores ambientales y humanos que controlan la dinámica de la calidad del agua, y para descifrar la naturaleza de las relaciones entre el nivel del río y la conductividad eléctrica o la temperatura. En este caso, usamos árboles potenciados e interpretamos estas cajas negras tradicionales a través de los valores de Shapley36,37, comparando su desempeño general con un enfoque GAM más tradicional. Hacemos hincapié en que nuestro análisis en sí mismo es transparente y reproducible: hacemos que nuestro código esté disponible en línea y todos nuestros resultados se basan en paquetes de código abierto y disponibles públicamente, por ejemplo, en Python y R.

En el Reino Unido, uno de los tipos de ríos aparentemente bajo la mayor presión de la actividad humana son los arroyos de tiza alimentados por aguas subterráneas. La mayoría de los arroyos de tiza del mundo (224 ríos) se encuentran en Inglaterra38 y se consideran de importancia internacional por sus características hidrológicas, calidad del agua, ecología y estética. Sin embargo, el 77 % de estos ríos no alcanzan el estado ecológico 'bueno' según lo define la Directiva Marco del Agua de la Unión Europea (UE)39, con presiones derivadas de la extracción excesiva, las actividades agrícolas y la urbanización. A pesar de estar designados según el Anexo 1 de la Directiva de Hábitats, es más probable que se encuentren en un estado 'pobre' o 'malo' que el río promedio en Inglaterra y Gales38. Los arroyos de tiza en la pendiente de inmersión del Área de Excepcional Belleza Natural de Chilterns (AONB) tipifican los problemas que enfrentan muchos ríos del Reino Unido que se encuentran en áreas de rápida urbanización, donde los efluentes tratados comprenden una alta proporción del flujo total del río. Además, el cambio climático amenaza la resiliencia de estos ecosistemas fluviales40. Bajo escenarios de cambio climático de veranos más cálidos y secos, la proporción de efluentes tratados en aguas subterráneas en estos sistemas puede aumentar aún más. Además, los aumentos previstos en la frecuencia de lluvias intensas pueden ejercer una presión adicional sobre las obras de tratamiento de aguas residuales que reciben agua de las redes de alcantarillado combinado, lo que lleva a eventos de descarga de tanques de tormenta más frecuentes, modificando aún más la calidad del agua. Tales posibilidades nos brindan un impulso adicional para desarrollar medios para comprender la importancia de las diferentes contribuciones (naturales y humanas) a los patrones de calidad del agua en los ríos urbanizados. Entre estas contribuciones, la gestión de aguas residuales se encuentra entre los problemas más urgentes para la calidad del agua41,42, en particular durante situaciones de bajo caudal.

Finalmente, nuestra investigación también se relaciona con los esfuerzos de ciencia ciudadana que están ganando prominencia e interés en la literatura académica debido a las oportunidades para recopilar conjuntos de datos que quizás no hubieran sido posibles sin el apoyo local y público. Estos grandes conjuntos de datos son fundamentales para habilitar cualquier aplicación de aprendizaje automático. Además, los científicos ciudadanos promueven el tema en la comunidad local y, por lo tanto, aumentan la conciencia, en particular sobre cuestiones ambientales43,44.

Aquí, nos enfocamos en el río Chess, que es una cuenca piloto para 'The Smarter Water Catchment Initiative' creada por Thames Water, que tiene como objetivo mejorar la gestión de cuencas a través de proyectos de asociación que abordan múltiples desafíos y adoptan la ciencia ciudadana. La iniciativa nos ha ofrecido la oportunidad de recopilar una serie temporal a largo plazo de temperatura y conductividad eléctrica en intervalos de quince minutos utilizando sensores mantenidos por científicos ciudadanos. En este artículo, la atención se centra en las variaciones en las series temporales de temperatura y conductividad eléctrica (como indicador del total de solutos disueltos) porque estos son parámetros de la calidad del agua que pueden verse alterados por factores antropogénicos con efectos importantes en otros procesos ecológicos críticos como el metabolismo26, 45 y porque son baratos y fáciles de monitorear para los grupos de Ciencia Ciudadana.

Nuestro objetivo general es demostrar el uso de herramientas de aprendizaje automático, en particular GAM, árbol potenciado y análisis SHAP, para analizar los patrones espacio-temporales de temperatura y conductividad eléctrica que surgen de la escorrentía urbana puntual y difusa en un río alimentado por aguas subterráneas. Usamos estas herramientas de aprendizaje automático para descubrir la influencia de un tratamiento de aguas residuales en los patrones espacio-temporales observados. Finalmente, a la luz de nuestros hallazgos, evaluamos las formas en que los conjuntos de datos de conductividad eléctrica como el nuestro podrían resultar útiles para los grupos de ciencia ciudadana que exploran problemas de calidad del agua en ríos urbanizados.

Nuestro período de tiempo de monitoreo cubre un período de sequía con flujos excepcionalmente bajos (septiembre de 2019) y bajos niveles de agua subterránea en la cuenca; aumentando a flujos excepcionalmente altos en febrero / marzo de 2020 a medida que los niveles de agua subterránea aumentaron en respuesta a las altas precipitaciones totales de otoño e invierno en 2020, acompañadas de eventos de lluvia de alta intensidad. Los niveles de las aguas subterráneas y los ríos muestran un claro ciclo estacional en respuesta a los cambios en los patrones de lluvia en la cuenca (Fig. 1).

Gráficos de series temporales de (a) Precipitación total diaria (Chenies, estación EA); (b) Nivel de agua subterránea (Ashley Green, estación EA); y (c) el nivel del río Chess en Rickmansworth del 1 de junio de 2019 al 1 de junio de 2020 (estación de medición EA)46.

La dinámica estacional también se observa en el conjunto de datos de conductividad eléctrica en los sitios aguas abajo de Chesham WWTW (LP y WB); consulte también Métodos para un mapa. En estos sitios, la conductividad eléctrica es más alta mientras los niveles de las aguas subterráneas y los ríos son bajos, y disminuye una vez que aumentan los niveles de las aguas subterráneas y los ríos (Fig. 2a), mientras que no hay un patrón estacional obvio en la conductividad eléctrica en los sitios aguas arriba de la EDAR (BH y LC). La temperatura del agua del río muestra una fuerte señal estacional en todos los sitios, con temperaturas más altas del agua en el verano (julio a septiembre de 2019) que disminuyen durante el otoño a un mínimo de invierno y luego aumentan nuevamente en la primavera (Fig. 3a). Si graficamos una semana de datos de conductividad eléctrica (Fig. 2b), también podemos observar ciclos diarios en la conductividad eléctrica aguas abajo de la WWTW que no son observables en las ubicaciones aguas arriba (Fig. 2b). La temperatura del agua del río también exhibe una marcada variación diaria en todos los sitios (Fig. 3b).

Serie temporal de conductividad eléctrica (a) Junio ​​2019 a 2020; y (b) del 23 de agosto al 30 de agosto de 2019.

Serie temporal de temperatura (a) junio de 2019 a 2020; y (b) del 23 de agosto al 30 de agosto de 2019.

La serie de tiempo se puede analizar más sistemáticamente a través de su PDF (extraído de histogramas), para mostrar las diferencias generales entre los sitios (Fig. 4), con parámetros estadísticos importantes resumidos en la Tabla 1. La conductividad eléctrica promedio es más alta en la ubicación 2 km aguas abajo de el WWTW (734 \(\rm{\mu S cm^{-1}}\) en LP) y está 5 km más abajo río abajo (648 \(\rm{\mu S cm^{-1}}\) en WB). Esto contrasta con una conductividad eléctrica más baja aguas arriba de la EDAR (565 y 575 \(\rm{\mu S cm^{-1}}\) en LC y BH respectivamente). Los conjuntos de datos de conductividad eléctrica no siguen distribuciones gaussianas y, en cambio, muestran colas pesadas, especialmente aguas arriba de la WWTW, donde la curtosis \(\kappa >3=\kappa _\text {Gaussian}\)47. Por el contrario, la temperatura del agua del río muestra un aumento gradual en los valores medios a medida que aumenta la distancia río abajo desde Chesham, con una diferencia de \(1.1^{\rm{\circ } C}\) entre BH y WB, y curtosis \(\kappa <3\).

Histogramas normalizados de (a) conductividad eléctrica; y (b) temperatura para todas las ubicaciones de los sensores. Tenga en cuenta la escala logarítmica en el eje y, que resalta las colas pesadas en BH.

Tenga en cuenta que el período de medición incluye la primavera de 2020, es decir, el inicio de la pandemia de Covid-19 en Gran Bretaña. Al analizar los datos, encontramos impactos pequeños pero no significativos del bloqueo de marzo en el Reino Unido; consulte el código para obtener más detalles.

Observamos una clara alineación entre la descarga de efluentes tratados de las obras de tratamiento de aguas residuales (EDAR) y la conductividad eléctrica del agua del río (Fig. 5). Para tener en cuenta el tiempo de retraso entre la descarga de la WWTW que se registra en la planta y el agua que llega a nuestros sensores aguas abajo en los sitios LP y WB, cambiamos las mediciones de conductividad eléctrica del agua del río unas 2,5 y 8,5 horas respectivamente.

Serie temporal normalizada de descarga de efluentes tratados y conductividad eléctrica (EC) de las obras de tratamiento de aguas residuales (WWTW). La EC se midió en LP y WB y se desplazó 2,5 y 8,5 horas respectivamente para tener en cuenta el tiempo de demora de la descarga del tratamiento de aguas residuales para llegar al sitio del sensor.

Para cuantificar aún más la relación entre la descarga de efluentes tratados de la WWTW y EC, realizamos un análisis de transformada de Fourier para exponer las principales frecuencias presentes en el sistema (Fig. 6). Comparamos los análisis de Fourier de la descarga de efluentes tratados con el análisis de Fourier de la CE del agua del río en los cuatro sitios de medición. En particular, tanto la descarga de WWTW como la conductividad eléctrica en las dos ubicaciones aguas abajo (LP y WB) muestran picos pronunciados en frecuencias de 24, 12, 8 y 6 horas, mientras que no observamos ningún comportamiento cíclico de este tipo en LC o BH.

Análisis de Fourier de los vertidos de efluentes tratados y CE de las obras de tratamiento de aguas residuales. Trazamos las amplitudes de Fourier tanto de la conductividad eléctrica (EC) como de la descarga de las obras de tratamiento de aguas residuales (WWTW) en todos los sitios. Observamos picos de frecuencia relevantes a las 24, 12, 8 y 6 horas en la descarga de WWTW, así como en la conductividad para LP y WB.

A continuación, buscamos dos enfoques basados ​​en datos para describir la conductividad eléctrica (EC) como una variable objetivo (y) caracterizada por características \(p=7\): dos variables locales: temperatura, pH (variables del sensor local) y cinco variables globales. variables: pluviometría, nivel del río y sellos de tiempo, desglosados ​​en mes, día y hora. Para todas las series temporales, usamos datos desde el 1 de junio de 2019 hasta el 1 de junio de 2020, eliminando las entradas de NaN cuando es necesario, luego realizamos un GAM y un análisis de árbol potenciado, consulte también Métodos. Tenga en cuenta que el nivel del río en todos los sitios utiliza los valores registrados en Rickmansworth, que se encuentra varios kilómetros río abajo de todos los sitios de medición. Más tarde, también consideramos una ejecución de modelo en la que alineamos la serie de tiempo local de un sensor con la estación en Rickmansworth.

Realizamos un análisis GAM (modelo aditivo generalizado) en todos los sitios, pero aquí nos enfocamos en las dos ubicaciones aguas abajo, mientras que los resultados para las dos ubicaciones aguas arriba se proporcionan en el Suplemento. Las características más importantes, basadas en la magnitud de sus splines contribuyentes, son el valor de pH y los niveles de los ríos, ambos correlacionados negativamente con la conductividad eléctrica (Fig. 7). La desviación entre el modelo y el conjunto de prueba es \(\text {SMAPE}\approx 1...2\%\), donde SMAPE representa el error porcentual absoluto medio simétrico48.

Resultados del análisis GAM para LP (a) y WB (b). Splines de mejor ajuste de las diferentes características \(x_{i}\) y su influencia en la conductividad eléctrica (EC) en el enfoque GAM totalmente ajustado. La curva azul ofrece el mejor ajuste y las líneas discontinuas rojas envuelven un único intervalo de confianza (\(68\%\) suponiendo una incertidumbre gaussiana subyacente). Finalmente, informamos el error porcentual absoluto medio simétrico (SMAPE)48 cuando el modelo se aplica al conjunto de prueba previamente retenido.

Luego aplicamos un enfoque de árbol potenciado, usando SHAP para interpretar los resultados. Primero, analicemos cómo se obtiene una explicación individual (Fig. 8): el "valor base" (conductividad media para LP) de aproximadamente 723 \(\rm{\mu S/cm}\) se altera en estos datos específicos. señalar por el impacto positivo de la función "día" (qué día de la semana), mientras que "mes", "nivel del río", "temperatura" y "hora" empujan la predicción a un valor más bajo. Por lo tanto, el modelo predice un valor de 662,7 \(\rm{\mu S/cm}\), siendo el mes la característica más influyente.

Explicación de los resultados del árbol potenciado a través de SHAP. A partir de un valor base (aquí aproximadamente 723), cada característica empuja la predicción del valor de conductividad eléctrica a valores más bajos (azul) o más altos (rojo) en relación con el valor base (promedio del conjunto). Aquí, explicamos una medición de EC en el sitio de medición de LP a través de SHAP.

Continuamos con un estudio más sistemático, clasificando el impacto de cada característica en la predicción, pasando así de una única explicación local a las propiedades del modelo global37. Aquí, el nivel del río, la temperatura, el pH y el tiempo (mes u hora) se encuentran entre las características descriptivas más importantes (Fig. 9). Como antes, los valores negativos de SHAP empujan la predicción de conductividad eléctrica hacia cantidades más bajas, mientras que los valores positivos empujan la predicción a EC más altas, lo que indica valores de soluto disuelto total más altos. Los colores indican el valor de la característica, yendo de alto (rojo) a bajo (azul). De este modo, obtenemos aquí una primera impresión de las dependencias: la característica del nivel del río es principalmente roja para valores negativos y azul para valores SHAP positivos, es decir, está negativamente correlacionada con la conductividad. Finalmente, calculamos la desviación entre el modelo y el conjunto de prueba como \(\text {SMAPE}\approx 0.2...0.4\%\).

Clasificación de características del árbol potenciado a través de SHAP. Las características están ordenadas por su importancia en la predicción de desviaciones de la CE media para LP (a) y WB (b), véase también la Fig. 8. Al igual que en el enfoque GAM, informamos el error porcentual absoluto medio simétrico (SMAPE) de la modelo cuando se aplica al conjunto de prueba.

Para investigar cómo contribuye cada característica al modelo, analizamos gráficas de dependencia parcial de las tres características más importantes; nivel del río, mes y temperatura del agua para LP y nivel del río, pH y hora del día en WB (Fig. 10). En cada gráfica de dependencia parcial, el color muestra los valores de la característica de interacción que explica la mayor parte de la variación observada (en la (Fig. 10a el mes). Observamos consistentemente una relación negativa entre la conductividad eléctrica y el nivel del río (Fig. 10a, e), así como la conductividad eléctrica y el valor de pH (Fig. 10d), es decir, un nivel de río más alto o un valor de pH conducen a una predicción de EC más baja. Tenga en cuenta que todas las gráficas usan un código de colores para mostrar una característica secundaria que explica la mayoría de las variaciones de la característica principal de predicción. Entonces, podemos observar que los niveles bajos del río en los meses 8 a 12 (agosto a diciembre) están asociados con la conductividad eléctrica más alta del agua del río en LP (Fig. 10a). En WB, los valores más altos de conductividad eléctrica en el agua del río son asociado con un pH bajo de 7.4 a 7.8 durante los meses 8 a 12 (agosto a diciembre). Además, hay tendencias temporales interesantes en las características de la hora y el mes. Por ejemplo, en WB las tardes (13:00 a 16:00) fueron caracterizado por una conductividad eléctrica más baja en el agua del río en momentos en que el pH tendía a ser más alto (7.8 a 8.1). La clasificación de características y los gráficos de dependencia parcial para los sitios upstream se muestran en el Suplemento.

Gráficas de dependencia parcial del árbol potenciado por EC para LP (ac) y WB (df). Trazamos las tres características más importantes de ambos sitios de medición aguas abajo. Los colores (y el eje del lado izquierdo) resaltan las interacciones de segundo orden entre la característica trazada y una característica secundaria.

Ampliando los resultados obtenidos anteriormente, incorporamos tres nuevas características: El caudal total del río, el caudal total de la EDAR y la fracción de EDAR (relación entre el caudal EDAR y el caudal total), ajustando el tiempo de retardo entre las diferentes estaciones de medida (ver Suplementos para detalles). Destacamos que la incorporación de estas características útiles adicionales mejora el rendimiento del modelo, consulte la Fig. 11. En particular, las características más importantes, el nivel del río y el mes siguen siendo importantes en este conjunto de características ampliadas. Además, la dependencia parcial (Fig. 11b) del nivel del río permanece casi inalterada al agregar una nueva característica. Finalmente, tenga en cuenta que el valor de EC dentro del modelo depende casi linealmente de la fracción de flujo atribuida a la WWTW (Fig. 11c), muy en línea con la alineación en el espectro de Fourier y la serie de tiempo observada anteriormente: una descarga de WWTW más alta indica una mayor CE. Esta dependencia lineal es mucho más clara en el modelo en comparación con un diagrama de dispersión simple.

Clasificación de características y gráficas de dependencia parcial del modelo EC extendido en el sitio de LP. Graficamos la clasificación de características (a), la característica más importante (b) y la dependencia de la fracción de flujo de la WWTW (c). Tenga en cuenta que el intercambio de aguas superficiales y aguas subterráneas en el río entre la WWTW y el sitio de la estación de medición puede generar un valor para la fracción WWTW \(> 1\).

Habiendo analizado la CE en detalle, investigamos la dependencia de la temperatura a continuación. Utilizando el conjunto de datos ampliado (es decir, incluidos los flujos absolutos y la fracción WWTW) logramos muy buenos ajustes, consulte la Fig. 12: \(\text {SMAPE}\approx 0.5\%\) desviación en promedio. Al igual que en el análisis de EC, el nivel total del río ocupa un lugar muy alto en nuestra lista de características, pero el mes se clasifica aún más alto, lo que indica la fuerte dependencia estacional de la temperatura. Si bien la fracción WWTW no está clasificada entre las tres características principales aquí, las ligeras variaciones de los hiperparámetros conducen a un reordenamiento de los rangos de características (consulte el Código para obtener más detalles) y la dependencia de la temperatura en la función de fracción WWTW sigue siendo sólida. Un aumento en la fracción WWTW va acompañado de un aumento en la temperatura. En el modelo que se muestra aquí, la descarga elevada de la WWTW puede influir en la predicción de la temperatura hasta \(1^{\rm{\circ }}C\) cuando los niveles del río están en su punto más bajo (puntos de datos azules, Fig. 12c). Cuando los niveles de los ríos son altos (puntos de datos de rojo a morado, Fig. 12c), la fracción WWTW es baja y hay menos efecto sobre la temperatura.

Análisis de temperatura del sitio de LP. Graficamos la clasificación de características (a), la característica más importante (b) y la dependencia de la fracción de flujo de la WWTW (c).

Las contribuciones de flujo al río desde la WWTW en Chesham fluctúan de 40 a 70\(\%\) dependiendo de los niveles de agua subterránea y de los impactos a corto plazo de los eventos de lluvia. Esta importante contribución de la fuente puntual al flujo del río también da lugar a una conductividad eléctrica media significativamente mayor en las aguas superficiales aguas abajo del emisario de la EDAR (Fig. 4a, Tabla 1). Por lo tanto, este estudio proporciona más evidencia del papel que desempeñan los aportes de agua de tratamiento de aguas residuales tratadas en la causa de una conductividad eléctrica elevada en tramos de ríos urbanizados18,19,20,21. Aunque el emisario de la WWTW es una fuente puntual de solutos para el sistema del río, la WWTW recibe agua de un sistema de alcantarillado combinado que comprende efluentes domésticos e industriales junto con la escorrentía de las carreteras de fuentes difusas, como es común en Inglaterra. Por lo tanto, la composición de solutos en el efluente tratado de la EDAR variará dependiendo de las actividades humanas y de la lluvia. Además, la red de alcantarillado contribuyente está sujeta al ingreso de aguas subterráneas durante los períodos de niveles elevados de aguas subterráneas (por ejemplo, de marzo de 2020 en adelante), lo que se suma a la lista de factores que controlan la conductividad eléctrica del efluente. Sin embargo, a pesar de estas causas potenciales de variaciones en la conductividad eléctrica en el efluente de la WWTW (la compañía de agua no controla este determinante), sí vemos tendencias temporales consistentes en la conductividad eléctrica fluvial que surge de esta contribución de fuente puntual al río.

En un sistema fluvial natural, el flujo base se considera relativamente alto en EC porque el agua subterránea es rica en solutos en comparación con los componentes de flujo rápido del hidrograma, que están dominados por la lluvia y los flujos subterráneos poco profundos49. En este sistema alimentado por agua subterránea, las variaciones estacionales y supraanuales en el nivel y la descarga del río están controladas principalmente por el nivel del agua subterránea (Fig. 1). Observamos que la CE permanece estable durante todo el año en nuestro sitio de manantial de agua subterránea (LC) aguas arriba de la WWTW, lo que indica poca variación en la CE que surge de las profundidades cambiantes o las fuentes de agua subterránea (Fig. 2a, Tabla 1). Nuestro sitio urbano aguas arriba (BH) tiene una señal EC más variable. Esta variabilidad surge de los aportes de agua de lluvia al canal debido a la rápida escorrentía urbana, que provoca fuertes caídas en la CE en respuesta a eventos de lluvia de alta intensidad (Fig. 2a, Tabla 1). Sin embargo, las mayores variaciones en la CE se observan en los sitios aguas abajo de la EDAR. En estos sitios (LP y WB) la influencia del nivel del río y la fracción del efluente de la DWW en los ciclos estacionales de la CE son claras, registrándose la CE más alta cuando los niveles del río están en su punto más bajo (Fig. 10), y la contribución del efluente de la DDA al caudal base es el más alto (Fig. 11b,c).

No solo hay cambios estacionales marcados en la CE, sino también patrones marcados en escalas de tiempo más cortas y de 24 horas causadas por cambios en la descarga de efluentes tratados de la WWTW (Figs. 5, 6c, d, 10f). La EDAR tiene dos períodos de máxima descarga de efluentes; a las 13:00 a 14:00 GMT y de 21:00 a 22:00 GMT asociado con patrones en las actividades domésticas humanas en la cuenca. Esta firma de conductividad eléctrica de estos picos de actividad se atenúa aguas abajo, pero sigue siendo observable 5 km aguas abajo del emisario; e incluso cuando los niveles de los ríos son altos durante la primavera (febrero a mayo de 2020). Esta 'firma' se puede usar para estimar un tiempo promedio de viaje por agua o la velocidad entre sitios. El tiempo aproximado de viaje del agua desde la PTAR a LP y WB es de 2,5 y 8,5 horas respectivamente. Por lo tanto, las condiciones diurnas (09:00 a 17:00) en el río en WB corresponden a un período de aportes diarios más bajos de la WWTW.

Aquí consideramos si los cambios diarios en la conductividad eléctrica podrían medirse en otros ríos urbanizados en el Reino Unido y cuán transferibles podrían ser nuestras observaciones. En este sentido, un parámetro útil a considerar es el 'factor de dilución', que se define como la relación entre el flujo del río en la salida de la cuenca y el efluente total de aguas residuales domésticas50. El factor de dilución se utiliza en las evaluaciones de riesgos ecológicos según la legislación de la UE para predecir el "peor caso de exposición" de las aguas superficiales a los productos químicos de los efluentes tratados51. Para estos análisis se utiliza un factor de dilución fijo de diez. Sobre la base de los datos de flujo de efluentes tratados de Chesham y el flujo del río en la estación de medición de Rickmansworth, estimamos un factor de dilución medio de 2,67 durante nuestro estudio, con un mínimo de 0,87 durante el período de sequía al comienzo de nuestro estudio y un máximo de 6,81 en febrero/marzo de 2020. A lo largo de todo este período, se observaron ciclos diurnos de conductividad eléctrica en el río.50 estiman que el 25\(\%\) de los ríos del Reino Unido tienen un factor de dilución medio de \(< 6,26\), y estos ríos se encuentran principalmente en regiones densamente pobladas como el sureste de Inglaterra. Sobre esta base, predecimos que los cambios diurnos en la conductividad eléctrica podrían observarse en muchos ríos de tierras bajas del Reino Unido, aunque estos ciclos pueden verse complicados por el efecto de más de un tratamiento de aguas residuales aguas arriba de una estación de medición del río. No existe una revisión exhaustiva de los factores de dilución en los ríos europeos, pero un análisis reciente de grandes WWTW alemanes de tamaño \(> 10,000\) equivalentes de población ha sugerido que el 60\(\%\) de los factores de dilución caen por debajo de 10, lo que sugiere que los cambios diurnos en la conductividad eléctrica podría ser más ampliamente observable52.

Los gráficos de dependencia parcial del análisis de árbol potenciado también nos permiten considerar la relación entre la proporción de flujo de la WWTW (usando la conductividad eléctrica como nuestro proxy) y el pH en WB. La Figura 10e muestra que los períodos de mayor contribución de la WWTW al caudal total del río están asociados con las condiciones de pH más bajas. La Figura 10f indica que las condiciones diurnas en el río en WB (09:00-17:00), cuando la contribución del flujo de la EDAR es más baja, están asociadas con las condiciones de pH más altas. Durante las horas del día, la fotosíntesis también dará lugar a agua de río más alcalina, pero este análisis sugiere que una combinación de fotosíntesis y efluentes tratados podría estar aumentando la amplitud del ciclo de pH en el río.

Finalmente, el análisis también nos permite desentrañar las características que controlan la temperatura del agua del río. Los análisis SHAP confirman la importante interacción previamente conocida entre la estación y el nivel del río en la temperatura53. Por ejemplo,54 han utilizado previamente la temperatura del aire y el nivel del agua para predecir los cambios horarios en la temperatura del agua utilizando un enfoque de modelado de redes neuronales artificiales. Nuestro modelo también muestra que la fracción de flujo de la WWTW aguas arriba se correlaciona positivamente con un cambio en la temperatura del agua del río de ca. 1\(\rm{^{o}C}\) durante los períodos de niveles bajos del río que justifican una mayor investigación en esta área. Especialmente dado que las temperaturas del agua en verano durante condiciones de flujo bajo excedieron los 20 \(\rm{^{o}C}\); temperaturas que pueden afectar el éxito del reclutamiento de salmónidos como la trucha marrón, Salmo trutta, y el tímalo europeo, Thymallus thymallus55. Las obras de tratamiento de aguas residuales son una fuente de agua caliente que ha recibido poca atención hasta la fecha, pero un análisis a escala nacional del Reino Unido realizado por56 ha demostrado que existe la posibilidad de recuperar el calor de las obras de tratamiento de aguas residuales para ayudar a cumplir los objetivos de cambio climático, con el beneficio adicional de reducir los impactos ambientales en los ríos. Nuestro análisis indica que una opción de mitigación como la recuperación de calor de la descarga de efluentes tratados puede beneficiar a los arroyos calcáreos, como el río Chess, que reciben una gran proporción de su flujo de efluentes tratados. Esto es especialmente importante en un momento en que se prevé que el crecimiento de la población aumente el volumen de efluentes tratados que llegan al río diariamente.

Tanto el análisis GAM como el SHAP mostraron una buena concordancia con respecto a la influencia de las diferentes variables en la conductividad eléctrica. Por ejemplo, ambas técnicas demostraron que el pH y el nivel del río estaban negativamente correlacionados con la conductividad eléctrica. Sin embargo, el enfoque SHAP logró una mejora de casi un orden de magnitud en el rendimiento del modelo en comparación con el GAM medido por el error porcentual absoluto medio simétrico (\(\text {SMAPE} =0.2\) y 1.5 respectivamente). Críticamente, el análisis de árbol potenciado es fácil de visualizar e interpretar utilizando el análisis SHAP, y el enfoque de árbol de regresión permite considerar interacciones variables, mientras que el enfoque GAM asume variables independientes. Además, el enfoque de árbol potenciado se ocupa de la no linealidad y puede funcionar bien en datos tabulares31. Un enfoque alternativo podría ser el de las redes neuronales, pero por lo general no permiten una interpretación tan buena como el enfoque SHAP que se ilustra aquí57.

Aquí, utilizamos paquetes de Python y, en particular, la idea del aprendizaje automático automatizado58, con la esperanza de hacer que estas técnicas de aprendizaje automático sean más fáciles de probar para una amplia comunidad de investigación. Si bien el análisis a través de árboles potenciados también está disponible en R59, por ejemplo, a través del paquete caret60, aún no está disponible una interpretación detallada del modelo derivado, como se hace aquí a través de valores SHAP, pero podría incluirse en el futuro.

Los sensores de conductividad eléctrica 'móviles' de bajo costo se pueden mover alrededor de una cuenca para ayudar a investigar patrones espaciales en los contaminantes. Estos sensores podrían usarse para ayudar a identificar fuentes potenciales de contaminación debido a conexiones de alcantarillado incorrectas e integrarse como una herramienta en 'Outfall Safaris' (https://catchmentbasedapproach.org/learn/outfall-safari-guide/) para identificar ubicaciones caracterizado por un alto total de solutos disueltos dignos de mayor investigación. Las mediciones de la conductividad eléctrica podrían combinarse con el oxígeno disuelto para vincular las mediciones de la capacidad de dilución con la función ecológica y el estado ecológico en virtud de la Directiva marco del agua.

Aquí también mostramos las ventajas del monitoreo de alta frecuencia de conductividad eléctrica para grupos de ríos. El monitoreo de alta frecuencia de los determinantes de la calidad del agua es una práctica cada vez más común para los reguladores y científicos en cuencas urbanizadas20,49, lo que brinda información importante sobre las causas de las variaciones temporales en la calidad del agua61. Los avances recientes en las tecnologías de sensores que utilizan los enfoques de Internet de las cosas (IoT)62 están haciendo que el monitoreo de alta frecuencia de la conductividad eléctrica y la temperatura sea una herramienta de investigación rentable para los grupos de ciencia ciudadana y la investigación participativa.

La comprensión de los ciclos diurnos en la calidad del agua debería ser importante para los grupos de ríos. La variación diaria cíclica en los datos de conductividad eléctrica podría usarse como base para planificar campañas de monitoreo de la calidad del agua urbana. Dicha información podría dictar cuándo concentrar la actividad y el esfuerzo de muestreo durante un ciclo diurno para examinar los posibles mejores y peores escenarios con respecto a las concentraciones químicas que surgen de las entradas de fuentes puntuales (por ejemplo, nutrientes y productos farmacéuticos). Comprender cómo se atenúa la señal de conductividad eléctrica aguas abajo también permitiría a los científicos ciudadanos identificar los tiempos de muestreo óptimos en diferentes puntos aguas abajo de una entrada de fuente puntual. Estos tipos de análisis podrían integrarse en los conjuntos de herramientas que actualmente están desarrollando iniciativas como CaBa en el Reino Unido para ayudar a los grupos a priorizar los planes de acción para sus ríos junto con las compañías de agua y los reguladores.

Las actividades humanas están aumentando las concentraciones de solutos disueltos totales en las aguas dulces de todo el mundo. Aunque gran parte de la atención se centra actualmente en los efectos sobre la salud humana (p. ej., umbrales de aguas subterráneas de 1880 \(\rm{\mu S cm^{-1}}\) para las áreas protegidas de agua potable designadas en virtud de la Directiva Marco del Agua) y el riego, los efectos ecológicos ahora están recibiendo más atención22, junto con recomendaciones para desarrollar criterios ecológicos para iones específicos y sus mezclas. Por ejemplo, las buenas prácticas futuras pueden implicar la reducción de las cargas de sal mediante la minimización de la descarga de sales en fuentes puntuales a las aguas dulces a través de la extracción de recursos22. Los cambios observados en la conductividad eléctrica en el río Chess, aunque es poco probable que representen un riesgo ecológico per se, serán indicativos de la carga cambiante de productos químicos derivados de los efluentes en el río63. Actualmente no existen sensores in situ para medir continuamente estos productos químicos emergentes a alta frecuencia y, por lo tanto, la conductividad eléctrica podría considerarse como un indicador al desarrollar criterios de riesgo para ríos urbanizados49.

Los cambios en la conductividad eléctrica también surgen, en parte, debido a variaciones en las concentraciones de aniones como cloruro61, fosfato y nitrato en el río, y sugieren que se justifica una investigación más detallada de las variaciones de alta frecuencia en estos aniones para mejorar precisión de los cálculos de carga. Comprender cómo estos ciclos diurnos de estos productos químicos varían con los cambios estacionales en la descarga también es fundamental para comprender la posible influencia general de una descarga de fuente puntual particular en la función biológica del sistema fluvial. Aunque se ha demostrado que el impacto del efluente tratado en la función de la corriente es marcado en regiones semiáridas y mediterráneas64,65,66, nuestros datos demuestran que la capacidad de dilución limitada también podría significar que el efluente tratado tiene una influencia crítica en el ciclo biogeoquímico de la corriente en regiones templadas. , arroyos urbanizados.

Los análisis SHAP, un método del dominio del aprendizaje automático interpretable (IML), han abierto un modelo de caja negra para proporcionar información útil sobre los factores interdependientes que controlan los ciclos de conductividad eléctrica y temperatura en un río urbanizado. Estos análisis nos han permitido demostrar que la fracción del efluente de la WWTW que constituye el flujo total de la corriente es una variable crítica que se alinea con los ciclos estacionales y diurnos de conductividad eléctrica y temperatura en esta corriente de tiza urbanizada. Dado que los factores de dilución asociados con los efluentes tratados en el río Chess son comparables a muchos otros ríos en Inglaterra y Gales, planteamos la hipótesis de que las mediciones de conductividad eléctrica baratas y de alta frecuencia podrían ayudar a explorar la influencia de los WWTW en otros sistemas fluviales urbanizados. También hemos utilizado este análisis para demostrar la influencia de un WWTW en la temperatura del agua del río, destacando que en este caso el WWTW está asociado con un aumento de 1 \(\rm{^oC}\) en la temperatura del agua, a una distancia de 2 km. de la salida del efluente tratado durante las condiciones de flujo más bajas. Además, otros grupos de ciencia ciudadana podrían usar mediciones de conductividad eléctrica económicas y rentables para dirigir las actividades de muestreo de agua en ríos urbanos. Utilizando mediciones simultáneas de la conductividad eléctrica aguas arriba y aguas abajo, es posible que puedan determinar los tiempos óptimos para medir diferentes parámetros ecológicos y de calidad del agua, y cuantificar los tiempos de viaje del agua a través de los sistemas fluviales urbanos.

El río Chess (8 millas de longitud, área de captación 105 \(\rm{km^2}\)) es uno de los nueve arroyos de tiza de bajo gradiente que drenan la pendiente de inmersión del Área de belleza natural excepcional de Chilterns (AONB), consulte Fig. 13 para un mapa. La precipitación anual promedio estandarizada para la cuenca es de 753 mm (1961–1990,46) y el índice de caudal base es de 0,95. La cobertura del suelo en la cuenca es mixta con un 12 % urbanizado, un 18 % de bosques, un 35 % de pastizales y un 35 % de cobertura de tierras cultivables. Las secciones winterbourne (efímeras) del río alrededor de la ciudad de Chesham están urbanizadas y canalizadas con numerosos pozos artesianos además de manantiales de agua subterránea. Aguas abajo de Chesham, el paisaje se vuelve más rural, y el uso de pastizales y tierras de cultivo domina hasta que el río llega a su confluencia con el río Colne en Rickmansworth. El caudal medio anual en la estación de medición de Rickmansworth es de 0,54 \(\rm{m^3s^{-1}}\)46. El efluente tratado de las obras de tratamiento de aguas residuales de Chesham (población equivalente = 37 300; ST1 en la Fig. 13) comprende alrededor del 40 al 70 % del flujo en el río aguas abajo de Chesham, según las condiciones del flujo. ST2 en la Fig. 13 es una pequeña planta rural de tratamiento de aguas residuales con una población equivalente a 50 habitantes.

Mapa que muestra la ubicación de (a) Área Chiltern de excepcional belleza natural (AONB) en el sureste de Inglaterra (b) Río Chess que fluye desde Chilterns AONB; y (c) los cuatro sitios de monitoreo en el río Chess: BH, LC, LP y WB. ST1 y ST2 indican la ubicación de las dos obras de tratamiento de aguas residuales en el río. Mapas creados con datos abiertos de OpenStreetMap disponibles bajo la Licencia de base de datos abierta, consulte67 para obtener más detalles.

Nuestro programa de monitoreo de la calidad del agua fue codiseñado con un grupo de ríos locales (River Chess Association) que quería comprender cómo funciona un tratamiento de aguas residuales local que influye en la calidad del agua en el río Chess. Se instalaron cuatro sondas de calidad del agua Eureka Manta 2 en el río Chess desde abril de 2019 y se programaron para tomar mediciones en intervalos de 15 minutos. Cada sonda estaba equipada con sensores para medir la temperatura del agua, el pH, la conductividad eléctrica, la turbidez y el oxígeno disuelto. La conductividad eléctrica compensada por temperatura (informada como corregida a 25 \(\rm{^{o}C}\)) y los conjuntos de datos de temperatura del agua son el enfoque aquí. Las sondas se equiparon con un brazo limpiador extendido para limpiar los sensores antes de cada medición, y nuestro equipo de científicos ciudadanos las limpió y revisó manualmente cada dos semanas para evitar que se ensucien. La calibración de cada sensor fue revisada mensualmente por el equipo académico. La temperatura del agua y la conductividad eléctrica permanecieron dentro del rango de detección de los sensores durante todo el estudio (– 5 a 50\(\rm{^{o}C}\) para la temperatura del agua y 0 a 100 mS/cm para la conductividad eléctrica).

El programa de Ciencia Ciudadana fue diseñado para investigar la calidad del agua aguas abajo de las cabeceras urbanizadas del río Chess. En consecuencia, el Sensor 1 (BH) se instaló aguas abajo de Chesham (la ciudad en la cabecera del río Chess); El sensor 2 (LC) se instaló en un canal lateral del río Chess dentro de los tramos urbanizados que recibe agua de un pozo artesiano y un manantial natural; El sensor 3 (LP) se instaló aproximadamente 2 km aguas abajo de las obras de tratamiento de aguas residuales de Chesham (WWTW), pero aguas arriba de cualquier otro afluente o manantial importante; y el Sensor 4 (WB) se ubicó 3 km aguas abajo del Sensor 3 para indicar hasta qué punto eran detectables los efectos aguas abajo de Chesham WWTW. Hay numerosos manantiales que aportan agua al río Chess entre los sensores 2 y 3; consulte también la Fig. 13 para ver un mapa.

La precipitación total de quince minutos (Chenies, estación número 278744TP), la descarga del río (estación de medición Rickmansworth número 2859TH) y los datos del nivel del agua subterránea (Ashley Green) se obtuvieron de la Agencia de Medio Ambiente. Los datos de descarga de efluentes tratados de Chesham Wastewater Treatment Works (resolución de 15 minutos) se obtuvieron de Thames Water46. Tenga en cuenta que utilizamos "descarga de efluentes tratados" para medir la cantidad de efluentes finales tratados que se liberan de la planta.

El análisis de datos se llevó a cabo en 12 meses de datos de sensores de 15 minutos (del 1 de junio de 2019 al 1 de junio de 2020). Se derivaron funciones de densidad de probabilidad empíricas (PDF) para la conductividad eléctrica y la temperatura a fin de comparar las propiedades estadísticas resumidas asociadas con los cuatro sitios de monitoreo. Las frecuencias dominantes en los conjuntos de datos de conductividad eléctrica y temperatura se identificaron mediante el análisis de Fourier y se compararon con los patrones cíclicos en la descarga de efluentes tratados por WWTW para probar si la conductividad eléctrica podría actuar como un indicador del dominio de la descarga de WWTW. Se aplicaron GAM y análisis de árbol potenciado por gradiente al conjunto de datos de 12 meses para investigar la influencia de diferentes variables y sus interacciones (tiempo, nivel de agua, pH) en la conductividad eléctrica. Para ejecutar el análisis, mezclamos los datos y los dividimos en un 70 % de entrenamiento y un 30 % de datos de prueba. Finalmente, se aplicó el análisis SHAP a las salidas del árbol potenciado para ayudar a la interpretación detallada de los resultados. Cada uno de los métodos de análisis de datos se describe en detalle en las Secciones a–f a continuación. Tenga en cuenta que todos los datos y el código están disponibles gratuitamente en línea (consulte la declaración de disponibilidad del código). Por lo tanto, alentamos al lector interesado a consultar el código además de las descripciones generales de más alto nivel que se ofrecen aquí.

Funciones de densidad de probabilidad empíricas (PDF) Para evaluar la probabilidad de una determinada observación y, utilizamos funciones de densidad de probabilidad empíricas (PDF). Cada instancia de medición \(y_1\), \(y_2\), \(y_3\), ... \(y_j\), ..., \(y_N\) se agrega en uno de los n contenedores. Cada contenedor i cubre un intervalo \(\left[ y_\text {min}(i),y_\text {max}(i)\right)\), donde tenemos \(y_\text {min}(i+ 1)=y_\texto {máx}(i)\). Después de contar cuántas medidas caen en cada contenedor i, normalizamos por el número total de conteos para que cada contenedor represente una probabilidad p(i) con \(\sum _i p(i)=1\). De este modo, obtenemos un histograma normalizado. Además de este histograma, también mostramos una curva ajustada empíricamente, que es la estimación de la densidad del kernel univariada, es decir, es una función que se aproxima al histograma subyacente como

donde elegimos un kernel gaussiano K. Técnicamente, estimamos y mostramos las densidades empíricas usando el paquete seaborn en Python68.

Análisis de Fourier En muchos sistemas ecológicos, observamos la periodicidad, por ejemplo, en términos de ciclos estacionales o diarios. Para analizar estos ciclos, empleamos el análisis de Fourier, que transforma una serie de tiempo y(t) del dominio del tiempo, es decir, usando el argumento t, al dominio de la frecuencia:

donde i es la unidad imaginaria. La nueva serie \({\tilde{y}}(k)\) es una función de frecuencias k y aplicamos una transformada de Fourier inversa para volver a obtener la serie de tiempo original y(t). El comportamiento cíclico es fácil de analizar usando \({\tilde{y}}(k)\), ya que \({\tilde{y}}(k)\) alcanzará su punto máximo en las frecuencias intrínsecas de la serie de tiempo y(t) . Por ejemplo, una serie de tiempo que es exactamente una función seno con un período de 1 hora conducirá a una función delta de \({\tilde{y}}(k)\) en \(k=(1h)^{-1} \), mientras que una serie temporal realista con varias frecuencias y un ciclo diario pronunciado mostrará un pico finito en \({\tilde{y}}\left( (24h)^{-1}\right)\). Cuanto mayor sea el pico en la transformada de Fourier \({\tilde{y}}(k)\), más dominante es esta frecuencia en la serie de tiempo original y(t).

GAM Como un enfoque posible para derivar cómo las diferentes variables (características) impactan en nuestro objetivo, empleamos modelos aditivos generalizados (GAM)31. Los GAM utilizan splines, es decir, polinomios conectados suavemente por partes, para describir las dependencias locales. Se agregan varios de estos splines para obtener un modelo completo de la relación entre las diferentes cantidades del espacio de estado. En particular, para describir el observable y construimos el siguiente modelo:

donde c es una constante (intersección o sesgo) y \(s_{i}\) son B-splines de tercer orden para cada una de las características \(x_{i}\) y simplemente sumamos todos los términos de spline, lo que lleva a un modelo aditivo. Técnicamente, implementamos GAM mediante el uso del paquete Python pyGAM69 y usamos una división de 70 % de entrenamiento y 30 % de prueba de datos mezclados aleatoriamente. Para mantener la coherencia, utilizamos una cantidad idéntica de splines en todos los sitios, es decir, 10. Se puede lograr un error ligeramente menor ajustando la cantidad de splines en cada sitio, reduciendo aproximadamente el error hasta \(5\%\) .

Una ventaja de GAM es su fácil interpretación. No se necesitan más pasos para obtener dependencias parciales desde un enfoque GAM, simplemente podemos visualizar las splines \(s_{i}\) para ver cómo una característica determinada \(x_i\) influye en nuestro objetivo y.

Árboles potenciados por gradientes Como alternativa a los GAM, también empleamos árboles potenciados por gradientes para describir la interacción de características y las interdependencias. La idea clave es que se utiliza un conjunto de "aprendices débiles", como árboles imparciales pero de alta varianza, para generar un predictor mucho más preciso, idealmente de bajo sesgo y baja varianza. Inicializamos un solo árbol, luego calculamos la pérdida, es decir, el error en su predicción en un conjunto de validación, y calculamos el gradiente de esta pérdida. A continuación, ajustamos un nuevo árbol de regresión en los gradientes. El nuevo predictor se obtiene sumando el árbol recién ajustado con el predictor anterior. Una tasa de aprendizaje \(\eta\) controla cuánto nos movemos a lo largo del gradiente y, por lo tanto, cuánto modifica el siguiente árbol añadido la predicción anterior. Para este predictor actualizado, que consiste en una suma de árboles, nuevamente calculamos la pérdida, el gradiente y realizamos una actualización. Este proceso se repite hasta que se completa un cierto número de iteraciones o se supera un umbral de pérdida.

En el aspecto técnico, Boosted se implementa en Python utilizando LightGBM70 y encontramos hiperparámetros adecuados utilizando FLAML58, es decir, un marco de aprendizaje automático automatizado que explora posibles parámetros automáticamente. Restringimos la exploración de hiperparámetros a 1000 segundos y logramos una alta precisión. Algunas pruebas revelaron que la interpretación de los modelos solo se ve ligeramente influenciada por el cambio del tiempo asignado a la búsqueda de parámetros, por ejemplo, hasta 100 segundos. Por lo tanto, estamos seguros de que los resultados obtenidos y discutidos a continuación son independientes de las soluciones de hiperparámetros específicas empleadas. Permitimos que los hiperparámetros varíen para cada modelo y obtengamos tasas de aprendizaje del orden \(\alpha \sim 0.02...0.05\) y número de hojas \(\sim 300\). Los detalles sobre la implementación están disponibles en el código publicado.

Valores de Shapley A diferencia de los GAM, los árboles potenciados requieren más esfuerzo para permitir una interpretación detallada. Aquí, interpretamos el árbol completamente entrenado aplicando los valores de Shapley57. La idea de los valores de Shapley se origina en la teoría de juegos, donde cuantifica cuánto contribuyó cada jugador de un juego cooperativo al valor ganado. Por lo tanto, una coalición ganadora de jugadores podría dividir las recompensas por ganar un juego de manera justa entre sus jugadores pagando a cada jugador proporcionalmente a lo valiosos que fueron para el éxito.

En el aprendizaje automático, los valores de Shapley responden a una pregunta muy similar: dado un resultado de predicción de un modelo de aprendizaje automático (en nuestro caso, árboles potenciados): ¿Cuánto contribuyó cada característica (en lugar de un jugador) a la decisión alcanzada por el modelo? Más precisamente, el valor de Shapley de la característica i es el impacto de la característica ponderado y sumado sobre todas las posibles combinaciones de características:

donde S es el conjunto de características utilizadas en el modelo y \(x=(x_1, x_2, ..., x_p)\) es el vector de características de la instancia que se debe explicar. Además, p es el número de características y val(S) es la predicción para el objetivo y dadas las características en el conjunto S. Ahora, podemos evaluar la contribución en diferentes coaliciones de características variando qué características entran en S y cuáles están marginadas. . Críticamente, los valores de Shapley tienen varias propiedades deseables, como ser eficientes, simétricos, aditivos e invariantes bajo la adición de una característica ficticia; consulte también57 para obtener más detalles.

Si bien los valores de Shapley suelen ser muy exigentes desde el punto de vista computacional, 36 and 37 introdujeron SHAP (SHapley Additive exPlanations), junto con algoritmos computacionalmente eficientes para calcular valores SHAP para métodos basados ​​en árboles. Similar a los valores de Shapley, SHAP nos dice cuánto contribuye cada característica a una predicción. Específicamente, un valor de SHAP positivo nos dice que una función determinada impulsará la predicción por encima del valor medio, mientras que un valor de SHAP negativo significa que la función generalmente reduce el valor predicho. La magnitud del valor SHAP se puede usar para clasificar las características (importancia de la característica). Finalmente, los diagramas de dependencia parcial se obtienen representando el valor de la característica frente a su contribución SHAP, es decir, representando pares \((\phi (x_i),\phi _i)\) para una característica i dada.

Limpieza de datos Cuando aplicamos el enfoque GAM o el árbol potenciado, confiamos en conjuntos de datos limpios sin espacios o entradas NaN (no un número). Por lo tanto, al preparar el conjunto de datos para la división de prueba de entrenamiento, eliminamos cada fila donde falta al menos una entrada o NaN. Si bien esto reduce los datos disponibles, evitamos imponer cualquier suposición de modelo necesaria para imputar los datos faltantes. Tenga en cuenta que no todos los sitios de medición tienen NaN al mismo tiempo y, como consecuencia, es posible que solo podamos modelar el verano y el otoño en un sitio, mientras modelamos todo el año en otro sitio, lo que lleva a diferentes rangos del "mes". valor. El número total de puntos de datos "limpios" que quedan para los diferentes sitios es de aproximadamente 17000 para LC y BH, 27000 para LP y 18000 para WB, lo que corresponde a algo entre 177 y 288 días totales de datos limpios. La mayoría de estos datos utilizables se encuentran en un período de tiempo largo y continuo.

Finalmente, para el sitio de LC, notamos una compensación sistemática en la conductividad eléctrica a valores más bajos de lo habitual durante un período corto debido a una obstrucción en la cavidad del sensor. Corregimos este desplazamiento aumentando los valores para que coincidan con el siguiente período de tiempo; consulte el código publicado para obtener más detalles.

Los datos del río Chess están disponibles en el siguiente sitio web de ChessWatch https://rhysh.shinyapps.io/ChessWatch/. El código que se utilizó para analizar los datos está disponible en https://osf.io/txjv3/.

Astaraie-Imani, M., Kapelan, Z., Fu, G. & Butler, D. Evaluación de los efectos combinados de la urbanización y el cambio climático en la calidad del agua del río en un sistema integrado de aguas residuales urbanas en el Reino Unido. J. Medio Ambiente. Administrar. 112, 1–9 (2012).

Artículo CAS PubMed Google Académico

Miller, JD & Hutchins, M. Los impactos de la urbanización y el cambio climático en las inundaciones urbanas y la calidad del agua urbana: una revisión de la evidencia relacionada con el Reino Unido. J. Hydrol. Semental regional. 12, 345–362 (2017).

Artículo Google Académico

Miller, JD et al. Evaluación del impacto de la urbanización en la escorrentía pluvial en una cuenca periurbana utilizando cambios históricos en la cubierta impermeable. J. Hydrol. 515, 59–70 (2014).

Artículo ANUNCIOS Google Académico

Escudos, CA et al. Distribución del caudal de la exportación de nitrógeno de fuentes difusas de cuencas urbanas y rurales en la cuenca de la bahía de Chesapeake. Recurso de agua. Res. 44 (2008).

Huang, J., Yin, H., Chapra, SC y Zhou, Q. Modelización de la depresión de oxígeno disuelto en un río urbano en China. Agua 9, 520 (2017).

Artículo CAS Google Académico

Simmons, DL & Reynolds, RJ Efectos de la urbanización en el flujo base de arroyos seleccionados de la costa sur, Long Island, Nueva York 1. JAWRA J. Am. Recurso de agua. Asoc. 18, 797–805 (1982).

Artículo ANUNCIOS Google Académico

Johnson, AC y col. El río británico del futuro: cómo el cambio climático y la actividad humana podrían afectar dos ecosistemas fluviales contrastantes en Inglaterra. ciencia Entorno Total. 407, 4787–4798 (2009).

Artículo ADS CAS PubMed Google Scholar

Lokhande, S. & Tare, V. Tendencias espacio-temporales en el flujo y la calidad del agua: Respuesta del río Yamuna a la urbanización. Reinar. Monitorear Evaluar. 193, 1–14 (2021).

Artículo CAS Google Académico

Mallin, MA, Johnson, VL y Ensign, SH Impactos comparativos de la escorrentía de aguas pluviales en la calidad del agua de un arroyo urbano, suburbano y rural. Reinar. Monitorear Evaluar. 159, 475–491 (2009).

Artículo CAS PubMed Google Académico

Yang, Y.-Y. & Toor, GS Transporte de fósforo impulsado por la escorrentía de aguas pluviales en una cuenca residencial urbana: Implicaciones para proteger la calidad del agua en las cuencas hidrográficas urbanas. ciencia Rep. 8, 1–10 (2018).

Google Académico

Gaafar, M., Mahmoud, SH, Gan, TY y Davies, EG Un marco práctico de evaluación de riesgos basado en gis para la calidad del agua en los sistemas de aguas pluviales. J. Limpio. Pinchar. 245, 118855 (2020).

Artículo CAS Google Académico

Stenstrom, MK y Kayhanian, M. Caracterización del fenómeno de la primera descarga (Representante técnico, División de análisis ambiental del Departamento de transporte de California, 2005).

Peter, KT et al. Más que una primera descarga: los hidrogramas de tormentas de arroyos urbanos demuestran amplias contaminaciones de contaminantes. Reinar. ciencia Tecnología 54, 6152–6165 (2020).

Artículo ADS CAS PubMed Google Scholar

Peters, PE & Zitomer, DH Enfoques actuales y futuros para la gestión del caudal en tiempo húmedo: una revisión. Entorno de agua. Res. 93, 1179–1193 (2021).

Artículo CAS PubMed Google Académico

Lund, A. et al. Impactos a largo plazo de la remediación combinada de desbordamiento de alcantarillado en la calidad del agua y la dinámica de la población de culex Quinquefasciatus, el principal vector urbano del virus del Nilo occidental en Atlanta, GA. Reinar. Res. 129, 20–26 (2014).

Artículo CAS PubMed Google Académico

Crocetti, P. et al. Evaluación validada en toda la cuenca de los desbordamientos de alcantarillado combinado (csos) en una zona costera mediterránea y posibles métodos de desinfección para mitigar la contaminación microbiana. Reinar. Res.196 (2021).

Dittmer, U., Bachmann-Machnik, A. y Launay, MA Impacto de los sistemas de alcantarillado combinado en la calidad de los arroyos urbanos: frecuencia y duración de las concentraciones elevadas de microcontaminantes. Agua12 (2020).

Conway, TM Superficie impermeable como indicador de ph y conductancia específica en la zona costera urbanizada de New Jersey, EE.UU. J. Medio Ambiente. Administrar. 85, 308–316 (2007).

Artículo CAS PubMed Google Académico

Rose, S. Los efectos de la urbanización en la hidroquímica del flujo base dentro de la cuenca del río Chattahoochee (Georgia, EE. UU.). J. Hydrol. 341, 42–54 (2007).

Artículo ANUNCIOS Google Académico

Peters, NE Efectos de la urbanización en la calidad del agua de los arroyos en la ciudad de Atlanta, Georgia, EE. UU. Hidrol. Procesos Int. J. 23, 2860–2878 (2009).

Artículo ADS CAS Google Académico

Moore, J., Bird, DL, Dobbis, SK y Woodward, G. Las contribuciones de fuentes no puntuales impulsan concentraciones elevadas de iones principales y carbono inorgánico disuelto en las cuencas hidrográficas urbanas. Reinar. ciencia Tecnología Letón. 4, 198–204 (2017).

Artículo CAS Google Académico

Cañedo-Argüelles, M. et al. Salvar el agua dulce de las sales. Ciencia 351, 914–916.

Artículo ADS PubMed Google Scholar

Billen, G., Garnier, J., Ficht, A. & Cun, C. Modelado de la respuesta de la calidad del agua en el estuario del río Sena a la actividad humana en su cuenca durante los últimos 50 años. Estuarios 24, 977–993 (2001).

Artículo CAS Google Académico

Abbot, BW y col. Tendencias y estacionalidad de los nutrientes de los ríos en las cuencas agrícolas: 18 años de ciencia ciudadana semanal en Francia. ciencia Entorno Total. 624, 845–858 (2018).

Artículo ADS CAS PubMed Google Scholar

Duan, W. et al. Identificación de tendencias a largo plazo y estacionalidad en datos de calidad del agua de alta frecuencia de la cuenca del río Yangtze, China. PLoS One 13, e0188889 (2018).

Artículo PubMed PubMed Central CAS Google Scholar

Arroita, M., Elosegi, A. & Hall, RO Jr. Veinte años de metabolismo diario muestran la recuperación fluvial después de la reducción de aguas residuales. Limnol. Oceanogr. 64, S77–S92 (2019).

Artículo ADS CAS Google Académico

Schmidt, L., Heße, F., Attinger, S. & Kumar, R. Desafíos en la aplicación de modelos de aprendizaje automático para la inferencia hidrológica: un estudio de caso para inundaciones en Alemania. Recurso de agua. Res. 56, e2019WR025924 (2020).

Artículo ANUNCIOS Google Académico

Hammond, P., Suttie, M., Lewis, VT, Smith, AP y Singer, AC Detección de descargas de aguas residuales sin tratar en cursos de agua mediante aprendizaje automático. NPJ Agua Limpia 4, 1–10 (2021).

CAS Google Académico

Liu, L. et al. Hacia el control integral de la calidad del agua en el lago Taihu: correlación de la clorofila a y los parámetros de calidad del agua con un modelo aditivo generalizado. ciencia Entorno Total. 705, 135993 (2020).

Artículo ADS CAS PubMed Google Scholar

Motevalli, A. et al. Método inverso que utiliza el árbol de regresión potenciado y el vecino más cercano k para cuantificar los efectos de la contaminación por nitratos de fuentes puntuales y difusas en las aguas subterráneas. J. Limpio. Pinchar. 228, 1248–1263 (2019).

Artículo CAS Google Académico

Friedman, J., Hastie, T. y Tibshirani, R. Los elementos del aprendizaje estadístico, vol. 1 (Serie Springer en Estadísticas Nueva York, 2001).

Shwartz-Ziv, R. & Armon, A. Datos tabulares: el aprendizaje profundo no es todo lo que necesita. información Fusión 81, 84–90 (2022).

Artículo Google Académico

Roscher, R., Bohn, B., Duarte, MF y Garcke, J. Aprendizaje automático explicable para conocimientos y descubrimientos científicos. Acceso IEEE 8, 42200–42216 (2020).

Artículo Google Académico

Yang, Y. & Chui, TFM Modelado e interpretación de respuestas hidrológicas de sistemas de drenaje urbano sostenible con métodos explicables de aprendizaje automático. Hidrol. Sistema Tierra ciencia Discusiones 1–41 (2020).

Jiang, S., Zheng, Y., Wang, C. & Babovic, V. Descubriendo mecanismos de inundación en los estados unidos contiguos a través del aprendizaje profundo interpretativo en cuencas representativas. Recurso de agua. Res. e2021WR030185 (2022).

Lundberg, SM y Lee, S.-I. Un enfoque unificado para interpretar las predicciones del modelo. En Avances en sistemas de procesamiento de información neuronal, 4765–4774 (2017).

Lundberg, SM et al. Desde explicaciones locales hasta comprensión global con IA explicable para árboles. Nat. Mach. Intel. 2, 2522–5839 (2020).

Artículo Google Académico

Parkinson, A. WWF: Los arroyos de tiza del estado de Inglaterra (2014).

DMA. "DIRECTIVA 2000/60/CE DEL PARLAMENTO EUROPEO Y DEL CONSEJO de 23 de octubre de 2000 por la que se establece un marco de actuación comunitaria en el ámbito de la política de aguas" o, en definitiva, la Directiva Marco del Agua de la UE. Diario Oficial de las Comunidades Europeas L 327, 1–72 (2000).

Visser, A., Beevers, L. & Patidar, S. El impacto del cambio climático en la respuesta hidroecológica en los arroyos de tiza. Agua 11, 596 (2019).

Artículo Google Académico

Dąbrowska, J., Bawiec, A., Pawęska, K., Kamińska, J. & Stodolak, R. Evaluación del impacto del desvío de efluentes de aguas residuales en la calidad del agua. Polaco J. Environ. Espárrago.26 (2017).

Issa, HM & Alshatteri, AH Impactos de la descarga de aguas residuales de la ciudad de Kalar en la calidad del agua del río Diyala-Sirwan, Irak: evaluación de la contaminación, riesgos para la salud de la contaminación por metales pesados. aplicación ciencia del agua 11, 1–13 (2021).

Artículo CAS Google Académico

Jordan, RC, Gray, SA, Howe, DV, Brooks, WR y Ehrenfeld, JG Adquisición de conocimientos y cambio de comportamiento en programas de ciencia ciudadana. Conservar Biol. 25, 1148–1154 (2011).

Artículo PubMed Google Académico

Bonney, R., Phillips, TB, Ballard, HL y Enck, JW ¿Puede la ciencia ciudadana mejorar la comprensión pública de la ciencia? Comprensión Pública ciencia 25, 2–16 (2016).

Artículo PubMed Google Académico

Pike, A. et al. Pronóstico de las temperaturas de los ríos en tiempo real utilizando un enfoque de dinámica estocástica. Investigación de recursos hídricos 49, 5168–5182 (2013).

Centro NERC de Ecología e Hidrología. Archivo nacional de caudales fluviales 2020: Archivo nacional de caudales fluviales. http://nrfa.ceh.ac.uk (2020). (Consultado el 27 de octubre de 2020).

Schäfer, B., Heppell, CM, Rhys, H. y Beck, C. Las fluctuaciones de las series temporales de calidad del agua en los ríos siguen superestadísticas. iScience24 (2021). https://doi.org/10.1016/j.isci.2021.102881https://www.cell.com/iscience/pdf/S2589-0042(21)00849-X.pdf.

Kreinovich, V., Nguyen, HT & Ouncharoen, R. Cómo estimar la calidad del pronóstico: una derivación motivada por el sistema del error porcentual absoluto medio simétrico (smape) y otras características similares (2014).

Guo, D. et al. Factores clave que afectan la variabilidad temporal en la calidad del agua de los arroyos. Recurso de agua. Res. 55, 112–129 (2019).

Keller, VDJ, Williams, RJ, Lofthouse, C. & Johnson, AC Estimación mundial de las concentraciones en ríos de cualquier sustancia química procedente de las plantas de tratamiento de aguas residuales utilizando factores de dilución. Reinar. Toxicol. química 33, 447–452 (2014).

ECHA. Orientación sobre los requisitos de información y evaluación de la seguridad química: Capítulo r.16: Evaluación de la exposición ambiental. (2016).

Link, M., von der Ohe, PC, Voss, K. & Schafer, RB Comparación de factores de dilución para efluentes de plantas de tratamiento de aguas residuales alemanas en corrientes receptoras con el factor de dilución fijo de la evaluación de riesgos químicos. ciencia Entorno Total. 598, 805–813 (2017).

Artículo ADS CAS PubMed Google Scholar

Zhu, SL & Piotrowski, AP Pronóstico de la temperatura del agua de ríos/arroyos usando modelos de inteligencia artificial: una revisión sistemática. Acta Geophysica 68, 1433–1442 (2020).

Artículo ANUNCIOS Google Académico

Hebert, C., Caissie, D., Satish, MG y El-Jabi, N. Modelado de la temperatura del agua del río por hora utilizando redes neuronales artificiales. Resolución de calidad del agua J. Canadá 49, 144–162 (2014).

Basic, T., Britton, JR, Cove, RJ, Ibbotson, AT & Gregory, SD Funciones de la descarga y la temperatura en el reclutamiento de un pez de agua fría, el tímalo europeo thymallus thymallus, cerca de su límite sur. Ecol. Peces de agua dulce 27, 940–951 (2018).

Wilson, M. & Worrall, F. El potencial de recuperación de calor de las 'aguas residuales': un análisis nacional de las temperaturas de descarga de efluentes de aguas residuales. Reinar. ciencia Agua Res. Tecnología 7, 1760–1777. https://doi.org/10.1039/D1EW00411E (2021).

Artículo CAS Google Académico

Molnar, C. Aprendizaje automático interpretable (Lulu. com, 2020).

Wang, C., Wu, Q., Weimer, M. & Zhu, E. Flaml: Una biblioteca automl rápida y liviana. proc. Mach. Aprender. Sistema 3 (2021).

Slater, LJ y col. Uso de R en hidrología: una revisión de desarrollos recientes y direcciones futuras. Hidrol. Sistema Tierra ciencia 23, 2939–2963 (2019).

Artículo ANUNCIOS Google Académico

Kuhn, M. Construyendo modelos predictivos en R usando el paquete caret. Estado J. suave 28, 1–26 (2008).

Artículo Google Académico

McGrane, SJ et al. Durante un invierno de tormentas en una pequeña cuenca del Reino Unido, las respuestas hidrológicas y de calidad del agua siguen un claro gradiente rural-urbano. J. Hydrol.545, 463–477 (2017).

Artículo ADS CAS Google Académico

Chan, KS et al. Sensores electrónicos de bajo costo para la investigación ambiental: trampas y oportunidades. Progreso Phys. Geografía-Ambiente terrestre. 45, 305–338 (2021).

Munro, K. et al. Evaluación de los impactos combinados de desbordamiento de alcantarillado en la aparición de drogas ilícitas y farmacéuticas a corto plazo en una cuenca fluvial de marea muy urbanizada (Londres, Reino Unido). ciencia Entorno Total. 657, 1099–1111 (2019).

Artículo ADS CAS PubMed Google Scholar

Bernal, S. et al. Las entradas de efluentes de la planta de tratamiento de aguas residuales inducen grandes cambios biogeoquímicos durante caudales bajos en una corriente intermitente, pero pequeños cambios en los patrones día-noche. ciencia Medio ambiente total.714, 136733 (2020). https://www.ncbi.nlm.nih.gov/pubmed/31982751.

Marti, E., Aumatell, J., Gode, L., Poch, M. & Sabater, F. Eficiencia de retención de nutrientes en arroyos que reciben insumos de plantas de tratamiento de aguas residuales. J. Medio Ambiente. Calidad 33, 285–293 (2004).

Arnon, S., Avni, N. & Gafny, S. Absorción de nutrientes y estructura de la comunidad de macroinvertebrados en un arroyo mediterráneo altamente regulado que recibe aguas residuales tratadas. Ciencias acuáticas. 77, 623–637 (2015).

Artículo CAS Google Académico

Colaboradores de OpenStreetMap. OpenStreetMaps. https://www.openstreetmap.org/copyright (2022).

Waskom, ML Seaborn: Visualización de datos estadísticos. J. Software de código abierto. 6, 3021 (2021).

Artículo ANUNCIOS Google Académico

Servén, D. & Brummitt, C. pygam: modelos aditivos generalizados en Python. Zenodo 10 (2018).

Ke, G. et al. Lightgbm: un árbol de decisión de aumento de gradiente altamente eficiente. Adv. Neural. información Proceso. sist. 30, 3146–3154 (2017).

Google Académico

Descargar referencias

Los autores quisieran agradecer a todos los científicos ciudadanos involucrados en el proyecto ChessWatch que desearon permanecer en el anonimato, y a los propietarios que alojaron los sensores. Este proyecto no hubiera sido posible sin su ayuda. También nos gustaría agradecer al Dr. Tom Kelly por su apoyo técnico en el campo. Este proyecto ha recibido financiación del programa de investigación e innovación Horizonte 2020 de la Unión Europea bajo el acuerdo de subvención Marie-Sklodowska-Curie No 840825, la Asociación Helmholtz bajo la subvención no. VH-NG-1727, del Centro para la participación pública de la Universidad Queen Mary de Londres, de una subvención de impacto de políticas de QMUL Research England de 2022 y de Thames Water.

Financiamiento de acceso abierto habilitado y organizado por Projekt DEAL.

Universidad Queen Mary de Londres, Facultad de Ciencias Matemáticas, Mile End Road, Londres, E1 4NS, Reino Unido

Benjamin Schäfer y Christian Beck

Facultad de Ciencias y Tecnología, Universidad Noruega de Ciencias de la Vida, 1432, Ås, Noruega

Benjamín Schaefer

Instituto de Automatización e Informática Aplicada, Instituto de Tecnología de Karlsruhe, 76344, Eggenstein-Leopoldshafen, Alemania

Benjamín Schaefer

Instituto Alan Turing, 96 Euston Road, Londres, NW1 2DB, Reino Unido

cristiano beck

El Instituto Francis Crick, Plataforma de Tecnología Científica de Citometría de Flujo, Londres, Reino Unido

Hefin Rhys

Thames Water, Clearwater Court, Vastern Road, Reading, RG1 8DB, Reino Unido

Helena Soteriou

Asociación River Chess, Croxley Green, Reino Unido

Pablo Jennings

Proyecto Chilterns Chalk Streams, Junta de Conservación de Chilterns, Chinnor, Oxfordshire, OX39 4HA, Reino Unido

allen beechey

Universidad Queen Mary de Londres, Escuela de Geografía, Mile End Road, Londres, E1 4NS, Reino Unido

Catalina M. Heppell

También puede buscar este autor en PubMed Google Scholar

También puede buscar este autor en PubMed Google Scholar

También puede buscar este autor en PubMed Google Scholar

También puede buscar este autor en PubMed Google Scholar

También puede buscar este autor en PubMed Google Scholar

También puede buscar este autor en PubMed Google Scholar

También puede buscar este autor en PubMed Google Scholar

CMH, PJ y AB concibieron el proyecto ChessWatch, CMH y PJ recopilaron los datos, HR creó un tablero en línea de calidad del agua para la consulta de datos, BS realizó el análisis de datos, CB y todos los demás autores interpretaron los resultados, escribieron y revisaron el manuscrito .

Correspondencia a Benjamin Schäfer.

Los autores declaran no tener conflictos de intereses.

Springer Nature se mantiene neutral con respecto a los reclamos jurisdiccionales en mapas publicados y afiliaciones institucionales.

Acceso abierto Este artículo tiene una licencia internacional Creative Commons Attribution 4.0, que permite el uso, el intercambio, la adaptación, la distribución y la reproducción en cualquier medio o formato, siempre que se otorgue el crédito correspondiente al autor o autores originales y a la fuente. proporcionar un enlace a la licencia Creative Commons e indicar si se realizaron cambios. Las imágenes u otro material de terceros en este artículo están incluidos en la licencia Creative Commons del artículo, a menos que se indique lo contrario en una línea de crédito al material. Si el material no está incluido en la licencia Creative Commons del artículo y su uso previsto no está permitido por la regulación legal o excede el uso permitido, deberá obtener el permiso directamente del titular de los derechos de autor. Para ver una copia de esta licencia, visite http://creativecommons.org/licenses/by/4.0/.

Reimpresiones y permisos

Schäfer, B., Beck, C., Rhys, H. et al. Enfoque de aprendizaje automático para explicar la dinámica de la calidad del agua en un río urbanizado. Informe científico 12, 12346 (2022). https://doi.org/10.1038/s41598-022-16342-9

Descargar cita

Recibido: 17 de marzo de 2022

Aceptado: 08 julio 2022

Publicado: 19 julio 2022

DOI: https://doi.org/10.1038/s41598-022-16342-9

Cualquier persona con la que compartas el siguiente enlace podrá leer este contenido:

Lo sentimos, un enlace para compartir no está disponible actualmente para este artículo.

Proporcionado por la iniciativa de intercambio de contenido Springer Nature SharedIt

Al enviar un comentario, acepta cumplir con nuestros Términos y Pautas de la comunidad. Si encuentra algo abusivo o que no cumple con nuestros términos o pautas, márquelo como inapropiado.