ampliamente

Noticias

HogarHogar / Noticias / ampliamente

Jul 15, 2023

ampliamente

Informes científicos volumen 13,

Scientific Reports volumen 13, Número de artículo: 1720 (2023) Citar este artículo

5206 Accesos

129 Altmetric

Detalles de métricas

Este artículo ha sido actualizado

La mitigación del cambio climático requiere, además de reducciones en las emisiones de gases de efecto invernadero, acciones para aumentar los sumideros de carbono en los ecosistemas terrestres. Un método de medición clave para cuantificar dichos sumideros y calibrar los modelos es la técnica de la covarianza de remolinos, pero requiere la imputación, o relleno de vacíos, de los datos faltantes para la determinación de los balances anuales de carbono de los ecosistemas. Las comparaciones anteriores de los métodos de relleno de lagunas han concluido que los métodos comúnmente utilizados, como el muestreo de distribución marginal (MDS), no tienen un impacto significativo en la estimación del balance de carbono. Mediante el análisis de un extenso conjunto de datos globales, mostramos que MDS causa errores significativos en el balance de carbono para los sitios del norte (latitud \(>60^\circ\)). MDS sobrestima sistemáticamente las emisiones de dióxido de carbono (CO\(_2\)) de las fuentes de carbono y subestima el secuestro de CO\(_2\) de los sumideros de carbono. También revelamos las razones de estos sesgos y mostramos cómo se puede usar un método de aprendizaje automático llamado aumento de gradiente extremo o una implementación modificada de MDS para reducir sustancialmente el sesgo del sitio del norte.

El cambio climático es uno de los desafíos más severos que enfrenta la humanidad. Además de limitar las emisiones de gases de efecto invernadero de los combustibles fósiles y el uso de la tierra, es necesario encontrar formas eficaces de secuestrar el carbono (C), en particular el dióxido de carbono (CO\(_2\)), ya presente en la atmósfera. Las soluciones climáticas naturales, como la agricultura climáticamente inteligente, la forestación, la reforestación y la restauración de turberas, se consideran los medios más viables para lograrlo1,2. Para que estas soluciones sean creíbles para la política climática y los mercados de carbono, es necesaria una verificación fiable del secuestro de carbono3. La verificación también incluye la técnica de covarianza de remolinos micrometeorológicos (EC), un método clave para medir directamente los flujos de CO\(_2\) entre los ecosistemas y la atmósfera4. La popularidad de este método se manifiesta en la red FLUXNET, que ha registrado más de 900 sitios EC en todo el mundo a lo largo de los años5. En principio, EC proporciona datos continuos sobre el intercambio neto de ecosistemas (NEE) a corto plazo de CO\(_2\) con la atmósfera, que pueden integrarse temporalmente para determinar el balance de carbono relacionado de un ecosistema. Aunque las mediciones de EC se pueden ejecutar de forma continua, en la práctica existen lagunas en los datos recopilados, por ejemplo, debido a fallas técnicas y, lo que es más importante, debido a la necesidad de filtrar los datos recopilados en condiciones atmosféricas que comprometen la validez de la técnica de EC. . Por ejemplo, en el conjunto de datos global FLUXNET2015, con 1532 años-sitio de datos6, falta en promedio el 68 % de los flujos de CO\(_2\) cada media hora7. Incluso si se excluyen los años-sitio que tienen intervalos de más de dos meses, la cobertura media de datos es del 40 %. Solo 50 sitio-año tienen una cobertura mayor al 60% y solo 5 sitio-año una cobertura mayor al 70%.

Se han utilizado varios métodos para imputar, o llenar vacíos, los datos que faltan, con métodos que van desde la interpolación lineal simple y la variación diurna media hasta métodos más complejos como las redes neuronales artificiales (ANN). En una comparación de 15 métodos de relleno de huecos de flujo de CO\(_2\), se concluyó que el efecto del relleno de huecos es modesto en el balance anual de C y que la precisión de los métodos de mejor rendimiento, que demostraron ser no lineales regresión, tabla de búsqueda, muestreo de distribución marginal (MDS), un modelo semiparamétrico y ANN, ya está alcanzando el límite de ruido de las mediciones8. Sin embargo, esta comparación solo incluyó sitios forestales de un rango latitudinal de \(20^\circ\). Otras comparaciones han pasado por alto los métodos de llenado de brechas más comúnmente utilizados en la actualidad9, a saber, MDS y enfoques basados ​​en aprendizaje automático, o centrados en brechas largas7,10,11. A pesar de estas deficiencias, diferentes métodos de aprendizaje automático y especialmente MDS se han convertido en los métodos estándar para completar los datos de EC. En particular, MDS se utiliza para llenar los vacíos de los datos NEE estandarizados de acceso abierto proporcionados por FLUXNET6 y la infraestructura de investigación europea Integrated Carbon Observation System (ICOS). MDS también se implementa dentro de la herramienta gratuita de relleno de brechas REddyProc12 y como parte de Tovi\(^{TM}\), un software comercial para el posprocesamiento de datos EC13. Sin embargo, falta conocimiento sobre el desempeño de diferentes métodos de relleno de brechas, especialmente MDS, para datos de sitios de latitudes altas del norte (latitud \(>60^\circ\)). En los ecosistemas del norte, las temporadas de crecimiento son cortas y la cantidad de radiación solar, un impulsor ambiental clave en el intercambio de CO\(_2\), se distribuye de manera muy desigual a lo largo del año. Por lo tanto, la cantidad de datos nocturnos potencialmente disponibles durante la corta temporada de crecimiento del norte es baja incluso antes de filtrar la calidad de los datos.

Aquí, investigamos el rendimiento de dos métodos para completar las series temporales de flujo de CO\(_2\) con el objetivo de revelar si las incertidumbres inducidas por el relleno de brechas limitan nuestra capacidad para verificar las estimaciones de secuestro de carbono en las latitudes del norte. Los métodos de llenado de brechas considerados fueron MDS y un método de aprendizaje automático llamado eXtreme gradiente boosting (XGBoost). Se eligió XGBoost entre una amplia gama de métodos de aprendizaje automático porque los métodos basados ​​en árboles de decisión han funcionado bien en estudios previos sobre datos de flujo de metano y CO\(_2\) para llenar vacíos7,10,14. En primer lugar, comparamos el rendimiento de MDS y XGBoost en el conjunto de datos global FLUXNET2015, incluidas series temporales anuales de datos cada media hora del hemisferio norte que tenían al menos una cobertura de datos de flujo de CO\(_2\) temporal del 20 %. A continuación, nos enfocamos en el caso especial de los ecosistemas del norte al investigar el desempeño de relleno de brechas para diez sitios del norte. Abordamos una tarea básica de relleno de brechas que involucraba un máximo de brechas de datos de tres días y el uso de solo controladores ambientales fácilmente disponibles: temperatura del aire (T\(_{aire}\)), radiación de onda corta entrante (SWR) y vapor atmosférico. Déficit de presión (DPV). Más específicamente, queríamos saber si los métodos de llenado de brechas (1) dan como resultado estimaciones de balance de C similares y (2) funcionan igual de bien en los ecosistemas del norte que en otros lugares. Hicimos esto insertando brechas artificiales en conjuntos de datos reales y sintéticos, rellenando las brechas artificiales y evaluando el rendimiento de ambos métodos. Adoptamos el sesgo de flujo medio como la principal métrica de rendimiento, ya que se traduce directamente en la precisión de un balance anual. Otra métrica clave que se utilizó fue el error de balance, que es la suma de los sesgos de flujo sobre los datos faltantes. Esto se calculó utilizando datos sintéticos.

En este trabajo, se adopta la convención de signos micrometeorológicos, lo que significa que un flujo positivo de CO\(_2\) denota un flujo desde el ecosistema hacia la atmósfera y un flujo negativo indica una absorción desde la atmósfera hacia el ecosistema. El rellenado de huecos artificiales insertados en 882 años-sitio de datos en el conjunto de datos FLUXNET2015 reveló que con MDS había un claro sesgo positivo en los flujos rellenos de huecos durante el día (SWR \(\ge\) 20 W m\( ^{-2}\)) en latitudes altas (\(>50^\circ\)N, N = 105) (Fig. 1a; para pruebas estadísticas, consulte la Tabla complementaria S1). Durante la noche (SWR < 20 W m\(^{-2}\)), hubo un sesgo negativo, pero mucho más pequeño (Fig. 1b) que condujo a un sesgo de flujo total positivo (Fig. 1c). Un sesgo de flujo positivo indica que se sobreestimó la emisión o se subestimó la absorción, mientras que un sesgo negativo indica lo contrario. Cuando se usó XGBoost para llenar espacios, se observaron algunos sesgos de flujo positivo y negativo (Fig. 1d, e), pero la magnitud de estos sesgos fue pequeña en comparación con el sesgo diurno de MDS. El sesgo de flujo total con XGBoost fue insignificante o muy pequeño en todas las latitudes (Fig. 1f y Tabla complementaria S1).

MDS provoca un claro sesgo positivo en el NEE lleno de brechas en las latitudes del norte. (a,b) Durante el día, (c,d) durante la noche y (e,f) sesgo total en el vacío de datos de flujo de CO\(_2\) rellenado mediante muestreo de distribución marginal (MDS) y refuerzo de gradiente extremo (XGBoost). Los datos cubren 882 años-sitio de 141 sitios del conjunto de datos global FLUXNET2015. Los resultados de cada método se compararon con los datos medidos etiquetados como brechas artificiales. El sesgo de flujo medio total, diurno y nocturno se traza para cada sitio-año.

El método MDS se basa en la covariación entre el NEE y las variables meteorológicas y, principalmente, llena las lagunas de una observación NEE faltante con la media de los valores NEE disponibles medidos en condiciones similares. La similitud de las condiciones meteorológicas se determina en función de las tolerancias de muestreo, o las desviaciones máximas aceptadas de las condiciones reales, especificadas para cada variable predictora (para obtener más información, consulte Métodos). El sesgo diurno positivo en las latitudes del norte (Fig. 2a) resultó de una distribución de radiación muy sesgada (Fig. 2b y Fig. S1 complementaria), lo que provocó que se muestrearan más datos del rango inferior de la distribución de radiación (Fig. 2c) . Un nivel de radiación subestimado corresponde a una captación fotosintética subestimada (componente de flujo negativo) y, por lo tanto, a un NEE sobreestimado (Fig. 2d). Los ejemplos que utilizan datos medidos se muestran en la figura complementaria 2a, b. El desequilibrio del sesgo de flujo diurno y nocturno fue evidente en las latitudes \(50^\circ\)–\(70^\circ\), lo que afectó a 133 años-sitio de datos, lo que corresponde al 15 % de los años-sitio en el área seleccionada. subconjunto del conjunto de datos FLUXNET2015. En las latitudes \(30^\circ\)–\(50^\circ\) también hubo una cantidad considerable de años-sitio con un sesgo de flujo negativo, lo que indica que los sesgos en esas latitudes fueron causados ​​por otras razones. Debido a que el sesgo de flujo diurno positivo con MDS fue especialmente evidente en las latitudes \(60^\circ\)–\(70^\circ\), investigamos más a fondo los datos de diez sitios ubicados dentro de esta zona (Tabla 1). Estos datos se adquirieron del producto de flujo ICOS Warm Winter 2020 EC, ya que había más años-sitio con buena cobertura de datos disponibles para las latitudes del norte15. El producto de datos ICOS es totalmente compatible con el conjunto de datos FLUXNET2015.

La distribución de la radiación está sesgada en las latitudes del norte, lo que da como resultado un sesgo de muestra y un sesgo de flujo positivo. (a) Sesgo de flujo de CO\(_2\) diurno y nocturno de MDS en diferentes latitudes, (b) asimetría de la distribución de la radiación de onda corta entrante en diferentes latitudes, (c) sesgo de muestra durante el día y la noche en diferentes valores de asimetría de la distribución de radiación y (d) una figura esquemática que ilustra cómo se produce el sesgo positivo. La curva negra muestra un ejemplo de la verdadera dependencia de NEE en SWR (un período corto de NEE diurno durante la temporada de crecimiento). El sesgo de muestra (c) indica cuántos puntos de datos más se muestrean con valores de radiación inferiores a los superiores en comparación con el valor medido al seleccionar los datos NEE que se promedian para imputar una observación faltante. Si el número de mediciones (N) dentro del intervalo de tolerancia por debajo de la swr medida (swr-tol...swr) es mayor que el número de mediciones dentro del intervalo de tolerancia por encima de él (swr...swr+tol), existe una sesgo de muestra positivo, y es probable que se sobrestime el NEE modelado en ciertas swr. El tamaño de la muestra varió de 2 a 507 con una media de 29. Los datos cubren 882 años-sitio. Todos los diagramas de caja ilustran la mediana (línea continua), los cuartiles (caja) y el resto de la distribución, excluyendo los valores atípicos, que se grafican individualmente. Los valores atípicos se definieron como puntos que estaban fuera de 1,5 veces el rango intercuartílico. Los sesgos de la muestra por encima de 12 (N = 6) y por debajo de - 3 (N = 4) no se muestran para mayor claridad.

Para evaluar qué implicaciones tiene el sesgo detectado en los flujos de CO\(_2\) acumulados anualmente, es decir, las estimaciones de los balances anuales de C, generamos series temporales completas sintéticas correspondientes a los flujos de CO\(_2\) observados en los diez sitios del norte. (Figuras complementarias S3, S4 y Tabla complementaria S2). Luego introdujimos brechas artificiales realistas, tanto en longitud como en tiempo (30 %, 50 % y 70 % de los datos) en los conjuntos de datos sintéticos y comparamos los saldos C derivados de la serie temporal NEE llena de brechas con los saldos reales. Esto se hizo por dos razones. En la primera parte del estudio, evaluamos el sesgo de flujo en función de las series temporales de medición disponibles que se vieron comprometidas por las lagunas de datos. Sin embargo, la mayoría de las brechas caen en la noche, lo que significa que la mayoría de los datos utilizados para evaluar el sesgo fueron flujos diurnos. En segundo lugar, queríamos saber cuál es el efecto combinado de las longitudes de brecha realistas, el tiempo y los sesgos, que dependen de la hora del día, en la estimación del balance de C.

Descubrimos que MDS sobrestimó sistemáticamente el balance anual de C en todos los casos excepto en uno (sitio SE-Nor con brechas del 70%) (Fig. 3 y Tabla complementaria S3). El error de balance medio específico del sitio con MDS varió de 2–10 g C m\(^{-2}\) y\(^{-1}\) en el nivel de brecha del 30 % a 3–17 g C m\ (^{-2}\) y\(^{-1}\) en el nivel de brecha del 70 %. Para 5 de los 10 conjuntos de datos, los errores de balance excedieron los 30 g C m\(^{-2}\) y\(^{-1}\) y el mayor error de balance fue de 42 g C m\(^{- 2}\) y\(^{-1}\). Cabe destacar que el error de balance absoluto anual fue similar para sitios con balances sintéticos que van desde decenas (FI-Qvd, FI-Let) hasta centenas (FI-Hyy, SE-Ros) de gramos de C m\(^{-2} \) y\(^{-1}\). Además, cuando cayeron más brechas en los datos nocturnos que diurnos, el error anual de MDS disminuyó, porque la mayor cantidad de valores NEE subestimados durante la noche compensó la menor cantidad de NEE sobreestimados durante el día. En cuatro de los treinta casos, hubo un error significativo en el balance calculado con XGBoost, pero los errores de balance medianos fueron solo de − 4 a 2 g C m\(^{-2}\) y\(^{-1} \).

El llenado de espacios con MDS da como resultado errores de balance de C. Errores del saldo C anual lleno de brechas para diferentes porcentajes de brechas. Se generó un conjunto de datos sintéticos cinco veces para cada sitio (Tabla 1), y cada clase de cobertura de datos se probó 10 veces para cada conjunto de datos. Se generaron espacios aleatorios de 0,5 h a 3 días de duración en función de la distribución de espacios original, teniendo también en cuenta el momento de los espacios. Los errores de balance positivo significan que la estimación del balance de C lleno de vacíos indica una fuente demasiado grande o un sumidero demasiado pequeño.

Para probar si MDS podría mejorarse modificando el método y para verificar aún más que el sesgo de flujo positivo fue causado por el muestreo de radiación sesgado, investigamos el rendimiento del modelo con tres alteraciones utilizando el conjunto de datos sintéticos FI-Let, para el cual MDS sobrestimó el mayoría. O bien (1) reducimos los dos ajustes de tolerancia que definen los límites de ROE de cada muestra de datos, (2) usamos solo una tolerancia de radiación, o (3) para los datos diurnos, calculamos por separado el NEE medio de las submuestras de ROE bajo y alto y luego promediaron estos medios.

Cuando las tolerancias de SWR fueron diferentes para niveles de SWR más bajos y más altos, el sesgo de flujo positivo durante el día fue mayor que el sesgo nocturno negativo, lo que provocó un sesgo total positivo y, por lo tanto, una sobreestimación del balance de C (Fig. 4a, c y Tablas complementarias S4 y S5). Cuando se redujeron las clases de SWR, los errores fueron menores en comparación con la implementación original, pero el error cuadrático medio (RMSE) del NEE modelado aumentó (Fig. 4b y Tabla complementaria S6). Cuando se usó una tolerancia de SWR común de 25 W m\(^{-2}\), el error del balance de C lleno de espacios fue insignificante cuando faltaba el 30 % o el 50 % de los datos y negativo cuando faltaba el 70 % de los datos. falta (Fig. 4a y Tabla complementaria S4). También en este caso, RMSE aumentó (Fig. 4c y Tabla complementaria S6). Promediar las submuestras de ROE bajo y alto por separado y tomar su promedio disminuyó el sesgo de flujo diurno positivo y el error del balance anual sin afectar el RMSE (Fig. 4a-c y Tablas complementarias 4, 5). Sin embargo, el error de balance no se eliminó por completo y se obtuvo un RMSE aún más bajo al usar XGBoost. Finalmente, llenamos los espacios en blanco de todos los conjuntos de datos sintéticos usando la implementación de MDS con un promedio de submuestra y encontramos que solo en un caso (SE-Nor con 70 % de datos faltantes) la magnitud del error anual fue mayor que cuando se usó la implementación original de MDS (Figura complementaria S5 y Tabla complementaria S7). En todos los demás casos, el error se redujo o se eliminó por completo.

Se puede usar una versión modificada de MDS para disminuir los errores de balance de C. Desempeño de diferentes implementaciones del método de llenado de brechas MDS y XGBoost para el conjunto de datos sintéticos FI-Let. [20,50], [10,25] y [25,25] (W m\(^{-2}\)) indican las tolerancias de muestreo utilizadas para SWR. 'Submuestras' se refiere al promedio de los NEE medios de las submuestras de datos de baja y alta ROE durante el día. [20,50] es la implementación estándar de MDS. (a) Error anual, (b) error cuadrático medio (RMSE) yc sesgo diurno y nocturno de los datos de flujo de CO\(_2\) sintético lleno de brechas. Para evaluar los errores, cada clase de cobertura de datos se probó 10 veces y se calcularon el RMSE y los sesgos para los datos con brechas artificiales del 70 %.

Se pueden generar diferencias artificiales entre los balances de C específicos del sitio mediante el relleno de espacios, especialmente si se utilizan métodos con tendencia tanto a un sesgo negativo como positivo para diferentes sitios. Esta es una razón por la cual las redes de flujo han estandarizado su procesamiento de datos. Sin embargo, incluso cuando se llenan las lagunas con el mismo método, la imputación de datos puede dar lugar a diferencias significativas entre sitios porque los sesgos son específicos del sitio y dependen de la cobertura de datos. Previamente, las incertidumbres aleatorias en una escala de tiempo anual se han estimado en 10–40 g C m\(^{-2}\) y\(^{-1}\)16,17, incertidumbres relacionadas con el llenado de brechas 10 –30 g C m\(^{-2}\) y\(^{-1}\)8,16 y la incertidumbre total del balance de C en sitios casi ideales menos de ± 50 g C m\(^{ -2}\) y\(^{-1}\)4. La magnitud de los errores anuales encontrados en este estudio es comparable a las incertidumbres estimadas, lo que significa que, en algunos casos, es posible que el intervalo de confianza de la estimación original no capture el verdadero equilibrio. Mostramos que un algoritmo de aprendizaje automático, aquí la técnica de aumento de gradiente extremo, puede reducir sustancialmente el error de llenado de espacios.

En principio, cualquier método que tenga en cuenta correctamente la covariación entre NEE y sus impulsores meteorológicos, como otros métodos de aprendizaje automático y modelos de regresión, podría reducir el error de relleno de brechas. El problema clave con MDS en su implementación original es que el flujo medio dentro de un determinado intervalo de radiación es una estimación sesgada debido a que se favorecen los niveles de radiación más bajos y, por lo tanto, el NEE más alto. Se podría observar un problema diferente pero similar en los modelos de regresión si la forma asumida de la respuesta de NEE a la radiación es incorrecta. La ventaja de los métodos de aprendizaje automático basados ​​en datos es que no hacen suposiciones, o hacen menos, sobre la función de respuesta.

Si bien los métodos estándar ayudan a realizar comparaciones, aún existe la necesidad de mejorar estos métodos, en particular considerando condiciones ambientales específicas como las de los sitios del norte. También se debe tener en cuenta que la cantidad de datos que llenan vacíos, es decir, modelados, suele ser de al menos el 50% y, por lo tanto, es crucial que los datos modelados sean imparciales. Mostramos que la implementación original de MDS es un método subóptimo para completar datos de sitios del norte donde la distribución de la radiación es muy sesgada. Se deben considerar otros métodos, como XGBoost o el MDS modificado propuesto, en la canalización de procesamiento estandarizado de FLUXNET, al menos para los sitios de latitudes altas del norte (latitud \(>60^\circ\)). Los resultados también podrían ser válidos para otros sitios, como los sitios de latitudes altas del sur, y si se aplican a diferentes controladores.

Si bien los errores absolutos encontrados en este trabajo pueden no parecer grandes, los errores sistemáticos deben eliminarse cuando sea posible. Con el creciente interés en el potencial de secuestro de C de los ecosistemas, cabe señalar que los balances de C de los ecosistemas de latitudes altas son generalmente pequeños. Se ha informado que el NEE anual medio observado es − 17 g C m\(^{-2}\) en los biomas boreal y de tundra de latitudes altas (\(>45^\circ\)) que cubren un área de \ (20,6 \veces\) 10\(^6\) km\(^2\)18. Por lo tanto, los errores sistemáticos de llenado de brechas descubiertos aquí pueden tener un impacto relativo significativo en las estimaciones del balance de C de los ecosistemas del norte, con implicaciones para la verificación del secuestro de C.

El conjunto de datos FLUXNET2015 y los datos adquiridos de un producto de datos ICOS (producto de flujo de covarianza de remolinos del ecosistema Warm Winter 2020 para 73 estaciones en FLUXNET) consisten en datos de flujo de CO\(_2\) de covarianza de remolinos de acceso abierto y mediciones de respaldo que se han procesado de manera estandarizada6,15. Los datos de FLUXNET se han recopilado de 206 sitios distribuidos en todo el mundo. A partir del conjunto de datos de FLUXNET2015, utilizamos todos los años-sitio del hemisferio norte que tenían al menos un 20 % de cobertura anual (Tabla complementaria S8). Utilizamos NEE medido seleccionando esos valores en el producto de datos NEE_VUT_REF donde el indicador de calidad NEE_VUT_REF_QC era cero. Los factores ambientales seleccionados fueron la radiación de onda corta (SW_IN_F), el déficit de presión de vapor atmosférico (VPD_F_MDS) y la temperatura del aire (TA_F_MDS). Los espacios en los controladores se llenaron de acuerdo con el protocolo de procesamiento de datos FLUXNET6. Del producto de datos ICOS usamos datos de todos los sitios del norte (\(>60^\circ\)) que tenían al menos un 30 % de cobertura anual y T\(_{aire}\), VPD, SWR y temperatura del suelo disponibles. Para cada sitio, seleccionamos el sitio-año que tuvo la mayor cobertura de datos (Tabla 1).

En este trabajo se utilizaron dos métodos de relleno de huecos: aumento de gradiente extremo y muestreo de distribución marginal.

El algoritmo de potenciación de gradiente extremo se basa en árboles de decisión potenciados en paralelo. Se utilizó el paquete de Python 'xgboost'19 para aplicar este método. Hiperparámetros, que controlan la proporción de submuestras de las columnas al construir cada árbol (0.4, 0.6, 0.8, 1), la profundidad máxima de un árbol (3, 5, 10, 15), la cantidad mínima de muestras requeridas para crear un nuevo nodo en un árbol (2, 5, 10) y la fracción de observaciones que se muestrean aleatoriamente para cada árbol (0,65, 0,75, 1) se determinaron para los datos de FLUXNET2015 en función de la búsqueda de cuadrícula utilizando diez conjuntos de datos seleccionados al azar y seleccionando el modo de cada hiperparámetro. Para los sitios del norte, se optimizaron los mismos hiperparámetros para cada conjunto de datos sintéticos utilizando los datos originales sin espacios artificiales y la búsqueda en cuadrícula. Para la tasa de aprendizaje usamos el valor predeterminado de 0.1. Se utilizó el error cuadrático como función de pérdida. Dado que MDS usa una ventana de datos en movimiento para resolver las correlaciones temporales en los datos de flujo, XGBoost se incrementó con dos funciones cíclicas para el mes y la hora del día, y una descripción lineal del tiempo como controladores adicionales:

donde i es el número de medias horas desde el comienzo del año.

En MDS, los espacios se llenan con el promedio de flujos medidos en condiciones meteorológicas similares utilizando una ventana móvil para el muestreo de datos, o con el curso diurno medio (MDC) si no se pudo encontrar una muestra lo suficientemente grande. Los impulsores meteorológicos predeterminados y sus tolerancias, o las desviaciones aceptadas de las condiciones reales, son SWR, con una tolerancia de 20 W m\(^{-2}\) para SWR \(\le\) 50 W m\(^{- 2}\) y 50 W m\(^{-2}\) para ROE > 50 W m\(^{-2}\), T\(_{aire}\) con una tolerancia de 2,5 K y VPD con una tolerancia de 5 hPa. Si falta T\(_{air}\) o VPD, solo se usa SWR. Si ninguno de los controladores meteorológicos está disponible, los espacios se llenan con MDC. El procedimiento de muestreo específico se describe en Wutzler et al.12. Cabe destacar que también la herramienta REddyProc utiliza tolerancias SWR de 20 W m\(^{-2}\) y 50 W m\(^{-2}\) (https://github.com/bgctw/REddyProc/tree /1.1.3) aunque se notifique un enfoque de tolerancia única.

Además de la implementación estándar de MDS, probamos versiones modificadas del mismo. Primero, solo alteramos los límites de muestreo de radiación. Probamos usando dos tolerancias diferentes como en la implementación original, pero bajamos las tolerancias de SWR a 10 y 25 W m\(^{-2}\). También probamos usando solo una tolerancia en todos los niveles de radiación y usamos una tolerancia SWR de 25 W m\(^{-2}\) para esto. Finalmente, para explicar mejor el sesgo de la muestra, para los datos diurnos, primero calculamos el NEE promedio por separado para las submuestras de datos con una SWR más alta y más baja que la SWR actual y luego promediamos estos dos valores de NEE. Las variantes de MDS fueron implementadas utilizando un código C por Papale et al.20.

Se utilizó una red neuronal artificial (ANN) para generar conjuntos de datos sintéticos con una cobertura del 100 % que podrían utilizarse para comparar los métodos de relleno de lagunas. La ANN utilizada aquí fue un modelo secuencial con cuatro capas ocultas, con 16 nodos en la primera capa oculta y 32 en las otras capas. Las funciones de activación que se utilizaron fueron lineal, tangente hiperbólica (tanh) y activación lineal rectificada (relu), y la estructura de la red fue lineal-tanh-tanh-relu-lineal. Se utilizó el error cuadrático medio como función de pérdida. La ANN se implementó utilizando la biblioteca Keras21. La temperatura del aire, la temperatura del suelo, SWR y VPD se utilizaron como predictores de la red neuronal. Para cada sitio, usamos todos los datos medidos disponibles para entrenar la ANN y después de modelar para todos los períodos de 30 minutos de un año, se agregó ruido al NEE de 30 minutos modelado. Esto se hizo agrupando los residuos del modelo en función de la temporada (meses de invierno 1–4 y 11–12, y meses de verano 5–10), hora del día (noche con SWR \(\le\) 20 W m\(^ {-2}\) y durante el día con SWR > 20 W m\(^{-2}\) ), y temperatura del aire (cinco contenedores de igual tamaño). Después de agrupar los datos, se seleccionó aleatoriamente un residuo del contenedor correcto y se agregó a cada NEE de 30 minutos. Todo el procedimiento se repitió cinco veces para cada sitio para obtener 50 conjuntos de datos sintéticos diferentes.

En la práctica, los datos sintéticos representan un caso en el que la NEE está impulsada por T\(_{aire}\), SWR, VPD y la temperatura del suelo. Asumimos que hay ruido en los datos y que es de diferente magnitud durante los meses activos de verano e invierno, durante el día y la noche y en diferentes temperaturas. Al completar los datos con MDS y XGBoost, asumimos que deberían poder resolver la covariación entre NEE y T\(_{air}\), SWR y VPD. También asumimos que los errores promedio de un método imparcial de llenado de espacios serían cero.

De los datos de FLUXNET2015, muestreamos todos los datos medidos disponibles para calcular el sesgo medio para cada sitio-año. Para MDS, etiquetamos una media hora a la vez como una brecha artificial, ya que es fácil de implementar en una ventana en movimiento. Para XGBoost, etiquetamos el uno por ciento de los datos medidos como brechas artificiales a la vez, ya que entrenar un modelo diferente para cada media hora no era razonable debido a las limitaciones de tiempo computacional. Sin embargo, los resultados de XGBoost representan una estimación conservadora, ya que entrenar un modelo separado para cada media hora individual mejoraría los resultados en lugar de empeorarlos.

Para los conjuntos de datos sintéticos, los intervalos artificiales se extrajeron de las distribuciones de intervalos originales, teniendo en cuenta tanto la duración como el tiempo del intervalo. Más específicamente, las brechas en la serie temporal original se etiquetaron por su duración y hora de inicio, y las brechas artificiales se eligieron aleatoriamente de las brechas originales y se insertaron en los conjuntos de datos sintéticos hasta lograr una cobertura del 30 %, 50 % o 70 %. Al insertar los espacios artificiales en los datos sintéticos, se retuvo la hora de inicio de cada espacio. No se permitió que los espacios artificiales se superpusieran. Para cada cobertura de datos, generamos diez secuencias de espacios diferentes que se usaron para todos los conjuntos de datos sintéticos.

Las comparaciones entre los valores medidos y los vacíos llenados se llevaron a cabo utilizando el sesgo medio, RMSE y el error del balance C anual vacío. En este artículo, definimos el balance de C como el balance de C medido con EC excluyendo el impacto potencial de las cosechas, la fertilización, la lixiviación y el transporte lateral de C.

El sesgo medio y el RMSE se definieron como:

donde N es igual a la cantidad de espacios artificiales, y NEE\(_{gap, i}\) indica un espacio lleno y NEE\(_{meas, i}\) un valor medido.

El error del balance de C con vacío se calculó como la diferencia entre el balance de C con vacío y el verdadero (sintético):

donde N es igual al número de NEE de 30 min en los datos y NEE\(_{synth, i}\) un valor NEE sintético.

Para determinar si los sesgos medios del NEE cada media hora y los errores de los balances de carbono llenos de huecos diferían de cero, utilizamos la prueba no paramétrica de rangos con signo de Wilcoxon. La normalidad de los datos se evaluó primero mediante la prueba de Shapiro-Wilk. Las comparaciones por pares se realizaron utilizando la prueba de Conover y el método de Holm para ajustar los valores de p. Todas las pruebas estadísticas se realizaron en Python utilizando el paquete SciPy22.

El conjunto de datos de FLUXNET2015 está disponible en http://fluxnet.fluxdata.org/data/fluxnet2015-dataset/. El producto de flujo de covarianza de remolinos del ecosistema ICOS Warm Winter 2020 para 73 estaciones en FLUXNET-Archive format-release 2022-1 está disponible en http://www.icos-cp.eu/data-products/2G60-ZHAK.

El código para crear datos sintéticos y rellenar huecos con XGBoost está disponible en https://github.com/hvekuri/co2_gapfilling.

Se revisó la versión original en línea de este Artículo: En la versión original de este Artículo se rompió un hipervínculo a la disponibilidad del código. El hipervínculo correcto es https://github.com/hvekuri/co2_gapfilling.

Paustian, K. et al. Suelos climáticamente inteligentes. Naturaleza 532, 49–57 (2016).

Artículo ADS CAS PubMed Google Scholar

Griscom, BW et al. Soluciones climáticas naturales. proc. nacional Academia ciencia 114, 11645–11650 (2017).

Artículo ADS CAS PubMed PubMed Central Google Scholar

Smith, P. et al. Cómo medir, informar y verificar el cambio de carbono del suelo para aprovechar el potencial del secuestro de carbono del suelo para la eliminación de gases de efecto invernadero atmosféricos. globo Cambio Biol. 26, 219–241 (2020).

Artículo ANUNCIOS Google Académico

Baldocchi, DD Evaluación de la técnica de covarianza de Eddy para evaluar las tasas de intercambio de dióxido de carbono de los ecosistemas: pasado, presente y futuro. globo Cambio Biol. 9, 479–492 (2003).

Artículo ANUNCIOS Google Académico

Baldocchi, DD Cómo las mediciones del flujo de covarianza de remolinos han contribuido a nuestra comprensión de la biología del cambio global. globo Cambio Biol. 26, 242–260 (2020).

Artículo ANUNCIOS Google Académico

Pastorello, G. et al. El conjunto de datos FLUXNET2015 y la tubería de procesamiento ONEFlux para datos de covarianza de remolinos. ciencia Datos 7, 1–27 (2020).

Artículo Google Académico

Zhu, S., Clement, R., McCalmont, J., Davies, CA & Hill, T. Relleno de brechas estables para brechas de datos de covarianza de remolinos más largas: un enfoque de aprendizaje automático validado globalmente para flujos de dióxido de carbono, agua y energía . agricola Para. Meteorol. 314, 108777 (2022).

Artículo ANUNCIOS Google Académico

Moffat, AM et al. Comparación completa de técnicas de llenado de brechas para flujos de carbono netos de covarianza de remolinos. agricola Para. Meteorol. 147, 209–232 (2007).

Artículo ANUNCIOS Google Académico

Falge, E. et al. Estrategias de llenado de brechas para sumas anuales defendibles de intercambio neto de ecosistemas. agricola Para. Meteorol. 107, 43–69 (2001).

Artículo ANUNCIOS Google Académico

Mahabbati, A. et al. Una comparación de algoritmos de llenado de espacios para flujos de covarianza de remolinos y sus controladores. Geosci. instrumento Métodos Sist. de datos 10, 123–140 (2021).

Artículo ADS CAS Google Académico

Kim, Y. et al. Enfoques de relleno de brechas para flujos de metano de covarianza de remolinos: una comparación de tres algoritmos de aprendizaje automático y un método tradicional con análisis de componentes principales. globo Cambio Biol. 26, 1499–1518 (2020).

Artículo ANUNCIOS Google Académico

Wutzler, T. et al. Procesamiento posterior básico y extensible de datos de flujo de covarianza de remolinos con REddyProc. Biogeociencias 15, 5015–5030 (2018).

Artículo ADS CAS Google Académico

LI-COR Biosciences, Estados Unidos. https://www.licor.com/env/support/Tovi/manuals.html.

Irvin, J. et al. Flujos de metano de covarianza de remolinos que llenan brechas: Comparación de las predicciones e incertidumbres del modelo de aprendizaje automático en los humedales FLUXNET-CH4. agricola Para. Meteorol. 308, 108528 (2021).

Artículo ANUNCIOS Google Académico

Equipo Warm Winter 2020 y Centro Temático de Ecosistemas ICOS. (2022). Producto de flujo de covarianza de remolinos del ecosistema Warm Winter 2020 para 73 estaciones en formato FLUXNET-Archive-versión 2022-1 (versión 1.0). portal icos carbono. https://doi.org/10.18160/2g60-zhak (2022).

Richardson, AD & Hollinger, DY Un método para estimar la incertidumbre adicional en el NEE lleno de brechas resultante de largas brechas en el registro de flujo de CO\(_2\). agricola Para. Meteorol. 147, 199–208 (2007).

Artículo ANUNCIOS Google Académico

Liu, M. et al. Análisis de incertidumbre de los componentes del flujo de CO\(_2\) en plantaciones subtropicales de coníferas perennes. ciencia Ser. de China D Ciencias de la Tierra. 52, 257–268 (2009).

Artículo ADS CAS Google Académico

Virkkala, A.-M. et al. Aumento estadístico de los flujos de CO\(_2\) del ecosistema a través de la tundra terrestre y el dominio boreal: patrones e incertidumbres regionales. globo Cambio Biol. 27, 4040–4059 (2021).

Artículo CAS Google Académico

Chen, T. & Guestrin, C. Xgboost: Un sistema escalable de refuerzo de árboles. En Actas de la 22.ª Conferencia Internacional ACM SIGKDD sobre Descubrimiento de Conocimiento y Minería de Datos, 785–794 (2016).

Papale, D. et al. Hacia un procesamiento estandarizado del Intercambio Neto de Ecosistemas medido con la técnica de eddy covariance: Algoritmos y estimación de incertidumbre. Biogeociencias 3, 571–583 (2006).

Artículo ADS CAS Google Académico

Chollet, Fc et al. Keras. https://keras.io (2015).

Virtanen, P. et al. Algoritmos fundamentales para la computación científica en Python. SciPy 1.0. Nat. Métodos 17, 261–272 (2020).

Artículo CAS PubMed PubMed Central Google Scholar

Descargar referencias

Esta investigación fue financiada por la fundación Maj and Tor Nessling (subvención n.° 202000391), el Centro de Investigación Estratégica de la Academia de Finlandia (subvención n.° 327214, 335204), la financiación insignia de la Academia de Finlandia (subvención n.° 337549) y la Academia de Finlandia (nº de concesión 328310, 325549). DP agradece el apoyo del Proyecto Europeo CoCO2 H2020 (GA 958927) y el Proyecto Open Earth Monitor Horizon Europe (GA 101059548). MA, TL y AL reconocen al Ministerio de Transportes y Comunicaciones de Finlandia a través de ICOS Finlandia. Este trabajo utilizó datos de covarianza de remolinos adquiridos y compartidos por la comunidad FLUXNET, incluidas estas redes: AmeriFlux, AfriFlux, AsiaFlux, CarboAfrica, CarboEuropeIP, CarboItaly, CarboMont, ChinaFlux, Fluxnet-Canada, GreenGrass, ICOS, KoFlux, LBA, NECC, OzFlux- TERN, TCOS-Siberia y USCCC. El procesamiento y armonización de datos de covarianza de remolinos de FLUXNET fue realizado por el Centro Temático de Ecosistemas de ICOS, el Proyecto de Gestión AmeriFlux y el proyecto Fluxdata de FLUXNET, con el apoyo de CDIAC, y las oficinas de OzFlux, ChinaFlux y AsiaFlux. Todos los sitios del norte utilizados en este estudio, excepto FI-Qvd y SE-Ros, son parte de la Infraestructura de Investigación Europea de ICOS y sus datos son distribuidos por el Portal de Carbono de ICOS.

Instituto Meteorológico de Finlandia, 00101, Helsinki, Finlandia

Henriikka Vekuri, Juha-Pekka Tuovinen, Liisa Kulmala, Mika Aurela, Tuomas Laurila, Jari Liski y Annalea Lohila

DIBAF Universidad de Tuscia, 01100, Viterbo, Italia

Darío papal

Centro Euromediterráneo sobre el Cambio Climático CMCC IAFES, 01100, Viterbo, Italia

Darío papal

Instituto de Investigación Atmosférica y del Sistema Terrestre, Física, Universidad de Helsinki, 00014, Helsinki, Finlandia

Pasi kolari y annalea lohila

También puede buscar este autor en PubMed Google Scholar

También puede buscar este autor en PubMed Google Scholar

También puede buscar este autor en PubMed Google Scholar

También puede buscar este autor en PubMed Google Scholar

También puede buscar este autor en PubMed Google Scholar

También puede buscar este autor en PubMed Google Scholar

También puede buscar este autor en PubMed Google Scholar

También puede buscar este autor en PubMed Google Scholar

También puede buscar este autor en PubMed Google Scholar

HV, JP.T. y AL diseñaron el estudio. HV realizó el análisis de datos. DP proporcionó el código para MDS y desarrolló la versión modificada de MDS. Todos los autores participaron en la discusión del análisis, interpretación de datos, redacción y edición del manuscrito.

Correspondencia a Henriikka Vekuri.

Los autores declaran no tener conflictos de intereses.

Springer Nature se mantiene neutral con respecto a los reclamos jurisdiccionales en mapas publicados y afiliaciones institucionales.

Acceso abierto Este artículo tiene una licencia internacional Creative Commons Attribution 4.0, que permite el uso, el intercambio, la adaptación, la distribución y la reproducción en cualquier medio o formato, siempre que se otorgue el crédito correspondiente al autor o autores originales y a la fuente. proporcionar un enlace a la licencia Creative Commons e indicar si se realizaron cambios. Las imágenes u otro material de terceros en este artículo están incluidos en la licencia Creative Commons del artículo, a menos que se indique lo contrario en una línea de crédito al material. Si el material no está incluido en la licencia Creative Commons del artículo y su uso previsto no está permitido por la regulación legal o excede el uso permitido, deberá obtener el permiso directamente del titular de los derechos de autor. Para ver una copia de esta licencia, visite http://creativecommons.org/licenses/by/4.0/.

Reimpresiones y permisos

Vekuri, H., Tuovinen, JP., Kulmala, L. et al. Un método de llenado de brechas de covarianza de remolinos ampliamente utilizado crea un sesgo sistemático en las estimaciones del balance de carbono. Informe científico 13, 1720 (2023). https://doi.org/10.1038/s41598-023-28827-2

Descargar cita

Recibido: 21 noviembre 2022

Aceptado: 25 de enero de 2023

Publicado: 31 enero 2023

DOI: https://doi.org/10.1038/s41598-023-28827-2

Cualquier persona con la que compartas el siguiente enlace podrá leer este contenido:

Lo sentimos, un enlace para compartir no está disponible actualmente para este artículo.

Proporcionado por la iniciativa de intercambio de contenido Springer Nature SharedIt

Al enviar un comentario, acepta cumplir con nuestros Términos y Pautas de la comunidad. Si encuentra algo abusivo o que no cumple con nuestros términos o pautas, márquelo como inapropiado.