Un nuevo estudio propone una identificación taxonómica automática basada en el conjunto de datos de imágenes fósiles (>415 000 imágenes) y redes neuronales convolucionales profundas

Noticias

HogarHogar / Noticias / Un nuevo estudio propone una identificación taxonómica automática basada en el conjunto de datos de imágenes fósiles (>415 000 imágenes) y redes neuronales convolucionales profundas

Nov 21, 2023

Un nuevo estudio propone una identificación taxonómica automática basada en el conjunto de datos de imágenes fósiles (>415 000 imágenes) y redes neuronales convolucionales profundas

La paleontología es un campo fascinante que nos ayuda a comprender la historia de la vida.

La paleontología es un campo fascinante que nos ayuda a comprender la historia de la vida en la Tierra mediante el estudio de formas de vida antiguas y su evolución. Sin embargo, uno de los principales desafíos en la investigación paleontológica es el proceso de identificación taxonómica que requiere mucho trabajo y tiempo, lo que requiere un amplio conocimiento y experiencia en un grupo taxonómico en particular. Además, los resultados de la identificación a menudo deben ser más consistentes entre los investigadores y las comunidades.

Las técnicas de aprendizaje profundo han surgido como una solución prometedora para respaldar la identificación taxonómica de fósiles. En este contexto, un equipo de investigación chino publicó recientemente un artículo que explora el potencial del aprendizaje profundo para mejorar la precisión de la identificación taxonómica.

La principal contribución de este documento es la creación y validación de un gran y completo conjunto de datos de imágenes fósiles (FID) utilizando rastreadores web y curación manual. El conjunto de datos incluye 415.339 imágenes de 50 clados diferentes de fósiles, incluidos invertebrados, vertebrados, plantas, microfósiles y trazas de fósiles. Se utilizó una red neuronal convolucional (CNN) para clasificar las imágenes de fósiles y se lograron altas precisiones de clasificación, lo que demuestra el potencial de la FID para la identificación y clasificación automatizadas de fósiles. Los autores también pusieron a disposición del público la FID para uso y desarrollo futuros.

Este estudio investiga experimentalmente el uso del aprendizaje por transferencia con modelos entrenados en ImageNet para identificar y clasificar fósiles en la base de datos de imágenes fósiles (FID). Los autores encontraron que congelar la mitad de las capas de la red como extractores de características y entrenar las capas restantes produjo el mejor rendimiento. El aumento y la eliminación de datos fueron métodos efectivos para evitar el sobreajuste, mientras que la disminución frecuente de la tasa de aprendizaje y los grandes tamaños de lotes de entrenamiento contribuyeron a una convergencia más rápida y una alta precisión. El estudio también examinó el impacto de los datos desequilibrados en el algoritmo y empleó métodos de muestreo para el aprendizaje desequilibrado. La calidad del conjunto de datos fue importante para una identificación precisa, con microfósiles funcionando bien debido a la disponibilidad de imágenes de alta calidad, mientras que ciertos fósiles con mala conservación y pocas muestras funcionaron mal. Los autores también encontraron que la gran diversidad morfológica intraclase de ciertos clados dificultaba la precisión de la identificación debido a la dificultad de la arquitectura DCNN para extraer características discriminatorias.

La arquitectura Inception-ResNet-v2 logró una precisión promedio de 0,90 en el conjunto de datos de prueba cuando se utilizó el aprendizaje por transferencia. Los microfósiles y los fósiles de vertebrados tuvieron las mayores precisiones de identificación de 0,95 y 0,90, respectivamente. Sin embargo, clados como esponjas, briozoos y fósiles traza, que tenían varias morfologías o pocas muestras en el conjunto de datos, tenían precisiones de identificación por debajo de 0,80.

En conclusión, las técnicas de aprendizaje profundo, particularmente el aprendizaje por transferencia, han mostrado resultados prometedores en la mejora de la precisión y eficiencia de la identificación taxonómica de fósiles. La creación y validación de un conjunto de datos de imágenes fósiles grande y completo, como la base de datos de imágenes fósiles (FID), es crucial para lograr una alta precisión de identificación. Su disponibilidad para uso público y desarrollo es beneficiosa para el avance del campo de la paleontología. Sin embargo, la precisión de los modelos de aprendizaje profundo depende de la calidad y diversidad del conjunto de datos, y ciertos clados plantean desafíos debido a su diversidad morfológica intraclase o su mala conservación. Se necesita más investigación y desarrollo en técnicas de aprendizaje profundo y conjuntos de datos de imágenes fósiles a gran escala para superar estos desafíos y mejorar la precisión y la eficiencia de la investigación paleontológica.

Además, las técnicas de aprendizaje profundo en paleontología pueden potencialmente transformar el campo más allá de la identificación taxonómica. Estas técnicas pueden extraer más información de los datos fósiles, como la segmentación y reconstrucción de fósiles, la integración de datos fósiles con otros tipos de datos y la detección de patrones y anomalías en conjuntos de datos fósiles a gran escala. Esto amplía nuestra comprensión de la historia de la vida en la Tierra, allanando el camino para descubrimientos y avances emocionantes.

Revisar laPapel. Todo el crédito de esta investigación es para los investigadores de este proyecto. Además, no olvides unirtenuestro SubReddit de 18k+ ML,Canal de discordia, yBoletín electrónico, donde compartimos las últimas noticias de investigación de IA, interesantes proyectos de IA y más.

🚀 Echa un vistazo a las herramientas de IA de 100 en AI Tools Club

Mahmoud es investigador de doctorado en aprendizaje automático. También tiene una licenciatura en ciencias físicas y una maestría en telecomunicaciones y sistemas de redes. Sus áreas de investigación actuales se refieren a la visión artificial, la predicción del mercado de valores y el aprendizaje profundo. Produjo varios artículos científicos sobre la reidentificación de personas y el estudio de la solidez y estabilidad de las redes profundas.

Papel. nuestro boletín informativo por correo electrónico de 18k+ ML SubReddit Discord Channel 🚀 Echa un vistazo a las herramientas de IA de 100 en AI Tools Club