Inteligência Artificial na Paleontologia

Os modelos de Inteligência Artificial

Nos últimos anos, a inteligência artificial tem desempenhado um papel cada vez mais significativo na ciência, impulsionando avanços notáveis na forma em que os cientistas estudam e interpretam uma grande quantidade de dados. A análise de informações tem sido revolucionada pela aplicação de algoritmos, técnicas de aprendizado da máquina (machine learning) e aprendizagem profunda (deep learning), permitindo a extração de informações valiosas a partir de grandes conjuntos de dados, acelerando a identificação de padrões e relações complexas nos mesmos.

Um modelo computacional desenvolvido por técnicas de inteligência artificial exige, inicialmente, um conjunto de dados de treinamento, os quais são, em princípio, variáveis numéricas. Através de um algoritmo de aprendizagem, é realizado o ajuste da saída do modelo, e com isso, pode-se predizer uma entrada nova com base no comportamento das variáveis e dos dados utilizados para treinamento. Em algoritmos mais sofisticados e aprofundados, também é desenvolvido um processo de “reforço e reaprendizagem”, com otimização dos parâmetros, de modo a elevar a acurácia do modelo. Estes modelos aperfeiçoados podem ser úteis na predição, classificação, identificação, e segmentação de imagens, por exemplo. Nestas situações, os dados não-numéricos são previamente convertidos em parâmetros numéricos. Na segmentação de imagens tal conversão ocorre para cada pixel ou conjunto de pixels da figura, reduzindo-a a uma matriz numérica.

Diante do grande desenvolvimento destas técnicas, tem-se empregado, de forma notável, modelos computacionais nas mais diversas esferas científicas, e na paleontologia não foi diferente. Em maio de 2024, Yu e colaboradores fizeram uma busca por artigos científicos de modelos de inteligência artificial no estudo de fósseis, e encontraram um total de 79 trabalhos publicados até a data analisada! A análise dos autores demonstrou a popularização da utilização das técnicas de inteligência artificial na paleontologia, com uma ampla gama de aplicações, e ao mesmo tempo, evidenciou desafios a serem superados. Vamos conhecer os resultados desta pesquisa?

A inteligência artificial no estudo dos fósseis

Embora análises auxiliadas por máquina já tivessem sido propostas anteriormente, a inteligência artificial foi somente apresentada como uma ideia científica em um workshop realizado em 1956, em Dartmouth College, nos Estados Unidos. Desde então, com o desenvolvimento de algoritmos cada vez mais complexos, aliado ao aumento da capacidade computacional, as técnicas de aprendizagem da máquina e aprendizagem profunda tornaram-se cada vez mais apreciadas. Não obstante, a sua utilização no campo da paleontologia se deu tardiamente, somente na década de 80 (Healy-Williams, 1983; 1984). Os trabalhos pioneiros consistiram em, a partir de fotomicrografias, extrair os contornos e caracteres diagnósticos de fósseis de foraminíferos – microorganismos marinhos unicelulares, cujo comprimento máximo geralmente não ultrapassa 1 milímetro – do Quaternário. A técnica empregada, a análise de Fourier, consiste em extrair componentes das imagens através de equações, o que a torna bastante útil no reconhecimento de padrões e objetos.

De fato, os foraminíferos têm sido os principais organismos fósseis a serem estudados através da inteligência artificial, chegando a um terço do total de trabalhos publicados nas últimas décadas (Fig. 1). Quando somados a trabalhos que envolvem outros microfósseis – grãos de pólen, esporos de algas, conodontes e radiolários –, o volume de publicações científicas chega à marca dos dois terços. Essa diferença marcante em relação aos macrofósseis (fósseis de maior tamanho) não se deve somente à aplicabilidade econômica dos microfósseis, mas reflete também a facilidade da aplicação das técnicas existentes nesses tipos de fósseis. Ao passo que uma fotografia de um diminuto foraminífero retém muitas informações morfológicas deste organismo, ao se estudar o esqueleto de um dinossauro, por exemplo, podem ser necessárias diversas fotografias em diferentes ângulos. Além disso, a preservação das características anatômicas de animais e vegetais frequentemente é acompanhada por algum nível de deformação, dada pelo processo de fossilização. Seja pela formação de incrustações, fraturas, ou compressão – o que prejudica a performance dos algoritmos. A quantidade de dados disponíveis é outro fator limitante, macrofósseis podem ser mais raros em relação aos microfósseis, os quais podem possuir milhares de amostras correspondentes. Desta forma, os modelos que utilizam microfósseis costumam ser melhor treinados e mais acurados.

Figura 1. A inteligência artificial na paleontologia. Dados de Yu et al. (2024) baseados em 79 trabalhos publicados. MA = marcos anatômicos (*landmarks*); CNN = redes neurais convolucionais; ML = aprendizagem da máquina (*machine learning*); KBS = sistemas baseados em conhecimento (*knowledge-based systems*); FA = Análise de *Fourier*; GAN = redes adversárias generativas (*generative adversarial networks*).

O avanço nos modelos computacionais no estudo de fósseis tem sido perceptível. Eles tem sido principalmente aplicados em fotografias, com o objetivo de classificação dos fósseis. A técnica mais utilizada nas últimas décadas corresponde ao algoritmo de redes neurais, o que é identificado tanto na paleontologia, quanto em outras áreas da Ciência. Trata-se de uma técnica de aprendizagem em que se introduz uma matriz de equações aos dados numéricos, a fim de minimizar iterativamente a função perda, e alcançar seu valor ótimo durante o treinamento. A rede neural é estruturada em camadas, as quais permitem modelar, de forma mais satisfatória, relações não-lineares entre os dados, determinando a profundidade e a complexidade do modelo proposto. Desta forma, o algoritmo mimetiza a estrutura do sistema nervoso, em que a informação é passada por sequências de neurônios (Fig. 2).

Figura 2. Modelo de funcionamento do algoritmo de redes neurais artificiais. A partir de uma entrada numérica, a informação é passada pelos neurônios (círculos) através de equações (conexões), até produzirem um resultado final (saída).

Um notável exemplo de aplicação e desenvolvimento da técnica é de um estudo preliminar realizado em 1996, com fins de classificação de algas calcárias fósseis (cocolitóforos). Nesse estudo, Dollfus e Beaufort (1996) utilizaram a técnica da transformada de Fourier combinada com as redes neurais artificiais em duas camadas, o que resultou em um modelo com taxa de acerto de somente 49%. Entretanto, no trabalho sucessor publicado três anos depois, o modelo de redes neurais artificiais foi aprofundado para 5 camadas, obtendo, assim, uma acurácia de 86%, a uma taxa de 40 classificações por segundo (Dollfus e Beaufort, 1999). Outro exemplo é o trabalho de Lallensack e colaboradores (2022), em que os autores visaram distinguir imagens de pegadas de dinossauros terópodes das pegadas dos ornitísquios, por meio de rede neurais com múltiplas camadas de neurônios, alcançando uma taxa de acertos também de 86%.

Apesar do avanço na aprendizagem profunda, as técnicas tradicionais de aprendizagem da máquina ainda são bastante utilizadas. Entre os vários algoritmos de aprendizagem existentes, se destacam três na paleontologia: máquina de vetores de suporte, floresta aleatória, e k-vizinhos mais próximos. O primeiro método de treinamento, a máquina de vetores de suporte, consiste em encontrar a divisão ótima do espaço, obtendo um hiperplano que separe dados distintos o máximo possível (Fig. 3A). A eficácia deste algoritmo foi certificada por Xu e colaboradores (2020), num estudo que visava, através de imagens, determinar de forma automatizada se existiam microfósseis ou não, alcançando acurácia de 85%. Por outro lado, ao repetir o experimento com a técnica de redes neurais, supostamente superior, o resultado foi insatisfatório, chegando a 0% de acerto para certas classes, em parte devido ao conjunto limitado de dados. Já o algoritmo da floresta aleatória cria múltiplas árvores de decisão, construídas através de subconjuntos de dados definidos aleatoriamente. A classificação ocorre pelo voto da maioria das árvores em uma determinada classe (Fig. 3B). No trabalho de Wills e colaboradores (2023), o modelo de floresta aleatória foi utilizado para determinar, através da morfologia, se dentes de terópodes fósseis eram ou não de maniraptores (grupo de celurossauros). Estimou-se uma eficácia de 86% para o modelo de floresta aleatória, o resultado mais satisfatório dentre os testados pelos autores. Por fim, a técnica dos k-vizinhos mais próximos (Fig. 3C) estima a classe de novas amostras baseada na classificação de uma quantidade k de dados mais próximos utilizados para treinamento (por exemplo, os k espécimes mais semelhantes entre si). Cita-se o trabalho de Conceição e colaboradores (2023), realizado por pesquisadores brasileiros, em que 42 gêneros de gimnospermas paleozoicas foram utilizados para treinar um modelo de classificação de plantas fósseis em ordens taxonômicas pré-conhecidas, por meio de variáveis da anatomia dos troncos, através desta técnica na versão de 1-vizinho mais próximo.

Figura 3. Os três métodos de aprendizagem da máquina mais utilizados em paleontologia. O ponto de interrogação indica uma entrada nova ao modelo treinado. A) máquina de vetores de suporte, em que as conchas são separadas dos ossos por um hiperplano (em vermelho), determinando a entrada nova como uma concha; B) floresta aleatória, em que a maioria das árvores elege a categoria osso para a entrada; C) k-vizinhos mais próximos, na versão 6-vizinhos mais próximos, em que se elege a classe concha para a entrada nova.

Perspectivas para o futuro

Sem dúvida, a inteligência artificial ainda possui um grande campo a ser explorado dentro da paleontologia. A automatização de métodos dispendiosos, tal como a classificação de um grande número de microfósseis, vem a atenuar a dificuldade dessa tarefa. Dessa maneira, os paleontólogos poderiam se concentrar em trabalhos com viés mais intelectual em detrimento de tarefas mecanizadas. Além disso, embora a definição dos algoritmos e seus hiperparâmetros consistam em uma escolha do pesquisador, a utilização da máquina vem a reduzir o nível de subjetividade empregada nos métodos tradicionais de análise.

Há, no entanto, grandes desafios a serem superados. A tridimensionalidade dos macrofósseis exige um poderio computacional maior e a utilização de técnicas mais complexas, sugerindo que a paleontologia abrace o espaço da Big Data, o que preceitua volume, variedade, velocidade, e veracidade dos dados. Entretanto, o volume de dados e sua velocidade de coleta costumam ser bastante limitados quando se trata de fósseis. Além disso, o registro paleontológico é raro e depende do grau de preservação, o que pode gerar falta de dados ou vieses no treinamento. Essa dificuldade pode nunca ser superada para alguns grupos fósseis ou tipos de pesquisas.

Em relação aos modelos, a expectativa é o aumento na profundidade das aprendizagens, com algoritmos multicamada. Técnicas mais sofisticadas, como as redes adversárias generativas, ainda pouco aplicadas pela comunidade paleontológica, devem se sobressair à medida que a inteligência artificial se torna cada vez mais comum. Resume-se em um modelo de redes neurais dupla: um gerador e um discriminador, os quais competem entre si para produzir saídas mais próximas possíveis. Com novas técnicas, as partes incompletas de esqueletos, por exemplo, poderão ser estipuladas automaticamente, auxiliando nas reconstruções filogenéticas.

No futuro, a inteligência artificial deverá envolver a descrição comparativa de fósseis, classificação, processamento de dados de imagens e codificação de caracteres morfológicos, auxiliando na condução de estudos em larga escala baseados em dados. Essa união entre a inteligência artificial e a paleontologia abrirá novas perspectivas de pesquisa e descoberta, oferecendo compreensões inovadoras sobre a evolução da vida na Terra e a história dos seres vivos que habitaram nosso planeta.

Referências

Conceição, D.M., Esperança Júnior, M.G.F., Iannuzzi, R., Recamonde-Mendoza, M., Malta, G.B.B.O. 2023. PaleoWood: a machine learning approach for determining the affinity of Paleozoic gymnosperm woods. Journal of South American Earth Sciences, 121, 104125.
Dollfus, D., Beaufort, L. 1996. Automatic pattern recognition of calcareous nanoplankton. Proceedings of the Conference on Neural Networks and their Applications (NEURAP 96), pp. 306–311.
Dollfus, D., Beaufort, L. 1999. Fat neural network for recognition of position-normalised objects. Neural Networks, 12, pp. 553–560.
Healy-Williams, N. 1983. Fourier shape analysis of Globorotalia truncatulinoides from late Quaternary sediments in the southern Indian Ocean. Marine Micropaleontology, 8, pp. 1–15.
Healy-Williams, N. 1984. Quantitative image analysis: Application to planktonic foraminiferal paleoecology and evolution. Geobios, 17, pp. 425–432.
Lallensack, J.N., Romilio, A., Falkingham, P.L., 2022. A machine learning approach for the discrimination of theropod and ornithischian dinosaur tracks. Journal of the Royal Society Interface, 19(196), 20220588.
Wills, S. Underwood, C.J., Barrett, PM. 2023. Machine learning confirms new records of maniraptoran theropods in Middle Jurassic UK microvertebrate faunas. Papers in Palaeontology, 9, e1487.
Xu, Y.X., Dai, Z., Wang, J., Li, Y., Wang, H. 2020. Automatic recognition of Palaeobios images under microscope based on machine learning. IEEE Access, 8, pp. 172972–172981.
Yu, C., Qin, F., Watanabe, A., Yao, W., Li, Y., Qin, Z., Liu, Y., Wang, H., Jiangzuo, Q., Hsiang, A.Y. and Ma, C. 2024. Artificial intelligence in paleontology. Earth-Science Reviews, 104765.

Sobre o(a/s) autor(a/es):

Mário G. F. Esperança Júnior

Possui graduação em Geologia e mestrado em Geociências pela UFRGS, na linha de pesquisa em Paleontologia. Atualmente é doutorando em Geologia pela Universidade Federal do Ceará (UFC), na linha de pesquisa de Geologia Sedimentar e Paleontologia. Trabalha com fósseis de gimnospermas paleozoicas e mesozoicas.

Colecionadores de Ossos