
Texto de:
Filomena Sândalo
Docente da área de Fonética e Fonologia no Departamento de Linguística da Unicamp
Você sabe quantas línguas indígenas há no Brasil? E você sabe o que fazer se quiser saber sobre estas línguas e suas artes verbais? O mundo tem 7000 línguas, e no Brasil estão mais de 150 delas, pertencentes a mais de um tronco linguístico, como pode ser observado nas duas primeiras figuras abaixo. E há muitas famílias linguísticas sem classificação em troncos ainda, e que, portanto, necessitam de pesquisa urgente, pois estão em perigo de extinção, conforme pode ser observado na terceira imagem.


Figura 3: Outras famílias (Fonte ISA)
Como se pode constatar, o Brasil tem uma enorme diversidade linguística. E, embora se possam encontrar estudos sobre estas línguas em trabalhos científicos, não é tão fácil encontrar materiais de narrativas indígenas na língua original com traduções e análise gramatical de modo online. Além disso, embora as comunidades contem com escolas indígenas, elas carecem de materiais para trabalhar gramática.
Por isso fizemos um corpus digital de uma dessas línguas, com narrativas, traduções e anotações sobre a sua gramática. O corpus está depositado em uma plataforma digital elaborada no IEL/UNICAMP que acomoda corpora linguísticos, a Plataforma Tycho Brahe.
Esta plataforma computacional foi elaborada sob a coordenação da docente do IEL Charlotte Galves, em cooperação com docentes de ciências da computação do IME/USP em sua primeira versão, e, a partir de 2012, em colaboração com o aluno de doutorado em linguística e cientista da computação, Luiz Veronesi, e poderá, no futuro, acomodar corpora de mais línguas e suas artes verbais. Este é um exemplo muito produtivo de cooperação em linguística e ciências da computação.
A língua cuja gramática e narrativas trabalhamos dentro do Tycho Brahe é o kadiwéu, língua da família Guaikurú. O kadiwéu tem menos de mil falantes, que moram no estado do Mato Grosso do Sul. Esta é a única língua da família Guaikurú no Brasil, e não se sabe ainda a qual tronco pertence dentro da América do Sul.
Dentro deste contexto, é importante ressaltar que a primeira mulher Kadiwéu na pós-graduação, Vanda Pires, está no IEL, onde faz doutorado em linguística. A doutoranda colabora ativamente com o desenvolvimento deste corpus.
Também colaboram com materiais e traduções os falantes de kadiwéu Hilário Silva, Osmar Francisco e Sandra Costa Silva. Hilário Silva tem se dedicado ao trabalho comigo por trinta anos, colaborando imensamente para a documentação de sua língua e cultura. Além de ser um material rico para a análise linguística, é um material rico para a antropologia, uma vez que o corpus conta com narrativas e cantos (choros) na língua original com traduções bilíngues (para o português e o inglês).
As línguas nativas do Brasil, já severamente ameaçadas antes da pandemia de COVID-19, enfrentam uma ameaça crescente com a morte de falantes nativos por esta doença. Por isso nosso trabalho é muito urgente, por promover uma inovação digital inclusiva, desenvolvendo uma plataforma computacional para dados que sejam cultural e gramaticalmente significativos.
Esses materiais linguísticos fornecerão uma base digital para uma educação bilíngue aprimorada, conexões inter-geracionais e a transmissão de conhecimento ancestral nas comunidades, além de preservar material que proporcionará futuras pesquisas nessas línguas ameaçadas de extinção. Os corpora orais servem como uma base de dados essencial para a pesquisa linguística, e podem fornecer treinamento e recursos digitais para pesquisadores de língua e cultura usando métodos da antropologia e da linguística.
Segue abaixo uma foto de uma sentença do corpus kadiwéu online, com suas camadas de anotações gramaticais e traduções bilíngues. Nela, tanto as palavras como as unidades que formam palavras (morfemas) são anotadas. Anotações de análise sintática também estão disponíveis e são geradas automaticamente pelo Parser de Regras da Plataforma Tycho Brahe. Neste momento, o corpus conta com 30 narrativas anotadas. Esta sentença pertence ao mito da mulher onça (negedioli), uma narrativa épica sobre uma mulher que vira onça, tema recorrente da mitologia do pantanal brasileiro e da região do Chaco argentino e paraguaio.
FIGURA 4 (2)


Para terminar, gostaríamos de compartilhar mais algumas informações sobre a Plataforma Tycho Brahe. Trata-se de uma estrutura computacional que facilita a coleta, anotação e comparação de dados textuais. A equipe de desenvolvimento desta plataforma, liderada pela professora Charlotte Galves, está trabalhando desde 1998 neste recurso computacional, e, desde 2012, em sua implementação de forma online. A ferramenta baseada em navegador online fornece funções de pesquisa, visualização e edição para anotações linguísticas com ferramentas integradas de tagger (etiquetador de palavras) e parser (anotador sintático de sentenças). O tagger já está gerando anotações de categorias sintáticas (POS) e morfológicas, bem como traduções automáticas de palavras para o português. As árvores sintáticas geradas automaticamente pelo parser colocam estas palavras em hierarquias que permitem traduções automáticas de frases, como apresentado na Figura 4.
A Plataforma Tycho Brahe complementa esforços paralelos em corpora computacionais, como ANNIS (corpus-tools.org/annis), desenvolvido na Humboldt University, Berlim, que está sendo aplicada a uma variedade de línguas, como o alemão, o árabe e muitas outras. Semelhante ao Tycho, o ANNIS é baseado em navegador de web e tem uma arquitetura de visualização para corpora linguísticos com multicamadas complexas e com diversos tipos de anotações. Uma vantagem do Tycho é seu identificador e analisador multinível integrando ferramentas que analisam palavras e blocos de construção de palavras (morfemas), tornando o Tycho particularmente adequado para a estrutura de palavras altamente complexa de muitas línguas da América do Sul, como o kadiwéu. A estrutura do Tycho é pioneira em sua aplicação a línguas indígenas da América do Sul.
O nome Tycho Brahe é uma homenagem ao astrólogo dinamarquês Tycho Brahe conhecido por suas anotações acuradas e detalhadas sobre constelações, no século 16. Consideramos a nossa tarefa como equivalente à de Tycho Brahe: fazemos anotações acuradas e detalhadas sobre as línguas do mundo ao longo de nossas vidas. O primeiro corpus elaborado nesta plataforma foi o corpus de português clássico elaborado pela professora Charlotte Galves. O kadiwéu é a primeira língua indígena contemplada. Esperamos que outros pesquisadores de outras línguas possam se juntar a esta equipe, contribuindo assim para o conhecimento e preservação das línguas indígenas do Brasil.
Se você quiser saber mais sobre a língua kadiwéu e outras línguas indígenas do Brasil, mesmo sem ser linguista, leia o livro Índio Não Fala Só Tupi: uma viagem pelas línguas dos povos originários do Brasil, de Kristina Balykova e Bruna Franchetto (organizadoras), onde há também um capítulo sobre o kadiwéu. E para visitar o corpus kadiwéu visite a Plataforma Tycho Brahe. Basta clicar em cada imagem ou sentença e as camadas de anotações e traduções vão se abrir.
Esta pesquisa tem sido financiada, desde 1998, pela Fundação de Amparo à Pesquisa do Estado de São Paulo (FAPESP), através de vários projetos temáticos e uma escola São Paulo de ciências avançadas, e, em 2021, recebemos um prêmio da Associação Brasileira de Linguística (ABRALIN) na modalidade Tecnologia e Inovação em Pesquisa Linguística.
Em suma, resta lembrar que os anciãos são os mais vulneráveis em relação à pandemia de COVID 19 e há várias artes verbais em processo de desparecimento. Por exemplo, os Kadiwéus tem um ritual cantado chamado de choro. Somente algumas anciãs sabem “chorar” atualmente. É bastante difícil traduzir um choro em kadiwéu, pois é cantado em uma variedade antiga desta língua. O choro indígena ainda está pouco documentado e nosso corpus contribui com o estudo linguístico e antropológico deste canto ritualístico.
O choro é um ritual bastante visual e esperamos a Plataforma Tycho Brahe contar com uma camada de vídeo no futuro. Há muito ainda para se fazer. A documentação é um trabalho árduo e lento, mas que abre possibilidades de mais pesquisas sobre língua e cultura mesmo quando seus idealizadores e a língua documentada não estejam mais vivos.
Parabéns, profa. Filomena e equipe da Plataforma! Aos indígenas Kadiwéu parabéns pelo esforço em manter a cultura linguística.