Traduções bagunçadas
Neste texto discutiremos o super poder que as traduções automáticas possuem de bagunçar o texto e como isto é o segredo para que pessoas “preguiçosas” (gente que copia o trabalho dos amiguinhos) possam se safar de serem pegas por verificadores de similaridades.
Um verificador de similaridades é um software utilizado para identificar o quão similar um texto é com outros já publicados. Este é um recurso utilizado para avaliar trabalhos acadêmicos e julgar se as similaridades são naturais ou se é fruto de plágio. Por quase um ano fiquei responsável por verificar similaridades e ajudar na correção de trabalhos de conclusão de curso, auxiliando como evitar que as similaridades aparecessem ou mesmo que fossem interpretadas como plágio… isto me ensinou uma coisa muito interessante, que traduções automáticas podem ser usadas para limpar textos e assim evitar que eles sejam tão similares.
O motivo dos tradutores automáticos bagunçarem o texto não é um problema de software, e sim dos idiomas… para entender isto, vamos analisar o conjunto de palavras que formam um idioma como sendo o Domínio de uma função e seus respectivos significados como a Imagem desta função. Assim, para cada palavra “blablublau” está associado um significado naquele idioma, por exemplo “o efeito da osteoporose nos guaxinins jamaicanos” que também pode ter este exato mesmo significado para um outro idioma, associado a palavra “parapapapapa”.
Dessa forma, se no idioma X existem M palavras-significados e no idioma Y existem N palavras-significados. Das palavras do idioma X, se existem L palavras com significados iguais ao idioma Y, ou seja, se para traduzir do idioma X ao idioma Y ou o contrário, existem L palavras cujas traduções serão exatas.
A tradução neste caso será exata, pois para cada palavra do Domínio de um idioma, geramos uma Imagem (significado) que é também a Imagem de uma palavra do Domínio de outro idioma. Dessa forma, se a palavra é o “código” que o idioma usa para definir o significado, podemos dizer que para ambos os idiomas, estas L palavras são iguais à menos do “código” utilizado como rótulo, por exemplo:
português → quadrado → □ ← square ← inglês
Contudo, a bagunça das traduções automáticas entre o idioma X e Y é resultado das M-L ou das N-L palavras. Pois se uma Imagem do Domínio das palavras do idioma X não possuí uma Imagem associada ao idioma Y, então é preciso combinar duas ou mais palavras-significados do idioma Y para equivaler a palavra-significado do idioma X, por exemplo:
português → anteontem || day before yesterday ← inglês
De volta ao sentido de Domínio e Imagem, chamaremos de D(xi) o Domínio de uma palavra do idioma X, I(xi) a Imagem de uma palavra do idioma X, I(yj) a Imagem de uma palavra do idioma Y, e D(yj) o Domínio de uma palavra do idioma Y. Dessa forma, para uma primeira tradução teremos:
D(x0) = I(x0) = I(y1) + I(y2) + … + I(yN) = D(y1) + D(y2) + … + D(yN).
(Pt) anteontem → (En) day before yesterday → (Pt) dia antes de ontem
Assim, se algum dos N significados da Imagem do idioma Y, não estiver entre as L palavras comuns dos dois idiomas, por exemplo a Imagem da palavra yk, teremos no processo reverso de tradução do idioma Y para o idioma X a seguinte estrutura:
D(y1) + D(y2) + … + D(yk) + … + D(yN) =
= I(y1) + I(y2) + … I(yk) + … + I(yN) =
= I(x1) + I(x2) + … I(xk1) + I(xk2) +… + I(xkN) + … + I(xN) = D(x1) + D(x2) + … D(xk1) + D(xk2) +… + D(xkN) + … + D(yN).
Dessa forma, a cada palavra-significado que não apresenta uma mesma Imagem no Domínio daquele idioma, geramos na tradução ao menos duas outras palavras com intenção de explicar seu significado. Mas se uma destas palavras que explicam o significado, não apresentar uma mesma Imagem no Domínio do outro idioma, para reverter a tradução, geraremos ao menos outras duas palavras que explicam seus significados. O processo segue naquela bagunça de tradução automática na qual culpamos o software inocente.
Façamos agora um experimento que demonstra como estas traduções bagunçadas podem ser usadas para não sermos pegos em detectores de similaridade mesmo quando copiamos o texto do amiguinho. Faremos isto com o texto do nosso amiguinho William Shakespeare, tomemos seis versos de um texto muito conhecido, o “ser ou não ser”.
Ser ou não ser, eis a questão: será mais nobre
Em nosso espírito sofrer pedras e setas
Com que a Fortuna, enfurecida, nos alveja,
Ou insurgir-nos contra um mar de provações
E em luta pôr-lhes fim? Morrer… dormir: não mais
(William Shakespeare).
Traduziremos agora pro inglês e depois pro português:
Ser ou não ser, eis a questão: será mais nobre
Em nosso espírito sofrem pedras e flechas
Com o qual a Fortune enfurecida nos alveja,
Ou enfrentar um mar de provações
E na luta para acabar com eles? Morra … durma: não mais
(provavelmente de William Shakespeare)
Um processo relativamente simples, mas as palavras em negrito e sublinhadas foram alteradas do texto inicial. Agora um experimento um pouco mais ousado. Passaremos o texto original do Português depois para o Francês depois para o Grego depois para o Russo depois para o Japonês depois para o Suaíli depois para o Húngaro depois para o Português. Com isso finalmente chegamos no seguinte resultado que marcamos em negrito e sublinhado as partes que foram alteradas da versão original:
O problema é se existe ou não um. É isso? Qual é melhor?
Pedras e flechas sofrem em nossos corações
Rumo ao destino do mal
Ou suportar o mar duro
E como terminamos esta corrida? Ele morreu … dormindo de novo.
(autor desconhecido)
Lendo o texto, percebemos que ele está muito alterado do original, na verdade é um outro texto. Mas em sentido se relaciona àquele inicial e o mais incrível, é que foi gerado de forma totalmente automática. De fato, este processo distorce o texto original o suficiente para preservar parcialmente seu sentido ao mesmo tempo que faz do novo texto, algo original.