José Fornari (Tuti)

Pesquisador, carreira Pq-A do NICS / UNICAMP. Professor pleno da Coordenadoria de Pós-graduação do Instituto de Artes da UNICAMP. Pós-doc em Cognição Musical na Universidade Jyvaskyla, Finlândia. Visitante escolar no CCRMA / Stanford University. Doutorado e Mestrado na FEEC / UNICAMP. Formado em Música popular (piano) e Engenharia elétrica na UNICAMP.

Inteligência Artificial em Música – parte 2

José Fornari – fornari @ unicamp . br

27 de julho de 2023

Conforme disse na palestra mencionada no artigo anterior, os estudos e aspirações em se criar uma máquina inteligente parecessem ter origem milenar. Na Grécia antiga, por exemplo, existia a lenda de um gigante feito de bronze, na ilha de Creta. Este era conhecido como “Talos” que, desde a era do bronze (mais de 300 séculos atrás), patrulhava esta ilha atacando barcos desconhecidos que lá tentavam aportar. No judaísmo, tem-se registros, desde o século 12, da lenda de “Golem”, um ser antropomórfico feito de argila que protege o povo judeu. No século 19, a escritora Mary Shelley escreveu o famoso romance de ficção científica intitulado “Frankenstein”, que narra a criação de um autômato feito de partes de diversos corpos humanos. Interessante notar que todos estes seres lendários: Talos, Golem, Frankenstein (entre outras ficções similares, como o robô Gort, do filme “the day the earth stood still“, de 1951), são criaturas mudas; agindo como corpos que se movimentam e cumprem ordens mas que não são capazes de se expressar através da linguagem, na minha opinião inferindo assim que estes seres não são capazes de pensar por si próprios. O que temos atualmente, na realidade tecnológica, com o avanço de modelos computacionais de inteligência artificial, em especial os da categorias LLM (Large Language Models), como é o caso do ChatGPT, é justamente o oposto. Estes são “vozes” (que se expressam através de textos) sem “corpos”. Diferente dos lendários autômatos do passado, os modelos LLM parecem muitas vezes pensar por si próprios, porém sem a habilidade de agirem diretamente no plano físico, uma vez que não possuem, pelo menos até o momento, uma interface física que os permita atuar diretamente, de modo não supervisionado e sem restrições, no plano físico.

Talos Golem Frankenstein

Isto para mim se deve à lenta mudança de paradigma de poder que vem ocorrendo na humanidade (desde o final da idade média até atualmente, com as tecnologias de informação e comunicação, que permitem o entretenimento, o estudo e o trabalho remoto, ao invés de necessariamente presencial) migrando da força física, representada pelo corpo, para a força mental da cognição, evidenciada pela sua expressão através da linguagem, pois é desta inerente habilidade comunicacional humana que advém outras áreas do conhecimento humano, como a filosofia, a lógica, a matemática, e assim toda a ciência e a tecnologia.

Na primeira metade do século 20, com o avanço tecnológico da eletrônica, começou-se a estudar a possibilidade do desenvolvimento do que chamavam na época de “cérebro eletrônico”; uma máquina eletrônica capaz de resolver problemas lógicos, simulando assim, uma das habilidades da inteligência humana, que passou a ser chamada de “inteligência artificial“. Dentre tantos pesquisadores, pode-se citar os trabalhos de Alan Turing, com o desenvolvimento de uma máquina hipotética, intitulada de Turing Machine, que através de recursos parcimoniosos  (uma fita unidimensional dividida em segmentos regulares onde uma cabeça poderia ler ou escrever símbolos nestes segmentos) podia investigar os limites da computabilidade, também chamado de problema da “parada de Turing”, ou Halting Problem, relacionado à incompletude matemática, comprovada pelos dois teoremas de Godel, em 1931. 

John Von Neumann, um dos fundadores dos estudos em inteligência artificial, criou a arquitetura computacional  baseada na Turing Machine, bem como no cérebro humano, contendo uma unidade processadora de aritmética e lógica (a meu ver, inspirada em nossa cognição), uma unidade de controle (o córtex préfrontal), uma memória principal (a nossa memória de longo prazo), memória periférica (como a nossa memória de curto prazo) e dispositivos de entrada e saída (como são nossos sentidos). Esta arquitetura foi usada no primeiro computador eletrônico com lógica binária (como são os potenciais de ação neurais), em 1946; o  EDVAC  (Electronic Discrete Variable Automatic Computer).

Interessante observar que a arquitetura computacional visionada por Von Neumann não levou em consideração os aspectos expressivos da mente humana, como o sistema límbico, a parte primitiva e profunda de nosso cérebro onde emoções são geradas e percebidas. Se já é definitivamente comprovado que os métodos formais da lógica, da matemática e da computação, são comprovadamente incompletos (através de diversas evidências formais, como o Halting problem e os teoremas da incompletude de Godel, ambos mencionados acima, bem como o famoso e misterioso Game of Life) as estratégias que a linguagem se vale para lidar como tal incompletude (ou, no caso da linguagem, a inefabilidade), a meu ver, não são cognitivos mas sim expressivos, ou seja, ao invés de corticais, estes são límbicos. Podemos observar tais evidências na expressividade contida em figuras de linguagem, como a dualidade da metáfora, a exemplificação da analogia, a extensão sensorial da sinestesia, o reforço da hipérbole, o abrandamento do eufemismo ou a imponderabilidade do paradoxo. A linguagem se vale de diversas estratégias para evitar, contornar, referir ou mesmo utilizar expressivamente a incompletude da razão. Não apenas de figuras de linguagem mas também, na sua forma falada, a oralidade agrega a prosódia que enriquece a comunicação semântica com significados expressivos, que são muitas vezes essenciais para a comunicação humana. Pessoas no espectro TEA, por exemplo, muitas vezes tem dificuldades de entender e expressar nuances da oralidade, o que os dificulta entender a emoção de outros, através da oralidade; que é parte fundamental da prosa, da poesia e da canção, que artisticamente ergue a metafórica ponte entre linguagem e a música. 

Como a linguagem é a base da razão humana, ao se criar um modelo computacional eficiente de processamento de linguagem artificial (os modelos LLM, como o ChatGPT) estes também se tornam capaz de lidar com problemas matemáticos, lógicos, filosóficos e tecnológicos. No entanto, na parte expressiva, como irei discutir adiante, estes modelos não impressionam tanto quanto o fazem ao gerar código de programação, criar poesia em estilo de grandes autores, esclarecer questões científicas e tecnológicas, resolver complexos problemas matemáticos ou mesmo discorrer sobre questões filosóficas. A criatividade, na minha opinião, é uma capacidade humana que transcende a razão; que se origina de um processo abdutivo que posteriormente se vale da indução e da dedução (na minha opinião, os únicos processos que os modelos LLM são capazes de simular) para gerar novo conhecimento ou arte, como a música. Os modelos LLM, a meu ver, são capazes de utilizar o vasto conhecimento humano (através de processos similares à dedução) e de o processar (analisando, recombinando, testando uma enorme quantidade de dados; através de processos similares à indução) mas não são capazes de gerar conhecimento novo pois não possuem a capacidade de criar, o que pode até certo ponto ser simulado por processos pseudoaleatórios, mas que para mim não se equiparam ou substituem a abdução da mente humana. 

 


Como citar este artigo:
José Fornari. “Inteligência Artificial em Música – parte 2”. Blogs de Ciência da Universidade Estadual de Campinas. Data da publicação: 27 de julho de 2023. Link: https://www.blogs.unicamp.br/musicologia/2023/07/27/inteligencia-artificial-em-musica-parte-2/