Inteligência artificial e criatividade musical

Parte 2

José Fornari (Tuti) – 18 de dezembro de 2019

fornari @ unicamp . br

No artigo anterior falei rapidamente sobre as bases da pesquisa atal em inteligência artificial e como as recentes técnicas de aprendizado profundo (Deep Learning, ou simplesmente DL) trouxeram recentemente (na última década) um novo alento no processo de criação artística artificial. Desses técnicas, uma que se destaca é chamada de GAN, sigla que significa Generative Adversarial Network. A ideia por traz desta técnica é utilizar 2 redes neurais artificiais de aprendizagem profunda, uma para gerar e outra pra selecionar. GAN são normalmente traduzidas para o Portugues como “redes adversárias generativas”, ou “redes adversárias geradoras”. Muitas referências sobre GAN dizem que as duas redes (ANN) componentes de uma GAN são colocadas como adversárias, de modo a competirem na produção de imitação de um padrão de dados genéricos. Para mim, a arquitetura da GAN parece muito mais uma forma de cooperação do que competição artificial. Como disse no artigo anterior, as 2 categorias de problemas onde mais se utilizam ANN é: 1) classificação (identificar um padrão nos dado apresentados) e predição (criar um padrão baseado nos dados apresentados). Na GAN uma rede é treinada pra detectar um certo padrão (por exemplo, a imagem de um rosto humano). A outra rede é treinada pra gerar novos padrões, baseado em dados apresentados (por exemplo, gerar um rosto humano artificial original, diferente de todos os outros apresentados durante a fase de treinamento). Chamando a solução de cada rede de “candidato” (no caso, rosto humano), enquanto uma rede reproduz candidatos, a outra seleciona apenas os melhores (no caso, os rostos artificiais mais realistas). Este processo se parece muito com o modelo evolutivo de criatividade, que mencionei no artigo anterior onde uma rede age como o processo de reprodução e a outra como o processo de seleção. O resultado é impressionante. No final de 2018 pesquisadores da empresa Nvidia apresentaram o StyleGAN, um modelo de geração de fotografias de rostos humanos artificiais hiperrealistas (impossível de ser distinguidos da fotografia de um rosto verdadeiro). Em fevereiro de 2019 este modelo foi publicamente disponibilizado como código livre onde Phillip Wang lançøu um site que gera constantemente rostos de pessoas que nunca existiram. O site se chama https://thispersondoesnotexist.com

Nenhuma destas pessoas existem. Elas foram geradas por um modelo GAN. Fonte: https://9gag.com/gag/amBWoVv/those-people-doesnt-exist-they-are-generated-by-ai-artificial-intelligence

Estes modelos de DL avançaram para a produção de videos e já permitem criar montagens tão realistas que são impossíveis de serem desmascaradas como sendo falsas. Isto criou o termo Deepfake (profundamente falso) que é um tema bastante polêmico e potencialmente destrutivo, onde não se pode mais confiar em nossos sentidos para se saber se uma imagem ou video é verdadeiro ou falso. Segue abaixo um video de deepfake intencional, onde os 2 maiores oponentes no parlamento britânico são colocados como que pedindo para que o público vote em seu oponente e ao final confessam ser apenas montagens computacionais de deepfake.

Tenho percebido um esforço estratégico de várias frentes da tecnologia no sentido de viabilizar ferramentas para o aprendizado democrático de AI. Além da empresa OpenAI mencionada no artigo anterior, que oferece um tutorial sobre uma variação que eles utilizam do DL, o DRL (Deep Reinforced Learning) usado nas composições musicais automáticas mencionadas anteriormente, existem muitas outras frentes viabilizando e até fomentando o acesso público ao aprendizado dessa tecnologia e o desenvolvimento desses novos modelos computacionais de AI. A grande maioria destes, são desenvolvidos em programas de linguagens computacionais livres, como o Python, culminando no desenvolvimento de bibliotecas importantes de ML com ênfase em DL, gratuitas e de código aberto, como Tensorflow, o ambiente de desenvolvimento online gratuito de AI, o Google Colab, totalmente desenvolvido no ambiente de código aberto Jypter que permite ao usuário programar e executar seus códigos online (onde a Google oferece gratuitamente a qualquer usuário tempo de processamento em máquina com processadores paralelos, uma vez que os algoritmos de DL costumam exigir muito processamento computacional, acima da capacidade de processadores convencionais, que temos em nossos celulares e computadores). Imagino que haja um grande interesse empresarial por trás deste aparente altruismo de grandes aglomerados como a Nvidia e a Google, mas talvez esta venha a ser uma situação onde todos os envolvidos venham a sair ganhando, afinal a AI está agora transpondo barreiras analíticas e estéticas até a pouco tempo inimagináveis e o envolvimento humano com esta tecnologia pode rapidamente passar a ser, mais do que um diferencial positivo num currículo, uma questão de sobrevivência profissional e artística.

Fica aqui o questionamento do quão criativa pode ser considerada a atual imitação de um padrão musical por AI, como são as composições musicais apresentadas no artigo anterior, tanto da OpenIA como dos modelos supervisionados que completaram este ano as sinfonias inacabadas de Schubert e Beethoven. É bom lembrar que o ato de imitar é um dos passos necessários ao aprendizado. Uma criança começa imitando palavras, frases e maneirismos de seus pais e cuidadores, para depois desenvolver os seus próprios padrões, que irão descrever sua única e distinta personalidade. Um estudante de composição musical inicia estudando e até imitando o estilo de grandes compositores que admira, para depois desenvolver o seu próprio estilo composicional. Talvez estejamos presenciando agora a fase de mimese estética da AI para que depois suas futuras versões cheguem à fase da diegese, onde apresentarão narrativas originais e únicas. Conforme mencionado anteriormente a mimese “mostra sem explicar” enquanto que a diegese “explica sem mostrar”. De fato, modelos atuais de DL e especialmente GAN realizam a tarefa para a qual foram treinadas “sem explicar”, já que, conforme dito no último artigo, é impossível saber como a solução de DL foi obtida. Quem sabe num futuro próximo, novas tecnologias de AI serão capazes, como no caso da diegese, de explicar sem a necessidade de mostrar e assim angariar conhecimento sobre as soluções realizadas. Se isso ocorrer, queira o destino, que estes AI estejam ainda pouco conscientes ou suficientemente benevolentes para compartilharem seus conhecimentos adquiridos com a humanidade.

Referências:

“Inteligência artificial completa 10ª Sinfonia de Beethoven” Deutsche Welle.

Experts to use AI to finish Beethoven’s unfinished 10th symphony

John Kennedy. How AI completed Schubert’s Unfinished Symphony No 8.

Is AI stealing our jobs? – Matthias Röder (2019).

Everything You Need to Know About Artificial Neural Networks

Allen Huang, Raymond Wu. “Deep Learning for Music” CoRR abs/1606.04930.

Music Generation using Deep Learning

Deep Learning Book, online em Português e gratuito.

Como citar este artigo:

José Fornari. “Inteligência artificial e criatividade musical – parte 2”. Blogs de Ciência da Universidade Estadual de Campinas. ISSN 2526-6187. Data da publicação: 09 de dezembro de 2019. Link: https://www.blogs.unicamp.br/musicologia/2019/12/18/41/

Publicado

18 de dezembro de 2019

José Fornari (Tuti) em continuação, musicologia | 18 de dezembro de 2019

Inteligência artificial e criatividade musical

Publicado

18 de dezembro de 2019

Cancelar resposta

Escreva um comentário