TIC em 3D: Deep Daze

Mulher olhando para maçã, numa floresta iluminada por raios solares.

Rua à beira rio, cão, em dia de céu azul.

Casa na colina, em manhã de nevoeiro.

Estou a divertir-me mais do que deveria com o Deep Daze. Esta ferramenta permite usar as capacidades dos algoritmos CLIP (geração automática de categorias e etiquetas a partir de reconhecimento de imagens) e SIREN. O resultado? Uma ferramenta que nos permite dar ao algoritmo uma frase de input, e ele, seguindo uma sequência de iterações, nos apresenta um resultado em imagem. Ou seja, geração de imagens a partir de texto.

O código para correr o Deep Daze está no Github, mas confesso que prefiro este bloco de notas Colab que simplifica o processo: basta importar as bibliotecas Python, alterar os parâmetros desejados (texto inicial, tamanho da imagem, número de iterações, razão de aprendizagem): Colab Deep Daze.

Para correr este algoritmo, é necessário um computador com placa gráfica dedicada, compatível com CUDA, e requer uma quantidade generosa de VRAM (4gb no mínimo).

De resto, basta indicar um input - uma frase descritiva, em inglês, e pode ser muito surreal. O algoritmo começa com uma difusa imagem cinzento nublado e vai correndo iterações sucessivas até apresentar o que julga ser o indicado pelo utilizador. Os resultados, como podem ver neste post, são interessantes e surpreendentes. Os títulos das imagens são os inputs que dei ao algoritmo.

Céu azul tocando uma guitarra.

Memória de um cão a viajar no tempo.

Retrato de pessoa confusa, num céu de profundo vermelho.

Infelizmente, estão em resolução de 512x512. A minha placa gráfica não tem capacidade suficiente para ir a 1024x1024.

TIC em 3D

Páginas

sábado, 10 de abril de 2021

Deep Daze

Sem comentários:

Enviar um comentário