quarta-feira, 30 de agosto de 2023

CSM: Imagem para 3D


Outro dos serviços que ando a experimentar neste período de férias é o surpreendente Common Sense Machines, com os seus algoritmos de geração 3D a partir de uma imagem.  Basta fazer upload de uma imagem no site, ou via bot Discord, e o algoritmo gera uma planificação em quatro pontos de vista, utilizada para gerar um modelo 3D. 

Os resultados não são muito consistentes, tanto pode correr bem como correr mal, mas dado o recente e caráter experimental destas tecnologias, é de esperar. Por vezes, extrapolação das vistas pode não ser a mais rigorosa, a geração da mesh pode trazer más surpresas. A texturização final tem ainda muito que evoluir, as cores do modelo 3D raramente são fieis à imagem original. No entanto, a grande maioria dos resultados são muito interessantes.

Para agilizar a experiência, optei por um ritmo que cruza diferentes ferramentas. Um LLM para gerar descrições de elementos (ando numa onda pré-halloween, notoriamente, os prompts foram bastante dark) que pudessem ser usados como prompts em geradores de imagem, usei o Bard e o Perplexity para isso. Adobe Firefly ou Clipdrop para gerar imagens, e a ferramenta de remoção de fundos do Adobe Express (o CSM requer imagens com fundo branco ou transparente para que o algoritmo funcione. 

Nem sempre os resultados eram fieis às imagens, e os modelos tem algumas falhas e falta de detalhes, mas isso é de esperar, esta tecnologia está neste momento a dar os primeiros passos. De qualquer forma, ao regressar à escola, vou imprimir alguns destes modelos em 3D, para perceber os resultados.

A consistência do algoritmo também é estranha. Testei com fotos minhas, com resultados algo bizarros e anatomicamente aterrorizantes, até me calhar este, que me transformou numa segunda encarnação do Capitão Haddock. A ironia, é que foi usada uma foto e não um avatar ou caricatura como imagem de base. Os caminhos dos espaços latentes destes algoritmos são insondáveis.

O CSM está a crescer muito depressa, e a começar a ser pago. Congeminei uma possível atividade com alunos, mas dado os limites do serviço suspeito que terei de diminuir as ambições. De qualquer forma, é uma tecnologia prometedora, e brevemente haverá mais diversidade de serviços e aplicações.

Sem comentários:

Enviar um comentário