3 – 5 de dez. de 2025
FEEC / UNICAMP
Fuso horário America/Sao_Paulo
É com grande satisfação que convidamos toda a comunidade do DCA a participar da décima sétima edição do nosso tradicional encontro

De Embeddings a Modelos de Linguagem: Uma Análise Comparativa de Extratores de Caraterística para Geração de Gestos com Texto-Only e Multimodal

4 de dez. de 2025 11:10
12m
Sala da Congregação (FEEC / UNICAMP)

Sala da Congregação

FEEC / UNICAMP

Av. Albert Einstein, Nº 400
Trabalho consolidado ou em conclusão Sessões orais

Palestrante

Johsac Isbac Gomez Sanchez (Estudante)

Descrição

A geração de gestos co-verbais expressivos e contextualmente apropriados é crucial para a naturalidade na interação humano-agente. Embora os Modelos de Linguagem Grandes (LLMs) tenham demonstrado grande potencial para essa tarefa, persistem questões sobre a integração ideal de características multimodais e as capacidades de modelos menores e mais acessíveis. Este estudo apresenta uma avaliação sistemática e comparativa de sete pipelines de geração de gestos, utilizando uma robusta arquitetura baseada em difusão. Investigamos o impacto de extratores de características de áudio (WavLM, Whisper) e texto (Word2Vec, Llama-3.2-3B-Instruct) para avaliar a contribuição relativa de cada modalidade. Demonstramos que é possível alcançar desempenho de ponta utilizando um LLM significativamente menor (3B parâmetros) do que benchmarks anteriores, sem sacrificar a qualidade. Nossos resultados, baseados em métricas objetivas e uma avaliação perceptual abrangente, revelam que os pipelines que incorporam o Llama-3.2-3B-Instruct não apenas superam as referências em adequação semântica e semelhança humana, mas também são percebidos como mais apropriados por avaliadores humanos.

Autor

Co-autor

Paula Costa (Unicamp)

Materiais de apresentação