Palestrante
Descrição
Este resumo expandido sintetiza e adapta um estudo que compara duas estratégias de aprendizado por reforço (AR) para otimização de drives motivacionais em agentes cognitivos autônomos: (i) 1-LDO (Unified Learning for Drives Optimization), que utiliza um único learner (Q-Table/DQN) para todas as motivações, e (ii) 2-LDO ( Dual Learning for Drives Optimization), que desacopla o aprendizado por tipo de drive e prioriza, a cada passo, o mais ativo. As estratégias são ancoradas na Teoria da Redução de Drives de Hull e implementadas em uma arquitetura cognitiva com módulos sensoriais, atencionais, motivacionais e de aprendizado, em um ambiente simulado com a robô humanoide Marta. Os resultados indicam que: (a) DQN tende a reduzir o estresse (soma de ativações dos drives de curiosidade e sobrevivência) com maior estabilidade, especialmente em 2-LDO; (b) Q-Learning pode ser competitivo em cenários mais grosseiros (passos maiores de bateria); (c) a granularidade do ambiente influencia significativamente o aprendizado e a homeostase.