Interpretabilidade de LLMs

Curso rápido de 4 encontros com objetivo de introduzir a área de Mechanistic Interpretability para Large Language Models (LLMs). Pretendemos introduzir materiais teóricos, apresentar bibliotecas para interpretabilidade em Python, discutir papers recentes na área (publicados por organizações como Anthropic e Google DeepMind) e realizar exercícios práticos.

A área de Mechanistic Interpretability tem se popularizado de maneira acelerada nos últimos anos, com mais de 90 papers aceitos no ICML 2024. Seu principal objetivo é entender a lógica por trás das decisões de modelos de machine learning. Esses conhecimentos podem ser aplicados para aprimorar a transparência e a confiança em modelos existentes, além de permitir entender melhor como esses modelos aprendem.

Logo após o encerramento deste curso, o impactRIO organizará um Hackathon de Mechanistic Interpretability na FGV – detalhes a serem anunciados! Recomendamos fortemente que todos que tenham interesse em participar do Hackathon concluam este curso para introdução ao tema, além de terem as chances aumentadas de receber uma premiação na competição.

Acessar a programação   Acessar os materiais