Programação

Encontro 1 – Tranformers e Intepretabilidade #

Horário: Dia 23/08, sexta-feira, a partir das 14h30.

Local: Auditório 537.

Tempo	Descrição
Preparação	📖 Capítulo 2 e capítulo 3 do Handbook
45 min	🔍 Introdução a transformers e atenção
20 min	🥐 Coffee break
45 min	🔍 Introdução a Mechanistic Interpretability
30 min	💻 Coding: PyTorch e TransformerLens

Horário: Dia 30/08, sexta-feira, a partir das 14h30.

Local: Auditório 418.

Tempo	Descrição
Preparação	📖 Capítulo 3 e capítulo 4 do Handbook
40 min	🔍 Circuitos e o circuito de indução
20 min	📃 Exploração do paper A Mathematical Framework for Transformer Circuits.
20 min	🥐 Coffee break
60 min	💻 Coding: descoberta de circuitos

Horário: Dia 06/09, sexta-feira, a partir das 14h30.

Local: Auditório 537.

Tempo	Descrição
Preparação	📖 Capítulo 5 do Handbook
30 min	🔍 Superposição
30 min	▶ Vídeo do 3Blue1Brown How might LLMs store facts e discussão.
20 min	🥐 Coffee break
60 min	💻 Coding: superposição em toy models

Horário: Dia 13/09, sexta-feira, a partir das 15h00.

Local: Auditório 418.

Tempo	Descrição
Preparação	📖 Capítulo 6 do Handbook
30 min	🔍 Sparse Autoencoders (SAE) e exploração prática
30 min	📃 Exploração dos papers Towards Monosemanticity: Decomposing Language Models With Dictionary Learning e Scaling Monosemanticity: Extracting Interpretable Features from Claude 3 Sonnet
20 min	🥐 Coffee break
40 min	💻 Coding: Utilizando SAEs
30 min	🔍 Novas áreas de exploração e dicas para o Hackathon!