Programação

Encontro 1 – Tranformers e Intepretabilidade #

Horário: Dia 23/08, sexta-feira, a partir das 14h30.

Local: Auditório 537.

TempoDescrição
Preparação📖 Capítulo 2 e capítulo 3 do Handbook
45 min🔍 Introdução a transformers e atenção
20 min🥐 Coffee break
45 min🔍 Introdução a Mechanistic Interpretability
30 min💻 Coding: PyTorch e TransformerLens
Acessar os materiais para esse encontro

Encontro 2 – Circuitos #

Horário: Dia 30/08, sexta-feira, a partir das 14h30.

Local: Auditório 418.

TempoDescrição
Preparação📖 Capítulo 3 e capítulo 4 do Handbook
40 min🔍 Circuitos e o circuito de indução
20 min📃 Exploração do paper A Mathematical Framework for Transformer Circuits.
20 min🥐 Coffee break
60 min💻 Coding: descoberta de circuitos
Acessar os materiais para esse encontro

Encontro 3 – Superposição #

Horário: Dia 06/09, sexta-feira, a partir das 14h30.

Local: Auditório 537.

TempoDescrição
Preparação📖 Capítulo 5 do Handbook
30 min🔍 Superposição
30 min▶ Vídeo do 3Blue1Brown How might LLMs store facts e discussão.
20 min🥐 Coffee break
60 min💻 Coding: superposição em toy models
Acessar os materiais para esse encontro

Encontro 4 – Sparse Autoencoders (SAE) #

Horário: Dia 13/09, sexta-feira, a partir das 15h00.

Local: Auditório 418.

TempoDescrição
Preparação📖 Capítulo 6 do Handbook
30 min🔍 Sparse Autoencoders (SAE) e exploração prática
30 min📃 Exploração dos papers Towards Monosemanticity: Decomposing Language Models With Dictionary Learning e Scaling Monosemanticity: Extracting Interpretable Features from Claude 3 Sonnet
20 min🥐 Coffee break
40 min💻 Coding: Utilizando SAEs
30 min🔍 Novas áreas de exploração e dicas para o Hackathon!
Acessar os materiais para esse encontro