Programação
Encontro 1 – Tranformers e Intepretabilidade #
Horário: Dia 23/08, sexta-feira, a partir das 14h30.
Local: Auditório 537.
Tempo | Descrição |
---|---|
Preparação | 📖 Capítulo 2 e capítulo 3 do Handbook |
45 min | 🔍 Introdução a transformers e atenção |
20 min | 🥐 Coffee break |
45 min | 🔍 Introdução a Mechanistic Interpretability |
30 min | 💻 Coding: PyTorch e TransformerLens |
Encontro 2 – Circuitos #
Horário: Dia 30/08, sexta-feira, a partir das 14h30.
Local: Auditório 418.
Tempo | Descrição |
---|---|
Preparação | 📖 Capítulo 3 e capítulo 4 do Handbook |
40 min | 🔍 Circuitos e o circuito de indução |
20 min | 📃 Exploração do paper A Mathematical Framework for Transformer Circuits. |
20 min | 🥐 Coffee break |
60 min | 💻 Coding: descoberta de circuitos |
Encontro 3 – Superposição #
Horário: Dia 06/09, sexta-feira, a partir das 14h30.
Local: Auditório 537.
Tempo | Descrição |
---|---|
Preparação | 📖 Capítulo 5 do Handbook |
30 min | 🔍 Superposição |
30 min | ▶ Vídeo do 3Blue1Brown How might LLMs store facts e discussão. |
20 min | 🥐 Coffee break |
60 min | 💻 Coding: superposição em toy models |
Encontro 4 – Sparse Autoencoders (SAE) #
Horário: Dia 13/09, sexta-feira, a partir das 15h00.
Local: Auditório 418.
Tempo | Descrição |
---|---|
Preparação | 📖 Capítulo 6 do Handbook |
30 min | 🔍 Sparse Autoencoders (SAE) e exploração prática |
30 min | 📃 Exploração dos papers Towards Monosemanticity: Decomposing Language Models With Dictionary Learning e Scaling Monosemanticity: Extracting Interpretable Features from Claude 3 Sonnet |
20 min | 🥐 Coffee break |
40 min | 💻 Coding: Utilizando SAEs |
30 min | 🔍 Novas áreas de exploração e dicas para o Hackathon! |