Programação
Encontro 1 – Tranformers e Intepretabilidade #
Horário: Dia 23/08, sexta-feira, a partir das 14h30.
Local: Auditório 537.
| Tempo | Descrição | 
|---|---|
| Preparação | 📖 Capítulo 2 e capítulo 3 do Handbook | 
| 45 min | 🔍 Introdução a transformers e atenção | 
| 20 min | 🥐 Coffee break | 
| 45 min | 🔍 Introdução a Mechanistic Interpretability | 
| 30 min | 💻 Coding: PyTorch e TransformerLens | 
Encontro 2 – Circuitos #
Horário: Dia 30/08, sexta-feira, a partir das 14h30.
Local: Auditório 418.
| Tempo | Descrição | 
|---|---|
| Preparação | 📖 Capítulo 3 e capítulo 4 do Handbook | 
| 40 min | 🔍 Circuitos e o circuito de indução | 
| 20 min | 📃 Exploração do paper A Mathematical Framework for Transformer Circuits. | 
| 20 min | 🥐 Coffee break | 
| 60 min | 💻 Coding: descoberta de circuitos | 
Encontro 3 – Superposição #
Horário: Dia 06/09, sexta-feira, a partir das 14h30.
Local: Auditório 537.
| Tempo | Descrição | 
|---|---|
| Preparação | 📖 Capítulo 5 do Handbook | 
| 30 min | 🔍 Superposição | 
| 30 min | ▶ Vídeo do 3Blue1Brown How might LLMs store facts e discussão. | 
| 20 min | 🥐 Coffee break | 
| 60 min | 💻 Coding: superposição em toy models | 
Encontro 4 – Sparse Autoencoders (SAE) #
Horário: Dia 13/09, sexta-feira, a partir das 15h00.
Local: Auditório 418.
| Tempo | Descrição | 
|---|---|
| Preparação | 📖 Capítulo 6 do Handbook | 
| 30 min | 🔍 Sparse Autoencoders (SAE) e exploração prática | 
| 30 min | 📃 Exploração dos papers Towards Monosemanticity: Decomposing Language Models With Dictionary Learning e Scaling Monosemanticity: Extracting Interpretable Features from Claude 3 Sonnet | 
| 20 min | 🥐 Coffee break | 
| 40 min | 💻 Coding: Utilizando SAEs | 
| 30 min | 🔍 Novas áreas de exploração e dicas para o Hackathon! |