Materiais
Encontro 1 #
Handbook:
Papers:
Coding:
Vídeos:
- 3B1B – But what is a GPT? Visual intro to transformers | Chapter 5, Deep Learning
- 3B1B – Attention in transformers, visually explained | Chapter 6, Deep Learning
Encontro 2 #
Handbook:
Papers:
- Interpretability In The Wild: A Circuit For Indirect Object Identification In GPT-2 Small
- In-context Learning and Induction Heads
- A Mathematical Framework for Transformer Circuits
Coding:
Encontro 3 #
Handbook:
Papers:
Coding:
Vídeos:
Encontro 4 #
Handbook:
Papers:
- Sparse Autoencoders Find Highly Interpretable Features in Language Models
- Towards Monosemanticity: Decomposing Language Models With Dictionary Learning
- Scaling Monosemanticity: Extracting Interpretable Features from Claude 3 Sonnet
Coding:
Extra #
- Lista de papers relevantes da área, de acordo com Neel Nanda: An Extremely Opinionated Annotated List of My Favourite Mechanistic Interpretability Papers v2
- Passos concretos para começar em MechInterp: Concrete Steps to Get Started in Transformer Mechanistic Interpretability
- 200 Problemas concretos abertos em MechInterp (pode ser interessante para o Hackathon, mas a lista está desatualizada): 200 Concrete Open Problems in Mechanistic Interpretability: Introduction
Oportunidades #
ARENA (Material base deste curso)
- Oportunidade de passar 4 semanas em Londres estudando conteúdos práticos relevantes para pesquisa em AI Safety
- https://www.arena.education/
MATS
- Programa para iniciar pesquisa em AI Safety com orientação de mentores com ampla experiência na área. Diversos autores de papers utilizados nesse curso são mentores do MATS.
- Mentors — ML Alignment & Theory Scholars