2025
Auditing Language Models for Hidden Objectives
S. Marks, J. Treutlein, T. Bricken, J. Lindsey, J. Marcus, S. M. Sharma, D. Ziegler, E. Ameisen, J. Batson, T. Belonax, Samuel R. Bowman, S. Carter, Berlin Chen, H. Cunningham, C. Denison, F. Dietz, S. Golechha, A. Khan, J. Kirchner, Jan Leike, A. Meek, K. N. Gasparian, E. Ong, Christopher Olah, A. Pearce, F. Roger, J. Salle, A. Shih, Meg Tong, D. Thomas, K. Rivoire, A. Jermyn, M. Macdiarmid, Tom Henighan, E. Hubinger
Citation Graph
References [0]