Papperoni

2024

Training Language Models to Self-Correct via Reinforcement Learning

A. Kumar, V. Zhuang, R. Agarwal, Yu Su, J. D. C. Reyes, A. Singh, K. Baumli, S. Iqbal, C. Bishop, R. Roelofs

citations

Citation Graph

Loading graph...

References [0]

Sort:

Filter:

No references match the current filters.

Cited by

papers in your library

Cites

papers in your library

Notes