Batched reward model inference and Best-of-N sampling



Chcete-li přidat komentář, přihlaste se