GRPO - Group Relative Policy Optimization - How DeepSeek trains reasoning models

Vytvořeno 3mo | 8. 5. 2025 14:20:03

Ostatní příspěvky v této skupině

11. 7. 2025 17:30:03 | Louis Serano

20. 6. 2025 20:40:09 | Louis Serano

20. 6. 2025 20:40:07 | Louis Serano

20. 6. 2025 20:40:05 | Louis Serano

11. 6. 2025 23:30:03 | Louis Serano

3. 6. 2025 4:30:03 | Louis Serano

22. 5. 2025 14:30:02 | Louis Serano

Tomas_r2