GRPO - Group Relative Policy Optimization - How DeepSeek trains reasoning models

Létrehozva 2mo | 2025. máj. 8. 14:20:03

EGYÉB POSTS Ebben a csoportban

2025. jún. 20. 20:40:09 | Louis Serano

2025. jún. 20. 20:40:07 | Louis Serano

2025. jún. 20. 20:40:05 | Louis Serano

2025. jún. 11. 23:30:03 | Louis Serano

2025. jún. 3. 4:30:03 | Louis Serano

2025. máj. 22. 14:30:02 | Louis Serano

2025. ápr. 24. 20:50:07 | Louis Serano

Tomas_r2