GRPO - Group Relative Policy Optimization - How DeepSeek trains reasoning models

созданный 3mo | 8 мая 2025 г., 14:20:03

Другие сообщения в этой группе

11 июл. 2025 г., 17:30:03 | Louis Serano

20 июн. 2025 г., 20:40:09 | Louis Serano

20 июн. 2025 г., 20:40:07 | Louis Serano

20 июн. 2025 г., 20:40:05 | Louis Serano

11 июн. 2025 г., 23:30:03 | Louis Serano

3 июн. 2025 г., 04:30:03 | Louis Serano

22 мая 2025 г., 14:30:02 | Louis Serano

Tomas_r2