Reverse Engineering OpenAI’s o1
Q* (Q-star) to Strawberry to o1

- Q*는 Tree of Thought와 Process Reward Model이 결합되어 Reinforcement Learning을 했을 것이라고 추측되고 있음
- ToT를 통하여 데이터를 많이 만들고, 각각의 vertex에 대한 score를 PRM을 이용하여 scoring한 데이터로 Offline RL 학습
Tree of Thoughts

- ToT는 문제 해결 과정을 여러 중간 단계로 분해
- 각 단계에서 LLM은 여러 가지 가능한 Thought를 생성
- 이러한 생각들은 트리 구조로 조직되어 다양한 해결 경로를 생성
- BFS, DFS, Beam Search로 탐색 가능
- 각 vertex (생각)의 품질은 LLM 자체에 의해 평가됨
- ToT는 수학 문제 해결, 복잡한 의사 결정 등에서 LLM의 성능을 크게 향상 시킬 수 있음
Process Reward Model (Let’s verify step by step)


- 전문 human labeler를 고용하여 Fig1과 같이 Generator (논문에서는 GPT-4)가 만들어낸 Step들에 대한 reward labeling
- Generator는 Step을 구분하기 위한 special token을 추가하여 fine-tuning하여 사용 함
- PRM과 반대대는 개념이 Outcome Reward Model → step by step으로 reward하는 것이 아닌, 마지막 결과로만 reward하는 것