연구진은 언어 모델의 선호도를 정렬할 때 여러 행동 목표를 순차적으로 최적화하는 DPO(Direct Preference Optimization) 방법을 사용하는데, 후속 훈련이 이전 선호도를 균일하게 저하시키는지, 아니면 목표 간의 관계에 따라 효과가 달라지는지 연구했어요.
Llama-3.1-8B-Instruct 모델과 LoRA 어댑터를 사용하여 4가지 선호도 설정을 평가한 결과, 순차적 DPO는 일관된 망각 패턴을 보이지 않았으며, 선호도 변화는 부분적인 저하부터 안정성, 쌍별 재분배, 긍정적 전이까지 다양하게 나타났어요.
쌍별 분석 결과, 집계 지표는 선호도 쌍 간의 이질적인 변화를 숨길 수 있으며, 사분위수 분해를 통해 높은 신뢰도 쌍은 설정에 따라 저하되거나 개선될 수 있다는 점을 확인했어요.
연구 결과, 향후 순차적 정렬 파이프라인은 목표 간의 호환성과 신호 강도를 고려해야 하며, 후속 목표가 이전 선호도에 균일하게 영향을 미친다는 가정은 피해야 할 것으로 보입니다.