Off-Policy Actor-critic for Recommender Systems
추천 시스템을 위한 전략 외 행위자 비판 알고리즘
파파고를 기본으로 하며, 어색한 문구를 고치며 읽는다
off-policy: 전략 외 라고 번역한다. 여기서의 policy는 정치적인 측면의 정책을 이야기하는 것이 아니라 ai 모델이 목표를 달성하기 위해 사용하는 전략(a strategy that an agent uses in pursuit of goals)을 의미하는 것으로 보인다.
agent: 모델 이라고 번역한다.
distribution shift: 분포 변화 라고 번역한다.
초록
산업추천 플랫폼은 사용자가 플랫폼에서 오랜 경험을 즐길 수 있도록 하는 추천 방법을 고민하고 있다. 강화 학습(RL)은 1) 근시안적 시스템 동작에서 비롯된 피드백 루프 효과와 2) 장기적 결과를 최적화하기 위한 순차적으로 계획한다는 점에서 매력적인 접근 방식으로서 자연스레 등장했다. 그러나 RL 알고리즘을 수십억 명의 사용자와 콘텐츠를 제공하는 프로덕션 추천 시스템으로 확장하는 것은 여전히 도전적인 일이다. 온라인의 경우 RL의 샘플 비효율성과 불안정성에 의해 프로덕션에서의 채택은 쉽지 않다. 오프라인 RL을 사용하면 전략 외 데이터 및 배치 학습을 사용할 수 있지만, 분포 변화로 인한 학습의 어려움에 직면한다.
한 강화 모델[3]이 정교한 지도 학습 프로덕션 시스템을 크게 능가하며 성공적으로 유튜브 추천시스템에서 테스트되었다. 기록된 데이터에서 학습하기 위해 전략 외 보정이 사용되었다. 이 알고리즘은 one-step importance weighting(단계 별 중요도 가중치 부여)를 사용하여 분포 변화를 부분적으로 완화한다. 우리는 off-policy actor critic algorithms(전략 외 행위자 비판 알고리즘)을 사용해 분포 변화를 더 나은 범주에서 다룰 수 있었다. 본 논문에서는 프로덕션 추천 시스템을 위한 전략 외 행위자 비판 모델을 설정하는 주요 설계를 공유한다. 시간적 차이 학습을 통해 학습된 대상 정책에 따라 상태-행동 쌍의 값을 추정하는 비판 네트워크로 [3]을 확장한다. 우리는 오프라인 및 실시간 실험을 통해 새로운 프레임워크가 기준치를 능가하고 장기적인 사용자 경험을 향상시킨다는 것을 입증한다.
실험을 통해 우리는 소프트맥스 전략 매개변수화를 사용하는 추천 모델이 분포를 벗어난 행동(out-of-distribution,OOD)에 비관적이라는 놀라운 발견을 할 수 있었다. OOD 조치에 대한 비관론과 낙관론 사이의 올바른 균형을 찾는 것은 추천 시스템에 대한 오프라인 RL의 성공에 매우 중요하다.
1. 서문
추천 시스템은 사용자의 웹 탐색에 크게 의존한다. 이러한 시스템은 다음에 사용자가 무엇을 소비하고 싶은지 예측하고 관련 콘텐츠를 표면화함으로써 사용자의 다양한 정보 요구에 부응한다. 이를 위한 추천 알고리즘은 단순한 협업 필터링[29, 44]에서 시작하여 심층 지도 학습 접근 방식으로 수년간 발전해 왔다. 이러한 알고리즘은 추천에 대한 클릭과 같은 즉각적인 반응을 예측하여 개별 사용자의 경험을 광범위하게 개인화한다 [8, 70]. 그들은 사용자를 모으는 데 엄청난 성공을 거두었다. 한편, 1) 단기적인 참여만을 유도하는 추천을 선호하는 것과 2) 그러한 근시안적인 행동에 대해 강력한 피드백 루프를 따르는 한계점이 있기에 사용자의 행복을 장기간 유지하는 것에 관심을 두는 추천 플랫폼의 시대가 점차 오고 있다.
세월이 흐르면서 mab(역: 원래는 bandits라고만 써있는데, MAB를 뜻한다고 판단하고 번역했다)과 강화 학습 기법이 매력적인 대안으로 자연스럽게 등장했다[3, 20, 68, 71, 72]. 이것들은 앞서 언급한 지도 학습 접근 방식의 한계를 다룬다. 1) RL은 사용자 기반의 장기간 결과를 최적화하기 위한 수학적 공식을 제공한다. 적절하게 정의된 보상 함수 사용하면,이러한 알고리즘은 계획 지평이 확장됨에 따라 장기 사용자 경험을 최적화하는 추천 전략을 학습하는 방향으로 자연스럽게 전환된다. 2) mab와 RL은 순차적인 시스템에 의해 생성된 피드백 루프를 방지하기 위해 탐색 및 전략 외 학습과 같은 도구를 제공한다. 관측된 사용자 행동을 인식하는 것은 과거 시스템 행동의 선택 편향(특정 추천 사항을 다른 것보다 선호함)에 의해 반증되었고, 이러한 알고리즘은 편향에 대한 메커니즘을 제공하고 잠재적으로 근시안적인 과거 시스템 동작에서 벗어난다.
그러나 프로덕션 추천 시스템에 대한 RL 알고리즘을 세우는 것은 어려운 것으로 입증되었다. RL은 근본적으로 모델이 실시간으로 환경과 상호 작용하여 경험을 수집하고 학습을 개선하는 식의 온라인 학습 패러다임으로 설계되었다. 이 설정은 프로덕션 추천 시스템을 위한 일반적인 배치 학습 설정과 크게 대조된다. 온라인 학습을 지원하기 위해 인프라를 조정할 수 있더라도, 프로덕션 추천 시스템은 수십억 개에 달하는 매우 역동적인 사용자와 콘텐츠 기반을 서비스해야 하기 때문에 온라인 RL의 불안정성과 샘플 비효율성은 여전히 우려 사항으로 남아 있다. 온라인 RL의 상호 작용 특성이 더 넓은 채택을 방해하고 있다는 것을 깨닫고, 연구자들은 이러한 기술을 오프라인으로 전환하려고 하는데, 이를 일반적으로 배치 또는 오프라인 강화 학습이라고 한다[2, 5, 12, 14, 25, 30, 32, 34, 57, 59]. 이러한 기술은 전략 외 데이터와 배치 학습을 활용할 수 있지만, 분포 변화는 학습에 중요한 문제를 제기한다.
첸 외. [3]는 유튜브에서 추천을 위한 강화 모델을 테스트하여 사용자가 다음에 소비할 아이템을 예측하도록 훈련된 단순한 연속적인 추천 사항보다 더 상당한 개선을 이뤄냈다. 모델은 플랫폼에서 수집된 과거 상호 작용 데이터를 학습하고, 분포 변화를 완화하기 위해 단계 별 중요도 가중치(one-step importance weighting)를 사용한다. 전체 궤적 중요도 가중치와 비교하여, 단계 별 근사치는 훨씬 낮아진 분산과 함께 약간 편향된 기울기 추정치를 생성한다. 분포 변화를 더 잘 해결하기 위해, 본 논문에서는 프로덕션 사용 사례에 맞게 행위자-비판 알고리즘[16, 28, 55]을 확장한다. 또한 본 논문에서는 아래의 것들을 만들고 수행한다.
- 전략 외 행위자 비판 알고리즘Off-Policy Actor-critic Algorithm: 전략 외 학습으로 인한 분포 변화 해결하는 추천을 위해 전략 외 행위자-비판 방법[10, 16, 34, 55]을 제시한다. 시간적 차이 학습을 통해 학습된 대상 전략에 따라 상태-행동 쌍의 가치를 추정하는 비판적 네트워크를 추가한다.
- 실천적인 레슨과 분별(ablation) 연구Practical Lessons and Ablation Study: 우리는 비평 네트워크 설계에 대한 레슨을 공유하고 철저한 분별 연구를 수행하여 비평 네트워크의 학습을 향상시키는 중요한 구성 요소(예: 시간적 차이 학습 설정, 기능의 중요성, 대상 네트워크 및 아키텍처 선택)를 분리한다.
- 오프라인 분석 도구Offline Analysis Tool: 우리는 대상 전략 대 행동 전략의 선호도를 이해하기 위해 비판 네트워크의 추정 Q-값과 몬테카를로 리턴을 비교하는 오프라인 분석 도구를 제공한다.
- 실제 실험Live Experiments: 수십억 명의 사용자와 항목을 제공하는 상용 추천 플랫폼(역: 가령 유투브 같은 것)에서 가정한 방법을 라이브로 테스트하고, 새로운 접근 방식이 가진 장기적인 사용자 경험 및 확장성을 향상시키는 이점을 보인다.
2. 연관 작업
은 조금 더 공부하고 하자!