'2026/03/12 글 목록

[Paper 리뷰] RRPO: Robust Reward Policy Optimization for LLM-based Emotional TTS

RRPO: Robust Reward Policy Optimization for LLM-based Emotional TTSEmotion contorl과 같은 nuanced task에서 기존의 reward optimization method는 reward hacking 문제가 발생함RRPOHybrid regularization을 활용하여 reward signal이 reliably align 되도록 유도특히 policy가 detrimental shortcut을 abandon 하고 emotion의 complex feature를 학습하도록 함논문 (ICASSP 2026) : Paper Link1. IntroductionCosyVoice2와 같이 Large Language Model (LLM)을 활용하면 우수한 T..

Paper/Language Model 2026. 3. 12. 12:58

이전 1 다음

이전 다음

최근에 올라온 글

최근에 달린 댓글

« 2026/03 »
일	월	화	수	목	금	토
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30	31

Total

Today

Yesterday

Let IT Begin

티스토리툴바