πŸ“„ ROUGE

ROUGEλŠ” μžμ—°μ–΄ 생성(NLG) λͺ¨λΈμ˜ μ„±λŠ₯을 ν‰κ°€ν•˜κΈ° μœ„ν•œ ν‘œμ€€ μ§€ν‘œλ‘œ, μƒμ„±λœ ν…μŠ€νŠΈμ™€ μ°Έμ‘° ν…μŠ€νŠΈ κ°„μ˜ μœ μ‚¬λ„λ₯Ό μ •λŸ‰μ μœΌλ‘œ μΈ‘μ •

1. ROUGE κ°œμš”

1.1 κΈ°λ³Έ κ°œλ…

  • ROUGE(Recall-Oriented Understudy for Gisting Evaluation) μ •μ˜

  • λͺ©μ : ν…μŠ€νŠΈ μš”μ•½, 기계 λ²ˆμ—­ λ“± NLG λͺ¨λΈ μ„±λŠ₯ 평가

  • μΈ‘μ • 방식: 생성 ν…μŠ€νŠΈμ™€ μ°Έμ‘° ν…μŠ€νŠΈ κ°„ μœ μ‚¬λ„ μ •λŸ‰ν™” (0~1 λ²”μœ„)

1.2 평가 μ§€ν‘œ

  • Recall: μ°Έμ‘° μš”μ•½ λ‚΄ n-그램이 생성 μš”μ•½μ— λ“±μž₯ν•œ λΉ„μœ¨

  • Precision: 생성 μš”μ•½ λ‚΄ n-그램이 μ°Έμ‘° μš”μ•½μ— λ“±μž₯ν•œ λΉ„μœ¨

  • F1-score: Recallκ³Ό Precision의 μ‘°ν™” 평균

2. ROUGE μ’…λ₯˜

2.1 N-gram 기반

  • ROUGE-N: μ—°μ†λœ n개 단어(n-gram) κ²ΉμΉ¨ 개수 계산

  • ROUGE-1: Unigram (단어 λ‹¨μœ„)

  • ROUGE-2: Bigram (두 단어 λ‹¨μœ„)

  • ROUGE-S/ROUGE-SU: Skip-bigram λ˜λŠ” Unigramκ³Ό Bigram μ‘°ν•© κ³ λ €

2.2 μˆœμ„œ 및 연속성 기반

  • ROUGE-L: 졜μž₯ 곡톡 λΆ€λΆ„μˆ˜μ—΄(Longest Common Subsequence, LCS) 기반 Recall 계산

  • ROUGE-W: ROUGE-L ν™•μž₯, 연속적인 맀칭에 κ°€μ€‘μΉ˜ λΆ€μ—¬

3. ROUGE ν™œμš©

3.1 적용 λΆ„μ•Ό

  • ν…μŠ€νŠΈ μš”μ•½, 기계 λ²ˆμ—­

  • μ½˜ν…μΈ  생성, RAG(검색 기반 생성)

  • μ§ˆμ˜μ‘λ‹΅ μ‹œμŠ€ν…œ

3.2 μ‹€μ œ μ‚¬μš©

  • ROUGE-1, ROUGE-2, ROUGE-L λ“± μ—¬λŸ¬ λ³€ν˜• μ‘°ν•©ν•˜μ—¬ λͺ¨λΈ μ„±λŠ₯ 비ꡐ

  • 주둜 μ˜μ–΄ 평가에 μ‚¬μš©λ˜λ‚˜, ν•œκ΅­μ–΄ λ“± λ‹€λ₯Έ 언어에도 적용 κ°€λŠ₯