π ROUGE
ROUGEλ μμ°μ΄ μμ±(NLG) λͺ¨λΈμ μ±λ₯μ νκ°νκΈ° μν νμ€ μ§νλ‘, μμ±λ ν μ€νΈμ μ°Έμ‘° ν μ€νΈ κ°μ μ μ¬λλ₯Ό μ λμ μΌλ‘ μΈ‘μ
1. ROUGE κ°μ
1.1 κΈ°λ³Έ κ°λ
ROUGE(Recall-Oriented Understudy for Gisting Evaluation) μ μ
λͺ©μ : ν μ€νΈ μμ½, κΈ°κ³ λ²μ λ± NLG λͺ¨λΈ μ±λ₯ νκ°
μΈ‘μ λ°©μ: μμ± ν μ€νΈμ μ°Έμ‘° ν μ€νΈ κ° μ μ¬λ μ λν (0~1 λ²μ)
1.2 νκ° μ§ν
Recall: μ°Έμ‘° μμ½ λ΄ n-κ·Έλ¨μ΄ μμ± μμ½μ λ±μ₯ν λΉμ¨
Precision: μμ± μμ½ λ΄ n-κ·Έλ¨μ΄ μ°Έμ‘° μμ½μ λ±μ₯ν λΉμ¨
F1-score: Recallκ³Ό Precisionμ μ‘°ν νκ·
2. ROUGE μ’ λ₯
2.1 N-gram κΈ°λ°
ROUGE-N: μ°μλ nκ° λ¨μ΄(n-gram) κ²ΉμΉ¨ κ°μ κ³μ°
ROUGE-1: Unigram (λ¨μ΄ λ¨μ)
ROUGE-2: Bigram (λ λ¨μ΄ λ¨μ)
ROUGE-S/ROUGE-SU: Skip-bigram λλ Unigramκ³Ό Bigram μ‘°ν© κ³ λ €
2.2 μμ λ° μ°μμ± κΈ°λ°
ROUGE-L: μ΅μ₯ κ³΅ν΅ λΆλΆμμ΄(Longest Common Subsequence, LCS) κΈ°λ° Recall κ³μ°
ROUGE-W: ROUGE-L νμ₯, μ°μμ μΈ λ§€μΉμ κ°μ€μΉ λΆμ¬
3. ROUGE νμ©
3.1 μ μ© λΆμΌ
ν μ€νΈ μμ½, κΈ°κ³ λ²μ
μ½ν μΈ μμ±, RAG(κ²μ κΈ°λ° μμ±)
μ§μμλ΅ μμ€ν
3.2 μ€μ μ¬μ©
ROUGE-1, ROUGE-2, ROUGE-L λ± μ¬λ¬ λ³ν μ‘°ν©νμ¬ λͺ¨λΈ μ±λ₯ λΉκ΅
μ£Όλ‘ μμ΄ νκ°μ μ¬μ©λλ, νκ΅μ΄ λ± λ€λ₯Έ μΈμ΄μλ μ μ© κ°λ₯