π RoBERTa_Improved_Learning
RoBERTaλ NSP μ κ±° λ° νμ΅ μ λ΅ κ°μ μ ν΅ν΄ BERT λλΉ μ±λ₯μ ν₯μμν¨ μΈμ΄ λͺ¨λΈμ λλ€.
1. RoBERTa ν΅μ¬ κ°μ μ¬ν
1.1 NSP μ κ±°
νμ΅ λ¨μν
MLM νμ΅ ν¨μ¨μ± κ·Ήλν
λΆνμν μ μ½ ν΄μ
1.2 νμ΅ λ°μ΄ν° νμ₯
CommonCrawl, OpenWebText, Wikipedia λ± λκ·λͺ¨ λ°μ΄ν°μ νμ©
160GB λ°μ΄ν° μ¬μ©
νλΆν νμ΅ λ°μ΄ν° ν보
1.3 λμ λ§μ€νΉ
λ§€ iterationλ§λ€ μλ‘μ΄ λ§μ€νΉ ν¨ν΄ μ μ©
λ°μ΄ν° λ€μμ± κ·Ήλν
λͺ¨λΈ μΌλ°ν λ₯λ ₯ ν₯μ
2. RoBERTa νμ΅ μ λ΅
2.1 λ°°μΉ ν¬κΈ° λ° νμ΅ μκ°
μ΅λ 8192 λ°°μΉ ν¬κΈ°
νμ΅ μμ μ± λ° λͺ¨λΈ μλ ΄ κ°μ
BERT λλΉ νμ΅ μκ° μ°μ₯
2.2 λ°μ΄ν° μμ μμν
λ°μ΄ν° μνλ§ λ€μν
λ¬Έλ§₯ μ 보 νμ΅ κ°ν
κ³Όμ ν© λ°©μ§
2.3 μ묡μ λ¬Έμ₯ κ΄κ³ νμ΅
NSP μμ΄ λ¬Έμ₯ κ° κ΄κ³ νμ΅
λκ·λͺ¨ λ°μ΄ν° λ° μ λ΅μ νμ΅ νμ©
ν μ€νΈ νν νμ΅ κ°ν
3. RoBERTa μ±κ³Ό λ° μμ
3.1 MLM μ€μ¬ νμ΅
NSP μ κ±° ν MLM μ±λ₯ κ·Ήλν
λκ·λͺ¨ λ°μ΄ν° λ° κ°μ λ νμ΅ μ λ΅
μΈμ΄ λͺ¨λΈ νμ΅μ μλ‘μ΄ λ°©ν₯ μ μ
3.2 BERT λλΉ μ±λ₯ μ°μ
λ κ°λ ₯ν ν μ€νΈ νν νμ΅
λ¬Έμ₯ κ° κ΄κ³ μ묡μ νμ΅
λ€μν NLP νμ€ν¬μμ λμ μ±λ₯ λ¬μ±
| κ°μ μμ | μ€λͺ |
|---|---|
| 1. λ ν° λ°μ΄ν° μΈνΈ | CommonCrawl, OpenWebText, Wikipedia λ± 160GB λ°μ΄ν° μ¬μ©μΌλ‘ λ νλΆν νμ΅ λ°μ΄ν° ν보. |
| 2. λμ λ§μ€νΉ | νμ΅ μ€ λ§€ iterationλ§λ€ μλ‘μ΄ λ§μ€νΉ ν¨ν΄ μ μ©μΌλ‘ λ°μ΄ν° λ€μμ± κ·Ήλν. |
| 3. κΈ΄ λ°°μΉ ν¬κΈ° | μ΅λ 8192 λ°°μΉ ν¬κΈ°λ‘ νμ΅ μμ μ±κ³Ό λͺ¨λΈ μλ ΄ κ°μ . |
| 4. λ κΈ΄ νμ΅ μκ° | BERTλ³΄λ€ νμ΅ μκ° μ°μ₯μΌλ‘ λκ·λͺ¨ λ°μ΄ν° μ¬μΈ΅ νμ΅. |
| 5. λ°μ΄ν° μμ μμν | λ°μ΄ν° μνλ§ λ€μνλ‘ λ¬Έλ§₯ μ 보 νμ΅ κ°ν. |
| 6. μ묡μ λ¬Έμ₯ κ΄κ³ νμ΅ | NSP μμ΄λ λκ·λͺ¨ λ°μ΄ν°μ μ λ΅μ νμ΅μΌλ‘ λ¬Έμ₯ κ° κ΄κ³λ₯Ό ν¨κ³Όμ μΌλ‘ νμ΅. |