πŸ“„ RoBERTa_Improved_Learning

RoBERTaλŠ” NSP 제거 및 ν•™μŠ΅ μ „λž΅ κ°œμ„ μ„ 톡해 BERT λŒ€λΉ„ μ„±λŠ₯을 ν–₯μƒμ‹œν‚¨ μ–Έμ–΄ λͺ¨λΈμž…λ‹ˆλ‹€.

1. RoBERTa 핡심 κ°œμ„  사항

1.1 NSP 제거

  • ν•™μŠ΅ λ‹¨μˆœν™”

  • MLM ν•™μŠ΅ νš¨μœ¨μ„± κ·ΉλŒ€ν™”

  • λΆˆν•„μš”ν•œ μ œμ•½ ν•΄μ†Œ

1.2 ν•™μŠ΅ 데이터 ν™•μž₯

  • CommonCrawl, OpenWebText, Wikipedia λ“± λŒ€κ·œλͺ¨ 데이터셋 ν™œμš©

  • 160GB 데이터 μ‚¬μš©

  • ν’λΆ€ν•œ ν•™μŠ΅ 데이터 확보

1.3 동적 λ§ˆμŠ€ν‚Ή

  • λ§€ iterationλ§ˆλ‹€ μƒˆλ‘œμš΄ λ§ˆμŠ€ν‚Ή νŒ¨ν„΄ 적용

  • 데이터 λ‹€μ–‘μ„± κ·ΉλŒ€ν™”

  • λͺ¨λΈ μΌλ°˜ν™” λŠ₯λ ₯ ν–₯상

2. RoBERTa ν•™μŠ΅ μ „λž΅

2.1 배치 크기 및 ν•™μŠ΅ μ‹œκ°„

  • μ΅œλŒ€ 8192 배치 크기

  • ν•™μŠ΅ μ•ˆμ •μ„± 및 λͺ¨λΈ 수렴 κ°œμ„ 

  • BERT λŒ€λΉ„ ν•™μŠ΅ μ‹œκ°„ μ—°μž₯

2.2 데이터 μˆœμ„œ μž„μ˜ν™”

  • 데이터 μƒ˜ν”Œλ§ λ‹€μ–‘ν™”

  • λ¬Έλ§₯ 정보 ν•™μŠ΅ κ°•ν™”

  • 과적합 λ°©μ§€

2.3 암묡적 λ¬Έμž₯ 관계 ν•™μŠ΅

  • NSP 없이 λ¬Έμž₯ κ°„ 관계 ν•™μŠ΅

  • λŒ€κ·œλͺ¨ 데이터 및 μ „λž΅μ  ν•™μŠ΅ ν™œμš©

  • ν…μŠ€νŠΈ ν‘œν˜„ ν•™μŠ΅ κ°•ν™”

3. RoBERTa μ„±κ³Ό 및 의의

3.1 MLM 쀑심 ν•™μŠ΅

  • NSP 제거 ν›„ MLM μ„±λŠ₯ κ·ΉλŒ€ν™”

  • λŒ€κ·œλͺ¨ 데이터 및 κ°œμ„ λœ ν•™μŠ΅ μ „λž΅

  • μ–Έμ–΄ λͺ¨λΈ ν•™μŠ΅μ˜ μƒˆλ‘œμš΄ λ°©ν–₯ μ œμ‹œ

3.2 BERT λŒ€λΉ„ μ„±λŠ₯ μš°μœ„

  • 더 κ°•λ ₯ν•œ ν…μŠ€νŠΈ ν‘œν˜„ ν•™μŠ΅

  • λ¬Έμž₯ κ°„ 관계 암묡적 ν•™μŠ΅

  • λ‹€μ–‘ν•œ NLP νƒœμŠ€ν¬μ—μ„œ 높은 μ„±λŠ₯ 달성

κ°œμ„  μš”μ†Œμ„€λͺ…
1. 더 큰 데이터 μ„ΈνŠΈCommonCrawl, OpenWebText, Wikipedia λ“± 160GB 데이터 μ‚¬μš©μœΌλ‘œ 더 ν’λΆ€ν•œ ν•™μŠ΅ 데이터 확보.
2. 동적 λ§ˆμŠ€ν‚Ήν•™μŠ΅ 쀑 λ§€ iterationλ§ˆλ‹€ μƒˆλ‘œμš΄ λ§ˆμŠ€ν‚Ή νŒ¨ν„΄ 적용으둜 데이터 λ‹€μ–‘μ„± κ·ΉλŒ€ν™”.
3. κΈ΄ 배치 ν¬κΈ°μ΅œλŒ€ 8192 배치 크기둜 ν•™μŠ΅ μ•ˆμ •μ„±κ³Ό λͺ¨λΈ 수렴 κ°œμ„ .
4. 더 κΈ΄ ν•™μŠ΅ μ‹œκ°„BERT보닀 ν•™μŠ΅ μ‹œκ°„ μ—°μž₯으둜 λŒ€κ·œλͺ¨ 데이터 심측 ν•™μŠ΅.
5. 데이터 μˆœμ„œ μž„μ˜ν™”λ°μ΄ν„° μƒ˜ν”Œλ§ λ‹€μ–‘ν™”λ‘œ λ¬Έλ§₯ 정보 ν•™μŠ΅ κ°•ν™”.
6. 암묡적 λ¬Έμž₯ 관계 ν•™μŠ΅NSP 없이도 λŒ€κ·œλͺ¨ 데이터와 μ „λž΅μ  ν•™μŠ΅μœΌλ‘œ λ¬Έμž₯ κ°„ 관계λ₯Ό 효과적으둜 ν•™μŠ΅.