π Word Embedding Tokenizer Trade-off
Word-levelκ³Ό Character-level μλ² λ© λ°©μμ μ₯λ¨μ λ° μλΈμλ ν ν¬λμ΄μ§μ νμμ± μ΄ν΄.
1. Word-Level Embedding
1.1 κ°λ λ° νΉμ§
ν΅μ¬ κ°λ (Key Term) μ μ: κ° λ¨μ΄μ κ³ μ ν μλ² λ© λ²‘ν° ν λΉ.
μ΄λ‘ μ μ리 μ΄ν΄: λ¨μ΄μ μλ―Έλ₯Ό λ¬Έλ§₯ κΈ°λ°μΌλ‘ μ§μ νν.
μμ/ꡬ쑰 μ 리: Word2Vec, GloVe λ± μ ν΅μ λ°©μ.
1.2 μ₯μ λ° νκ³
μ₯μ : λ¬Έλ§₯ μ μ§, μ§κ΄μ μλ―Έ νν.
λ¨μ : Vocabulary Size μ¦κ°, ν¬μμ±(Sparsity) λ¬Έμ , OOV(Out-Of-Vocabulary) λ¨μ΄ μ²λ¦¬ λΆκ°.
2. Character-Level Embedding
2.1 κ°λ λ° νΉμ§
ν΅μ¬ κ°λ (Key Term) μ μ: λ¨μ΄λ₯Ό λ¬Έμ λ¨μλ‘ λΆν΄νμ¬ κ° λ¬Έμμ μλ² λ© λ²‘ν° ν λΉ.
μ΄λ‘ μ μ리 μ΄ν΄: λ¬Έμλ₯Ό μ‘°ν©νμ¬ λ¨μ΄ μλ―Έ νμ΅ μλ.
μμ/ꡬ쑰 μ 리: CNN/RNN κΈ°λ° λͺ¨λΈ, BERT μΌλΆ λ³ν νμ©.
2.2 μ₯μ λ° νκ³
μ₯μ : Vocabulary Size λν μΆμ, OOV λ¬Έμ ν΄κ²°.
λ¨μ : λ¨μ΄ μλ―Έ νμ΅ μ΄λ €μ, κΈ΄ λ¬Έμ₯μμ Token μ κ³Όλ€ μ¦κ°, κ³μ°λ μ¦κ°.
3. Trade-off λ° ν΄κ²°μ±
3.1 Word-Level vs Character-Level Trade-off
Word-Level: λ¨μ΄ μ μ¦κ°λ‘ μΈν ν¬μμ± λ° OOV λ¬Έμ .
Character-Level: Token μ μ¦κ°λ‘ μΈν κ³μ°λ λ° μλ―Έ νμ΅ μ΄λ €μ.
3.2 Subword Tokenizing
ν΅μ¬ κ°λ (Key Term) μ μ: λ¨μ΄λ₯Ό μλ―Έ μλ μλΈμλ λ¨μλ‘ λΆν .
μ΄λ‘ μ μ리 μ΄ν΄: Word-levelκ³Ό Character-levelμ λ¨μ μ μΆ©.
μμ/ꡬ쑰 μ 리: BPE, WordPiece, SentencePiece λ±.