πŸ“„ Word Embedding Tokenizer Trade-off

Word-levelκ³Ό Character-level μž„λ² λ”© λ°©μ‹μ˜ μž₯단점 및 μ„œλΈŒμ›Œλ“œ ν† ν¬λ‚˜μ΄μ§•μ˜ ν•„μš”μ„± 이해.

1. Word-Level Embedding

1.1 κ°œλ… 및 νŠΉμ§•

  • 핡심 κ°œλ…(Key Term) μ •μ˜: 각 단어에 κ³ μœ ν•œ μž„λ² λ”© 벑터 ν• λ‹Ή.

  • 이둠적 원리 이해: λ‹¨μ–΄μ˜ 의미λ₯Ό λ¬Έλ§₯ 기반으둜 직접 ν‘œν˜„.

  • μˆ˜μ‹/ꡬ쑰 정리: Word2Vec, GloVe λ“± 전톡적 방식.

1.2 μž₯점 및 ν•œκ³„

  • μž₯점: λ¬Έλ§₯ μœ μ§€, 직관적 의미 ν‘œν˜„.

  • 단점: Vocabulary Size 증가, ν¬μ†Œμ„±(Sparsity) 문제, OOV(Out-Of-Vocabulary) 단어 처리 λΆˆκ°€.

2. Character-Level Embedding

2.1 κ°œλ… 및 νŠΉμ§•

  • 핡심 κ°œλ…(Key Term) μ •μ˜: 단어λ₯Ό 문자 λ‹¨μœ„λ‘œ λΆ„ν•΄ν•˜μ—¬ 각 λ¬Έμžμ— μž„λ² λ”© 벑터 ν• λ‹Ή.

  • 이둠적 원리 이해: 문자λ₯Ό μ‘°ν•©ν•˜μ—¬ 단어 의미 ν•™μŠ΅ μ‹œλ„.

  • μˆ˜μ‹/ꡬ쑰 정리: CNN/RNN 기반 λͺ¨λΈ, BERT 일뢀 λ³€ν˜• ν™œμš©.

2.2 μž₯점 및 ν•œκ³„

  • μž₯점: Vocabulary Size λŒ€ν­ μΆ•μ†Œ, OOV 문제 ν•΄κ²°.

  • 단점: 단어 의미 ν•™μŠ΅ 어렀움, κΈ΄ λ¬Έμž₯μ—μ„œ Token 수 κ³Όλ‹€ 증가, κ³„μ‚°λŸ‰ 증가.

3. Trade-off 및 ν•΄κ²°μ±…

3.1 Word-Level vs Character-Level Trade-off

  • Word-Level: 단어 수 μ¦κ°€λ‘œ μΈν•œ ν¬μ†Œμ„± 및 OOV 문제.

  • Character-Level: Token 수 μ¦κ°€λ‘œ μΈν•œ κ³„μ‚°λŸ‰ 및 의미 ν•™μŠ΅ 어렀움.

3.2 Subword Tokenizing

  • 핡심 κ°œλ…(Key Term) μ •μ˜: 단어λ₯Ό 의미 μžˆλŠ” μ„œλΈŒμ›Œλ“œ λ‹¨μœ„λ‘œ λΆ„ν• .

  • 이둠적 원리 이해: Word-levelκ³Ό Character-level의 단점 절좩.

  • μˆ˜μ‹/ꡬ쑰 정리: BPE, WordPiece, SentencePiece λ“±.