1. 문제 배경

15 Jan 2025 in Til on Til

텍스트 생성 모델은 입력 시퀀스를 기반으로 출력 시퀀스를 생성함.
배치 내 시퀀스 길이 불일치 해결을 위해 패딩(padding) 필요.
2. 패딩과 문제점
패딩은 학습과 무관하므로 loss 계산에서 제외 필요.
PyTorch의 CrossEntropyLoss는 ignore_index=-100으로 설정하여 특정 값을 손실 계산에서 무시.
3. 마스킹 처리 과정
입력 텐서와 레이블 텐서의 패딩 영역을 100으로 마스킹.

예시:

  레이블 텐서: [[1045, 2572, 2986, 1010, 4283, 1012, -100],
               [2025, 2172, 1012, -100, -100, -100, -100, -100]]

배치 내 시퀀스 길이 불일치 해결을 위해 패딩(padding) 필요.