Study

Linear Algebra

1. 선형대수와 SVD

  • Rank-1 Matrix:
    • 두 벡터의 곱으로 표현되는 행렬
    • 정보량은 곱해지는 벡터 두 개와 동일하며 행렬의 기본 단위로 사용
  • SVD(Singular Value Decomposition):
    • Rank가 r인 행렬은 r개의 rank-1 matrix 합으로 표현 가능.
    • Truncated SVD: 중요하지 않은 성분을 버려 낮은 Rank로 차원 축소. 원본보다 단순한 패턴으로 데이터 표현.

      2. 상관행렬과 공선성

  • 상관계수: 변수 간 상관관계의 강도를 -1~1로 표현. 대칭행렬로 대각원소는 1.
  • 공선성: 변수 간 높은 상관으로 데이터 독립성 손실.
    • 다중 공선성: 한 변수가 다른 변수 조합으로 나타나는 경우.
    • 해결 방법: 상관계수가 1.0 또는 -1.0인 변수를 제거.

      ML

      데이터 스케일링

  • 표준화(Standardization):
    • 평균 0, 분산 1로 데이터 변환. \(x_{\text{scaled}} = \frac{x-Mean(x)}{Stdv(x)}\)
  • 정규화(Normalization):
    • 데이터 범위를 [0, 1]로 변환. \(x_{\text{scaled}} = \frac{x-Min(x)}{Max(x) - Min(x)}\) —

      Latex

  • sub text \(x_{\text{scaled}}\)
    • x_{\text{scaled}}
  • 기호
    • \mu, \sigma
  • 기타 \(|\mathbf{v}|\)
    • \mathbf{v}
    • \sqrt{}
  • Sum \(\sum_{i=1}^n v_i^2\)
    • \sum_{i=1}^n v_i^2

      기업 설명회

      일반

      1. 채용 시 가장 선호하는 역량

  • 협업 능력: 팀워크와 효과적인 커뮤니케이션 역량을 가장 중요하게 평가.

    2. 머신러닝 서비스 구축 방식

  • On-Premise: 자체 GPU 환경에서 ML 서비스 구축.
  • 클라우드 기반: AWS 등 클라우드 플랫폼을 활용한 서비스.

    사례

    1. 기업 A

  • Wild Card Input 제작: 모델의 예측 성능을 극대화하기 위해 예상치 못한 입력을 포함한 데이터 생성.
  • 엣지 케이스 포함 데이터 세트: 모델의 적응성과 안정성을 테스트하기 위한 다양한 시나리오 데이터 구축.
  • Elastic Search 활용: 데이터 검색 및 관리 효율성을 높이기 위한 기술 도입.

    2. 오노마 AI

  • 입력 방식의 차별성:
    • 기존 타 기업: VLM(CLIP 등)을 통한 방식
    • 오노마 AI: 자연어를 통한 방식
  • 데이터 품질 중시: 데이터 양보다 정교화된 고품질 데이터 생성에 초점.

    기타

  • 중고차 품질 정량화 어려움
    • 관련 데이터셋 제작 및 관리 프레임워크 (하드웨어/소프트웨어)
  • 웹툰 관련 산업,
    • Context 번역 자동화
    • 웹툰 관련 페르소나, 캐릭터 등 생성 모델