본문 바로가기 메뉴 바로가기

세균맨

프로필사진
  • 글쓰기
  • 관리
  • 태그
  • 방명록
  • RSS

세균맨

검색하기 폼
  • 분류 전체보기 (21)
    • 일상과 생각 (6)
      • 일상 - 짤랑 (1)
      • 일상 - 들렸던 가게들 (5)
    • Showing off studying ML (13)
      • ML - academic reels (5)
      • ML - 특집 (6)
      • ML - legacy (1)
      • ML4Science (0)
    • Software (2)
  • 방명록

icml2024 (1)
Improving Transformers with Dynamically Composable Multi-Head Attention

ICML2024; OralMotivation: the limitation of the MHA (Multi-Head-Attention)MHA는 Dimension 이 head의 수로 나누어지는 특성상 low-rank bottleneck이 생길 수 있다.MHA에서는 head-redundancy가 생길 수 있다. (여러 head들끼리 비슷한 동작을 할 수 있다)결론적으로, 이 문제들을 해소할 vanilla MHA의 훌륭한 대체제를 찾고 싶다.본 논문에서는, 위와 같은 multi-head-attention의 문제를 "attention-score composition"을 통해 풀고자 한다. 논문에 걸쳐 어떻게 attention-score composition이 위 문제에 도움이 될 수 있는지를 설명하고, 어떤 방식..

Showing off studying ML/ML - 특집 2024. 7. 9. 20:11
이전 1 다음
이전 다음
공지사항
  • About
최근에 올라온 글
최근에 달린 댓글
Total
Today
Yesterday
링크
TAG
  • 몽중식
  • Transformer
  • diffusion
  • generativemodeling
  • MachineLearning
  • vscode
  • deeplearning4science
  • loss-weighting
  • finetuning
  • domaingeneralization
  • DeepLearning
  • 이문설농탕
  • flowmatching
  • Theme
  • multiheadattention
  • 프렌밀리
  • ICML
  • icml2024
  • LLM
more
«   2025/07   »
일 월 화 수 목 금 토
1 2 3 4 5
6 7 8 9 10 11 12
13 14 15 16 17 18 19
20 21 22 23 24 25 26
27 28 29 30 31
글 보관함

Blog is powered by Tistory / Designed by Tistory

티스토리툴바