이 포스트는 Academic-reels와 특집 어딘가에 있는... shorts는 아니지만 그렇다고 10분짜리 비디오도 아닌 그런 구성입니다. 정리본 같은 거랄까요되게 Scientific 하게 잘 쓰인 논문입니다. 점수가 매우 높아요. 흥미로운 가설을 설정했고, 가설을 support 하는 좋은 관측들을 했고, 그에 따른 simple-but-effective 한 방법을 제시합니다. 글도 매우 잘 써진 것 같고요.별 5.FAIR, Meta, ICLR 2024 OralObjective and motivation(Our objective) Vision transformer의 마지막 attention layer를 visualize 해보면, 위와 같은 “abnormal patch“ 가 보인다 (semantically..
경험팔이사실 요즘 동네 주변이나 회사 주변 말고 밥집이든 지나가던 잡화상 (매우 예스럽게 말하자면) 이든, 가게들을 돌아다니다 보면 이게 뭔가 해당 가게의 본질---맛있는 음식, 유용하거나 이쁜 물건들---과는 벗어나서, 그냥 놀이나 경험을 판다는 생각을 하게 만드는 경우가 많다. 뭐 다들 한 번쯤은 생각하겠지만,,, 성수동에서의 실제로 살 물건이 있는건 아니지만 신기해서 들어가 보는 팝업스토어라던지, 귀여운 물건들을 보고 와 굉장히 귀엽다라고 말하고서는 사지 않고 뒤돌아서는 소품샵들이라던지 (이거 정말로 궁금한 건데, 소품샵에서의 실구매율은 얼마나 될지 다른 업종들과 비교해서 측정해보고 싶다). 사실은 피시방에서 끓여 먹는 짜계치가 더 맛있지만 평소에 먹어보지 못한 맛과 멋좀 부리려고 가는 다이닝이나-..
NeurIPS 2023, Arxiv Link What they didThey propose "Battle-of-the-Backones"(BoB), benchmarking a diverse suite of (vision) pre-trained models, including classic ImageNet-trained CNN, vision-language models (perhaps CLIP). The target tasks are OOD-generalization, classification, object-detection and Image retrieval.Key observationswith more than 1,500 training runs, they found that CNN pretrained..
들어가며딥러닝 연구에서, 다양한 문제들이 기존 loss-function에 sample별로 특정 weight를 부과하는 방법 (Loss-reweighting)으로 풀어져 왔었다. 직관적으로 생각했을 때, 이러한 방식은 "어떤 샘플들을 중점적으로 학습시켜야 하는가?"라는 식의 물음이 이어지는 문제를 풀어내는 도구가 될 수 있었다. 따라서 저런 물음이 많이 나오게 되는 Domain-generalization 문제---어떤 데이터 도메인 (e.g. 그림, 사진, 선화, 애니메이션)을 중점적으로 학습시킬까?---, multi-task 문제---여러 task를 동시에 푸는 모델이 어떤 task (depth estimation, object-detction, segmentation)를 중점적으로 학습해야 할 까?,I..
Motivation: 일 하기 싫어.일을 하기 뒤지게 싫었던 적이 있지 않은가? 학생 때 공부를 하다가 메뚜기처럼 계속 자리를 뜬 적이 있지 않은가? 보통 이럴 때, 새로운 노트를 사거나 키보드를 새로 들이거나 하면 한 일주일 정도를 집중력을 부스트 해서 일하거나 공부할 수 있었었다. 하지만, 매번 키보드를 바꾸거나 장비에 돈을 쓸 수는 없는 노릇. 이 글에서는 (1) 장비를 바꾸는것과 유사한 효과---작업 환경 변화에 의한 집중력 향상---를 가지면서도, (2) 저렴한 비용(0원)이 들며, (3) easy-to-implement (즉시 실행 가능) 한 방법론인 Vscode 특이테마 전환을 소개한다. 그 중에서도, SynthWave-like, Cyberpunk 타입의 테마를 소개한다.주의:오래 작업하면 ..
ICML2024; OralMotivation: the limitation of the MHA (Multi-Head-Attention)MHA는 Dimension 이 head의 수로 나누어지는 특성상 low-rank bottleneck이 생길 수 있다.MHA에서는 head-redundancy가 생길 수 있다. (여러 head들끼리 비슷한 동작을 할 수 있다)결론적으로, 이 문제들을 해소할 vanilla MHA의 훌륭한 대체제를 찾고 싶다.본 논문에서는, 위와 같은 multi-head-attention의 문제를 "attention-score composition"을 통해 풀고자 한다. 논문에 걸쳐 어떻게 attention-score composition이 위 문제에 도움이 될 수 있는지를 설명하고, 어떤 방식..
Arxiv Link Contributions: propose a novel architecture which possibly be better MLP-alternative, having surely better interpretability and probably better accuracy. the new architecture has opened up the possibility of learning activation function itself instead of the traditional approach of learning weights.Background: Kolmogorov Arnold Representation theoremMachine learning에서, MLP는 일반적으로 univ..
Intro서순라길의 묘미는 야장인듯 하다. 그게 되게 열받기도 한데, 이런 좋은 날씨에 여기서 야장을 찾으려면은 밖에서 종일을 서있어야 되더라. 야장은 포기하자... 라고 생각하며 길을 걷고 있다가 발견하게 된 것이 여기, 지미스모크하우스 이다. 스모크햄이 자랑이라나 뭐라나. 나는 아무렇게나 들어가서 몰랐지만, 큰 장점중 하나는 네이버예약을 받는다는 것. 서순라길에서 웨이팅 70팀 같은건 흔한 일이니 이것은 몹시 귀한하다. 이런걸 먹었다 픽 1번 양송이 트러플 크림 "딸리아뗄레". 딸리아뗄레가 뭔지도 모르겠는데, 찾아보니 파스타면의 한 종류인듯 하다. 칼국수스럽달까? 몇번 비비다보면 아주 강한 트러플향이 느껴지는데, 크림에서 저런 검은 점박이 있는것으로 보아 트러플오일을 붓고 "트러플 something"..
ACL 2023. 이긴 하지만 아카이브에는 2022에 올라왔음.Super-simple backgroundRAG (Retrieval Augmented Generation) is commonly used to complement the hallucination of LLMs.to find the proper documents (here, we call target document) for given queries, the "contriever" is used.the contriever can be an text-encoder model such as T5 or BERT.the target document can be searced with the encoded feature by the contriever ..
Here I introduce the generalization error bound of the Domain generalization problem, which is the test domain—or style, sometimes—differs from the training domain.PreliminariesNotations$X \in \mathcal{X} \subset \mathbb{R}^d, Y\in \mathcal{Y} \subset \mathbb{R}$ : Common input and target space$P^i_{XY}$: Data distribution of the i'th domain$S^i\sim P^i_{XY}$: Samples for the i'th domain$\epsilo..
- Total
- Today
- Yesterday
- Transformer
- domaingeneralization
- 몽중식
- LLM
- 프렌밀리
- vscode
- icml2024
- deeplearning4science
- DeepLearning
- loss-weighting
- MachineLearning
- generativemodeling
- multiheadattention
- flowmatching
- ICML
- Theme
- diffusion
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 |