둔비의 공부공간
Multi-level Logit Distillation 본문
https://github.com/Jin-Ying/Multi-Level-Logit-Distillation
GitHub - Jin-Ying/Multi-Level-Logit-Distillation: Code for 'Multi-level Logit Distillation' (CVPR2023)
Code for 'Multi-level Logit Distillation' (CVPR2023) - GitHub - Jin-Ying/Multi-Level-Logit-Distillation: Code for 'Multi-level Logit Distillation' (CVPR2023)
github.com
참신한 접근임에는 분명하지만, paper의 metric 성능엔 문제가 있어보인다.
본인들의 방법에만 augmentation을 넣고 metric을 측정했다.
Motivation
기존 Knowledge Distillation 연구에서는 feature distillation 방식을 많이 사용하며, 많은 발전이 있었다.
하지만, logit distillation에서는 아직까지도 단순하게 마지막 logit하나만을 갖고 distillation을 진행한다.
이 논문에서는 사용할 수 있는 모든 logit을 갖고 distillation에 활용하면 성능이 오르지 않을까? 하고 시작한다.
Method
기존 logit KD는 output logit $(B \times C) $ 을 갖고 Instance-level에서 alignment만 진행했었다.
이 논문에서는 저 output logits $(B \times C) $를 correlation Matrix로 변경하여 $(B \times B)$와 $(C \times C)$를 만들고
각각을 align하는 loss를 추가한다.
코드로 이해하면 더욱 간단하다.
이렇게 logit을 활용하여 만들 수 있는 모든 정보를 만들고, loss에 추가했더니 feature kd와도 견줄만한 성능을 달성했다고 이야기한다.
Experiments
의견
CIFAR 100에서 DKD와 비교를 안한건 이상하지만, ImageNet에서는 DKD보다 성능이 높다.
상당히 간단하고, 참신한 방법이라고 생각이 들었으나, 공개된 github에 issue를 읽어보면, augmentation을 빼면 성능이 높지 않다고 한다.
이런 논문은 accept했다가도 reject을 해야하지 않나... 라는 생각이 든다.
'Papers > Compression' 카테고리의 다른 글
Class Attention Transfer Based Knowledge Distillation (0) | 2024.02.25 |
---|---|
Curriculum Temperature for Knowledge Distillation (0) | 2023.12.28 |
DOT: A Distillation-Oriented Trainer (1) | 2023.11.23 |
Toward domain generalized pruning by scoring out-of-distribution importance (0) | 2023.09.26 |
Prune Your Model Before Distill It (0) | 2023.08.17 |