둔비의 공부공간
Knowledge Distillation with the Reused Teacher Classifier 본문
Papers/Compression
Knowledge Distillation with the Reused Teacher Classifier
Doonby 2023. 3. 8. 19:34Defang Chen et al
(CVPR2022)
Abstract
기존에는 일반적으로 knowledge representations을 정교하게 만들었는데, 모델의 개발과 이해가 어려운 문제가 있었다.
이 논문에서는 단순하게 teacher의 classifier를 재 사용하고, student의 encoder를 L2 loss를 사용해 alignment함으로써, 성능차이를 줄이는 것을 보였다.
Method

alignment의 경우 feature L2 loss를 통해서 학습한다.

fc를 그대로 사용하면, 압축률 자체에 문제가 있지 않을까? 했었는데, resnet의 경우 fc layer가 작아서 가능하다고 함
근데, 다른 KD와 다르게 parameter가 더 크다 (FC가 teacher와 동일하기 때문이다. 비록, 1x1 conv로 첫번째 fc의 채널만큼 키워서 큰 차이가 없다고 하지만, 파라미터의 차이를 무시할 수 없다. 실험했을때도 fc가 커지면 무조건 좋더라)