둔비의 공부공간
Knowledge Distillation with the Reused Teacher Classifier 본문
Papers/Compression
Knowledge Distillation with the Reused Teacher Classifier
Doonby 2023. 3. 8. 19:34Defang Chen et al
(CVPR2022)
Abstract
기존에는 일반적으로 knowledge representations을 정교하게 만들었는데, 모델의 개발과 이해가 어려운 문제가 있었다.
이 논문에서는 단순하게 teacher의 classifier를 재 사용하고, student의 encoder를 $L2$ loss를 사용해 alignment함으로써, 성능차이를 줄이는 것을 보였다.
Method
alignment의 경우 feature $L2$ loss를 통해서 학습한다.
fc를 그대로 사용하면, 압축률 자체에 문제가 있지 않을까? 했었는데, resnet의 경우 fc layer가 작아서 가능하다고 함
근데, 다른 KD와 다르게 parameter가 더 크다 (FC가 teacher와 동일하기 때문이다. 비록, 1x1 conv로 첫번째 fc의 채널만큼 키워서 큰 차이가 없다고 하지만, 파라미터의 차이를 무시할 수 없다. 실험했을때도 fc가 커지면 무조건 좋더라)
'Papers > Compression' 카테고리의 다른 글
Comments