둔비의 공부공간

Knowledge Distillation with the Reused Teacher Classifier 본문

Papers/Compression

Knowledge Distillation with the Reused Teacher Classifier

Doonby 2023. 3. 8. 19:34

Defang Chen et al

(CVPR2022)

 

Abstract

기존에는 일반적으로 knowledge representations을 정교하게 만들었는데, 모델의 개발과 이해가 어려운 문제가 있었다.

이 논문에서는 단순하게 teacher의 classifier를 재 사용하고, student의 encoder를 $L2$ loss를 사용해 alignment함으로써, 성능차이를 줄이는 것을 보였다.

 

 

Method

 

 

alignment의 경우 feature $L2$ loss를 통해서 학습한다.

 

쉽고 성능향상도 확실했다.

 

fc를 그대로 사용하면, 압축률 자체에 문제가 있지 않을까? 했었는데, resnet의 경우 fc layer가 작아서 가능하다고 함

 

 

 


 

근데, 다른 KD와 다르게 parameter가 더 크다 (FC가 teacher와 동일하기 때문이다. 비록, 1x1 conv로 첫번째 fc의 채널만큼 키워서 큰 차이가 없다고 하지만, 파라미터의 차이를 무시할 수 없다. 실험했을때도 fc가 커지면 무조건 좋더라)

Comments