Knowledge Distillation with the Reused Teacher Classifier

Notice

Recent Posts

Archives

관리 메뉴

둔비의 공부공간

Papers/Compression

Doonby 2023. 3. 8. 19:34

Defang Chen et al

(CVPR2022)

기존에는 일반적으로 knowledge representations을 정교하게 만들었는데, 모델의 개발과 이해가 어려운 문제가 있었다.

이 논문에서는 단순하게 teacher의 classifier를 재 사용하고, student의 encoder를 $L2$ loss를 사용해 alignment함으로써, 성능차이를 줄이는 것을 보였다.

alignment의 경우 feature $L2$ loss를 통해서 학습한다.

fc를 그대로 사용하면, 압축률 자체에 문제가 있지 않을까? 했었는데, resnet의 경우 fc layer가 작아서 가능하다고 함

근데, 다른 KD와 다르게 parameter가 더 크다 (FC가 teacher와 동일하기 때문이다. 비록, 1x1 conv로 첫번째 fc의 채널만큼 키워서 큰 차이가 없다고 하지만, 파라미터의 차이를 무시할 수 없다. 실험했을때도 fc가 커지면 무조건 좋더라)

THE LOTTERY TICKET HYPOTHESIS:FINDING SPARSE, TRAINABLE NEURAL NETWORKS (0)	2023.03.09
RETHINKING THE VALUE OF NETWORK PRUNING (0)	2023.03.08
Improving Ensemble Distillation With Weight Averaging and Diversifying Perturbation (0)	2023.03.08
Prune and Tune Ensembles: Low-Cost Ensemble Learning With Sparse Independent Subnetworks (0)	2023.03.08
Learning both Weights and Connections for Efficient Neural Networks (0)	2023.03.08

'Papers/Compression' Related Articles

Comments