목록전체 글 (45)
둔비의 공부공간

Defang Chen et al(CVPR2022) Abstract기존에는 일반적으로 knowledge representations을 정교하게 만들었는데, 모델의 개발과 이해가 어려운 문제가 있었다.이 논문에서는 단순하게 teacher의 classifier를 재 사용하고, student의 encoder를 $L2$ loss를 사용해 alignment함으로써, 성능차이를 줄이는 것을 보였다. Method alignment의 경우 feature $L2$ loss를 통해서 학습한다. fc를 그대로 사용하면, 압축률 자체에 문제가 있지 않을까? 했었는데, resnet의 경우 fc layer가 작아서 가능하다고 함 근데, 다른 KD와 다르게 parameter가 더 크다 (FC가 teacher와 동일하기 때..

(ICML 2022) 서론 옛날에 생각했던 diversify에 대한 논문이다. teacher network가 학습하면서, train loss는 0에 수렴하고, student가 받을 teacher의 output distribution은 항상 비슷하다. 이를 학생과 선생모델 모두에게 diversify를 강조하여 학습하고 해결해보자. 앞서 말한 문제를 해결하는 참신한 ensemble distillation 방법을 제시한다. 1. 학생 네트워크를 설계하는 새로운 방법 - 학습할때는 subnetwork를 사용하지만, inference시에는 weight average를 통해 단일 네트워크로 만든다. 2. 학생과 선생의 다양성을 모두 고려한 perturbation strategy 제시 - 학생의 weak points..

(2022 CVPR, META AI) (github) Abstract Pre-trained모델을 갖고, 다른 하이퍼 파라미터로 fine tuned된 모델의 weights를 averaging했을때, 정확도와 안정성이 향상되는 것을 확인했다. (https://arxiv.org/pdf/2110.12899.pdf, https://proceedings.neurips.cc/paper/2020/file/0607f4c705595b911a4f3e7a127b44e0-Paper.pdf) 둘중 논문에서 하나의 pretrained model로 hyper-params를 바꿔가면서 파라미터를 했을때 비슷한 loss convex를 갖는다고 했다. 그래서 그 증명을 토대로 위와 같은 model-soups가 가능했다고 함 - 기존 en..

(AAAI 2022) https://github.com/tjwhitaker/prune-and-tune-ensembles GitHub - tjwhitaker/prune-and-tune-ensembles Contribute to tjwhitaker/prune-and-tune-ensembles development by creating an account on GitHub. github.com Abstract Deeplearning의 ensemble은 효과적이고 좋지만, computational cost가 비싸다는 단점이 있다. 그래서, 이 논문에서는 빠르고 작은 cost로 scratch부터 다양한 모델을 학습할 필요가 없는 ensemble방법을 소개한다. 일단 single parent network를 하나 ..