둔비의 공부공간
DSD Survey 본문
DSD 논문을 인용한 후속논문들에 대한 간단한 요약
Monarch: Expressive Structured Matrices for Efficient and Accurate Training
- 기존 compute/memory를 줄이는 방법들은 여러 문제가 있었다.
- (방법들)
- replace dense weight matrices with structured ones, such as sparse & low-rank matrices and the Fourier transform.
- 비효율적인 efficiency <-> quality trade-off
- dense-to-sparse fine-tuning 할때, dense weight matrix의 approximate를 다루기 쉬운 알고리즘의 부족
- (방법들)
- Monarch라는 hardware-efficient and expressive matrices를 제시했다.
- hardware-efficent - parameterized as products of two block-diagonal matrices for better hardware utillzation
- expressive - represent many commonly used transforms
- Monarch matrices를 approximating dense weight matrix에 적용했을때, analytical optimal solution이 됐다.
Sparse Double Descent: Where Network Pruning Aggravates Overfitting
- 사람들은 pruning이 computational cost를 감소시키고, capacity를 낮춰 overfitting을 피한다고 믿고 있다.
- 논문에서는 pruning이 오히려 overfitting을 강화시키는 점을 발견했다.
- Unexpected sparse double decent phenomenon
- pruning을 하면, test performance가 낮아졌다가, 좋아지고, 다시 낮아지는 현상
- Contributions
- Report novel sparse double decent phenomenon.
- Propose a novel learning distance interpretation
- sparse double descent에서 항상 winning ticket이 존재하지는 않더라~
- Unexpected sparse double decent phenomenon
Pruning On-the-Fly: A Recoverable Pruning Method without Fine-tuning
- Propose a retraining-free pruning method based on hyperspherical learning and loss penalty terms
- Model weights를 0에서 멀어지게 함과 동시에, 필요없는 weights는 0으로 보내면서 안전하게 pruning하여 재학습이 필요없게 loss를 구성
HOW I LEARNED TO STOP WORRYING AND LOVE RETRAINING
- 대부분의 pruning 학습에서 iterative training / pruning step을 진행한다.
이때, pruning step에서 performance가 떨어지고, retraining step에서 회복하는 것을 반복한다. - 최근 연구에서는 retraining phase에서 learning rate schedule을 하고, IMP schedule을 위한 specific heuristics를 선택했다.
- simple linear learning rate schedule로도 retraining phase를 효과적으로 줄일 수 있다.
'Papers > Compression' 카테고리의 다른 글
Comments