둔비의 공부공간

DSD Survey 본문

Papers/Compression

DSD Survey

Doonby 2023. 4. 12. 12:24

DSD 논문을 인용한 후속논문들에 대한 간단한 요약

 

Monarch: Expressive Structured Matrices for Efficient and Accurate Training

  • 기존 compute/memory를 줄이는 방법들은 여러 문제가 있었다.
    • (방법들)
      • replace dense weight matrices with structured ones, such as sparse & low-rank matrices and the Fourier transform. 
    • 비효율적인 efficiency <-> quality trade-off
    • dense-to-sparse fine-tuning 할때, dense weight matrix의 approximate를 다루기 쉬운 알고리즘의 부족
  • Monarch라는 hardware-efficient and expressive matrices를 제시했다.
    • hardware-efficent - parameterized as products of two block-diagonal matrices for better hardware utillzation
    • expressive - represent many commonly used transforms
  • Monarch matrices를 approximating dense weight matrix에 적용했을때, analytical optimal solution이 됐다.

 

Sparse Double Descent: Where Network Pruning Aggravates Overfitting

  • 사람들은 pruning이 computational cost를 감소시키고, capacity를 낮춰 overfitting을 피한다고 믿고 있다.
  • 논문에서는 pruning이 오히려 overfitting을 강화시키는 점을 발견했다.
    • Unexpected sparse double decent phenomenon
      • pruning을 하면, test performance가 낮아졌다가, 좋아지고, 다시 낮아지는 현상
    • Contributions
      • Report novel sparse double decent phenomenon.
      • Propose a novel learning distance interpretation
      • sparse double descent에서 항상 winning ticket이 존재하지는 않더라~

 

Pruning On-the-Fly: A Recoverable Pruning Method without Fine-tuning

  • Propose a retraining-free pruning method based on hyperspherical learning and loss penalty terms
  • Model weights를 0에서 멀어지게 함과 동시에, 필요없는 weights는 0으로 보내면서 안전하게 pruning하여 재학습이 필요없게 loss를 구성

 

HOW I LEARNED TO STOP WORRYING AND LOVE RETRAINING

  • 대부분의 pruning 학습에서 iterative training / pruning step을 진행한다.
    이때, pruning step에서 performance가 떨어지고, retraining step에서 회복하는 것을 반복한다.
  • 최근 연구에서는 retraining phase에서 learning rate schedule을 하고, IMP schedule을 위한 specific heuristics를 선택했다.
  • simple linear learning rate schedule로도 retraining phase를 효과적으로 줄일 수 있다.
Comments