МЕТОД КВАНТОВАНИЯ НЕЙРОННЫХ СЕТЕЙ ОБНАРУЖЕНИЯ НА ВСТРАИВАЕМЫХ СИСТЕМАХ
Квантование моделей является ключевым методом развертывания высокопроизводительных нейросетевых детекторов объектов на устройствах с ограниченными ресурсами. Однако стандартные подходы к квантованию, такие как PTQ, QAT и даже методы смешанной точности, оптимизируют распределение числа битов по показателю чувствительности слоев, игнорируя семантическую специфику задачи. Это приводит к существенному снижению точности при различении семантически близких классов, что критично для многих практических приложений. В статье предложен новый подход к квантованию со смешанной точностью, который учитывает семантику задачи. Введена метрика семантической значимости компонентов сети, вносящих ключевой вклад в различение трудноразличимых классов. На её основе формируется гетерогенная конфигурация битности, которое обеспечивает высокую точность критически важных частей модели, допуская агрессивное сжатие остальных. Представлен план экспериментальной валидации подхода на задаче определения типа транспортного средства. Ожидается значительно лучший компромисс между точностью и ресурсоемкостью модифицированной нейросетевой модели по сравнению со стандартными техниками квантования.
Хрупин Д.С., Шапцев В.А. Метод квантования нейронных сетей обнаружения на встраиваемых системах // Научный результат. Информационные технологии. – Т.10, №4, 2025. – С. 72-78. DOI: 10.18413/2518-1092-2025-10-4-0-6
















Пока никто не оставил комментариев к этой публикации.
Вы можете быть первым.
1. Ren S., He K., Girshick R., Sun J. Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks // arXiv. URL: https://arxiv.org/abs/1506.01497 (дата обращения: 11.04.2025).
2. Redmon J., Farhadi A. YOLOv3: An Incremental Improvement // arXiv. URL: https://arxiv.org/abs/1804.02767 (дата обращения: 11.04.2025).
3. Liu W., Anguelov D., Erhan D., Szegedy C., Reed S., Fu C., Berg A.C. SSD: Single Shot MultiBox Detector // arXiv. URL: https://arxiv.org/abs/1512.02325 (дата обращения: 11.04.2025)
4. Tan M., Pang R., Le Q.V. EfficientDet: Scalable and Efficient Object Detection // arXiv. URL: https://arxiv.org/abs/1911.09070 (дата обращения: 11.04.2025).
5. Chen Y., Krishna T., Emer J.S., Sze V. Eyeriss: An Energy-Efficient Reconfigurable Accelerator for Deep Convolutional Neural Networks // ResearchGate. URL: https://www.researchgate.net/publication/292869497_Eyeriss_An_Energy-Efficient_Reconfigurable_Accelerator_for_Deep_Convolutional_Neural_Networks#references (дата обращения: 11.04.2025).
6. Jacob B., Kligys S., Chen B., Zhu M., Tang M., Howard A., Hartwig A., Kalenichenko D. Quantization and Training of Neural Networks for Efficient Integer-Arithmetic-Only Inference // arXiv. URL: https://arxiv.org/abs/1712.05877 (дата обращения: 11.04.2025).
7. Raghuraman Krishnamoorthi. Quantizing deep convolutional networks for efficient inference: A whitepaper // arXiv. URL: https://arxiv.org/abs/1806.08342 (дата обращения: 11.04.2025).
8. Jouppi, N. P., et al. In-Datacenter Performance Analysis of a Tensor Processing Unit // arXiv. URL: https://arxiv.org/abs/1704.04760 (дата обращения: 11.04.2025).
9. Ron Banner, Yury Nahshan, Elad Hoffer, Daniel Soudry. Post-training 4-bit quantization of convolution networks for rapid-deployment // arXiv. URL: https://arxiv.org/abs/1810.05723 (дата обращения: 11.04.2025).
10. Yelysei Bondarenko, Markus Nagel, Tijmen Blankevoort. Understanding and Overcoming the Challenges of Efficient Transformer Quantization // arXiv. URL: https://arxiv.org/abs/2109.12948 (дата обращения: 27.08.2025).
11. Yaohui Cai, Zhewei Yao, Zhen Dong, Amir Gholami, Michael W. Mahoney, Kurt Keutzer. ZeroQ: A Novel Zero Shot Quantization Framework // arXiv. URL: https://arxiv.org/abs/2001.00281 (дата обращения: 11.04.2025).
12. Rundong Li, Yan Wang. Fully Quantized Network for Object Detection // ResearchGate. URL: https://www.researchgate.net/publication/334729962_Fully_Quantized_Network_for_Object_Detection (дата обращения: 11.04.2025).
13. Markus Nagel, Mart van Baalen, Tijmen Blankevoort, Max Welling. Data-Free Quantization Through Weight Equalization and Bias Correction // arXiv. URL: https://arxiv.org/abs/1906.04721 (дата обращения: 11.04.2025).
14. Migacz, S. 8-bit inference with TensorRT. // GTC 2017.
15. Shuchang Zhou, Yuxin Wu, Zekun Ni, Xinyu Zhou, He Wen, Yuheng Zou. DoReFa-Net: Training Low Bitwidth Convolutional Neural Networks with Low Bitwidth Gradients // arXiv. URL: https://arxiv.org/abs/1606.06160 (дата обращения: 11.04.2025).
16. Kuan Wang, Zhijian Liu, Yujun Lin, Ji Lin, Song Han. HAQ: Hardware-Aware Automated Quantization with Mixed Precision // arXiv. URL: https://arxiv.org/abs/1811.08886 (дата обращения: 11.04.2025).
17. Automatic Mixed Precision package – torch.amp — PyTorch 2.6 documentation // pytorch.org. URL: https://pytorch.org/docs/stable/amp.html (дата обращения: 10.04.2025).
18. Steven K. Esser, Jeffrey L. McKinstry, Deepika Bablani, Rathinakumar Appuswamy, Dharmendra S. Modha. Learned Step Size Quantization // arXiv. URL: https://arxiv.org/abs/1902.08153 (дата обращения: 11.04.2025).
19. Zhen Dong, Zhewei Yao, Yaohui Cai, Daiyaan Arfeen, Amir Gholami, Michael W. Mahoney, Kurt Keutzer. HAWQ-V2: Hessian Aware Trace-Weighted Quantization of Neural Networks // arXiv. URL: https://arxiv.org/abs/1911.03852 (дата обращения: 10.04.2025).
20. Sambhav R. Jain, Albert Gural, Michael Wu, Chris H. Dick. Trained Quantization Thresholds for Accurate and Efficient Fixed-Point Inference of Deep Neural Networks // arXiv. URL: https://arxiv.org/abs/1903.08066 (дата обращения: 10.04.2025).
21. Amir Gholami, Sehoon Kim, Zhen Dong, Zhewei Yao, Michael W. Mahoney, Kurt Keutzer. A Survey of Quantization Methods for Efficient Neural Network Inference // arXiv. URL: https://arxiv.org/abs/2103.13630 (дата обращения: 11.04.2025).