Список литературы

2518-1092

Научный результат. Информационные технологии

2518-1092

10.18413/2518-1092-2025-10-4-0-6

4016

ИСКУССТВЕННЫЙ ИНТЕЛЛЕКТ И ПРИНЯТИЕ РЕШЕНИЙ

<strong>МЕТОД КВАНТОВАНИЯ НЕЙРОННЫХ СЕТЕЙ ОБНАРУЖЕНИЯ НА ВСТРАИВАЕМЫХ СИСТЕМАХ</strong>

<strong>QUANTIZATION METHOD FOR DETECTION NEURAL NETWORKS ON EMBEDDED SYSTEMS</strong>

Хрупин

Данила Станиславович

Khrupin

Danila Stanislavovich

Khrupin24@mail.ru

Шапцев

Валерий Алексеевич

Shaptsev

Valeriy Alekseevich

vashaptsev@ya.ru

2025

10400

Квантование моделей является ключевым методом развертывания высокопроизводительных нейросетевых детекторов объектов на устройствах с ограниченными ресурсами. Однако стандартные подходы к квантованию, такие как PTQ, QAT и даже методы смешанной точности, оптимизируют распределение числа битов по показателю чувствительности слоев, игнорируя семантическую специфику задачи. Это приводит к существенному снижению точности при различении семантически близких классов, что критично для многих практических приложений. В статье предложен новый подход к квантованию со смешанной точностью, который учитывает семантику задачи. Введена метрика семантической значимости компонентов сети, вносящих ключевой вклад в различение трудноразличимых классов. На её основе формируется гетерогенная конфигурация битности, которое обеспечивает высокую точность критически важных частей модели, допуская агрессивное сжатие остальных. Представлен план экспериментальной валидации подхода на задаче определения типа транспортного средства. Ожидается значительно лучший компромисс между точностью и ресурсоемкостью модифицированной нейросетевой модели по сравнению со стандартными техниками квантования.

Model quantization is a key method for deploying high-performance neural network object detectors on resource-constrained devices. However, standard quantization approaches, such as PTQ, QAT, and even mixed-precision methods, optimize the distribution of bits based on the sensitivity of layers, ignoring the semantic specificity of the task. This leads to a significant decrease in accuracy when distinguishing between semantically similar classes, which is critical for many practical applications. The article proposes a new approach to mixed-precision quantization that takes into account the semantics of the task. A metric of semantic significance of network components that make a key contribution to the discrimination of difficult-to-distinguish classes is introduced. Based on it, a heterogeneous bit configuration is formed, which ensures high accuracy of critically important parts of the model, allowing aggressive compression of the rest. A plan for experimental validation of the approach on the task of determining the type of vehicle is presented. A significantly better compromise between accuracy and resource intensity of the modified neural network model is expected compared to standard quantization techniques.

квантование нейронных сетейраспознавание объектоввстраиваемые системыглубокое обучениесжатие моделейадаптивная длина двоичных значений коэффициентовсмешанная точностьметрика семантической значимости

neural network quantizationobject recognitionembedded systemsdeep learningmodel compressionadaptive binary coefficient lengthmixed precisionsemantic significance metric

Список литературы

1. Ren S., He K., Girshick R., Sun J. Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks // arXiv. URL: https://arxiv.org/abs/1506.01497 (дата обращения: 11.04.2025).

2. Redmon J., Farhadi A. YOLOv3: An Incremental Improvement // arXiv. URL: https://arxiv.org/abs/1804.02767 (дата обращения: 11.04.2025).

3. Liu W., Anguelov D., Erhan D., Szegedy C., Reed S., Fu C., Berg A.C.  SSD: Single Shot MultiBox Detector // arXiv. URL: https://arxiv.org/abs/1512.02325 (дата обращения: 11.04.2025)

4. Tan M., Pang R., Le Q.V. EfficientDet: Scalable and Efficient Object Detection // arXiv. URL: https://arxiv.org/abs/1911.09070 (дата обращения: 11.04.2025).

5. Chen Y., Krishna T., Emer J.S., Sze V. Eyeriss: An Energy-Efficient Reconfigurable Accelerator for Deep Convolutional Neural Networks // ResearchGate. URL: https://www.researchgate.net/publication/292869497_Eyeriss_An_Energy-Efficient_Reconfigurable_Accelerator_for_Deep_Convolutional_Neural_Networks#references (дата обращения: 11.04.2025).

6. Jacob B., Kligys S., Chen B., Zhu M., Tang M., Howard A., Hartwig A., Kalenichenko D. Quantization and Training of Neural Networks for Efficient Integer-Arithmetic-Only Inference // arXiv. URL: https://arxiv.org/abs/1712.05877 (дата обращения: 11.04.2025).

7. Raghuraman Krishnamoorthi. Quantizing deep convolutional networks for efficient inference: A whitepaper // arXiv. URL: https://arxiv.org/abs/1806.08342 (дата обращения: 11.04.2025).

8. Jouppi, N. P., et al. In-Datacenter Performance Analysis of a Tensor Processing Unit // arXiv. URL: https://arxiv.org/abs/1704.04760 (дата обращения: 11.04.2025).

9. Ron Banner, Yury Nahshan, Elad Hoffer, Daniel Soudry. Post-training 4-bit quantization of convolution networks for rapid-deployment // arXiv. URL: https://arxiv.org/abs/1810.05723 (дата обращения: 11.04.2025).

10. Yelysei Bondarenko, Markus Nagel, Tijmen Blankevoort. Understanding and Overcoming the Challenges of Efficient Transformer Quantization // arXiv. URL: https://arxiv.org/abs/2109.12948 (дата обращения: 27.08.2025).

11. Yaohui Cai, Zhewei Yao, Zhen Dong, Amir Gholami, Michael W. Mahoney, Kurt Keutzer. ZeroQ: A Novel Zero Shot Quantization Framework // arXiv. URL: https://arxiv.org/abs/2001.00281 (дата обращения: 11.04.2025).

12. Rundong Li, Yan Wang. Fully Quantized Network for Object Detection // ResearchGate. URL: https://www.researchgate.net/publication/334729962_Fully_Quantized_Network_for_Object_Detection (дата обращения: 11.04.2025).

13. Markus Nagel, Mart van Baalen, Tijmen Blankevoort, Max Welling. Data-Free Quantization Through Weight Equalization and Bias Correction // arXiv. URL: https://arxiv.org/abs/1906.04721 (дата обращения: 11.04.2025).

14. Migacz, S. 8-bit inference with TensorRT. // GTC 2017.

15. Shuchang Zhou, Yuxin Wu, Zekun Ni, Xinyu Zhou, He Wen, Yuheng Zou. DoReFa-Net: Training Low Bitwidth Convolutional Neural Networks with Low Bitwidth Gradients // arXiv. URL: https://arxiv.org/abs/1606.06160 (дата обращения: 11.04.2025).

16. Kuan Wang, Zhijian Liu, Yujun Lin, Ji Lin, Song Han. HAQ: Hardware-Aware Automated Quantization with Mixed Precision // arXiv. URL: https://arxiv.org/abs/1811.08886 (дата обращения: 11.04.2025).

17. Automatic Mixed Precision package – torch.amp — PyTorch 2.6 documentation // pytorch.org. URL: https://pytorch.org/docs/stable/amp.html (дата обращения: 10.04.2025).

18. Steven K. Esser, Jeffrey L. McKinstry, Deepika Bablani, Rathinakumar Appuswamy, Dharmendra S. Modha. Learned Step Size Quantization // arXiv. URL: https://arxiv.org/abs/1902.08153 (дата обращения: 11.04.2025).

19. Zhen Dong, Zhewei Yao, Yaohui Cai, Daiyaan Arfeen, Amir Gholami, Michael W. Mahoney, Kurt Keutzer. HAWQ-V2: Hessian Aware Trace-Weighted Quantization of Neural Networks // arXiv. URL: https://arxiv.org/abs/1911.03852 (дата обращения: 10.04.2025).

20. Sambhav R. Jain, Albert Gural, Michael Wu, Chris H. Dick. Trained Quantization Thresholds for Accurate and Efficient Fixed-Point Inference of Deep Neural Networks // arXiv. URL: https://arxiv.org/abs/1903.08066 (дата обращения: 10.04.2025).

21. Amir Gholami, Sehoon Kim, Zhen Dong, Zhewei Yao, Michael W. Mahoney, Kurt Keutzer. A Survey of Quantization Methods for Efficient Neural Network Inference // arXiv. URL: https://arxiv.org/abs/2103.13630 (дата обращения: 11.04.2025).