EfficientNet Understanding

2021-07-29

Classification

Từ khi mạng AlexNet chiến thắng trong cuộc thi ImageNet Challenge, Convolutional Neural Networks (CNN) trở nên phổ cập trong lĩnh vực Computer Vision. Mạng CNN cũng được áp dụng rất nhiều trong xử lý ngôn ngữ tự nhiên. Tuy nhiên một trong số các vấn đề thiết kế mạng CNN hay các mạng NN nói chung là model scaling (mở rộng mô hình) - tăng kích thước model như thế nào để tăng accuracy. Đây là một quá trình khá nhàm chán đòi hỏi thử đi thử lại nhiều lần để có được model với độ chính xác chấp nhận được và cũng phải thỏa mãn tài nguyên hệ thống. Quá trình này tốn thời gian, công sức và thường tạo ra model dưới mức tối ưu (chưa phải tối ưu nhất).

MobileNet Understanding

2021-07-27

Classification

Ngày nay nhu cầu deploy model lên các thiết bị edge-devices ngày một tăng. Các thiết bị này có tài nguyên tính toán thấp, do đó model của chúng ta không những phải nhẹ mà còn phải đảm bảo độ chính xác chấp nhận được. Vì vậy cần có dạng model nào đó có thể thỏa mãn điều kiện trên.

mAP - mean Average Precision for Object Detection

2021-07-25

Object Detection

mAP (mean average precision) là độ đo phổ biến để đánh giá độ chính xác của bài toán object detection như Faster R-CNN, SSD… mAP chính là trung bình của các average precision của từng class. Trước khi tìm hiểu về mAP chúng ta cùng nhắc lại một số khái niệm như precision, recall trong bài toán phân loại.

RetinaNet Understanding

2021-07-25

Object Detection

Trong bài này chúng ta sẽ tìm hiểu về one-stage detector có tên là RetinaNet. Đầu tiên cùng tìm hiểu về Focal Loss, chính loss function này làm nên sự khác biệt của RetinaNet. Các bài toán object detection trước đó luôn gặp phải một vấn đề về class imbalance (ám chỉ sự chênh lệch giữa foreground và background là quá lớn).

Feature Pyramid Network (FPN) Understanding

2021-07-24

Mở đầu

Phát hiện vật thể với nhiều kích thước khác nhau được coi là thách thức lớn, đặc biệt với vật thể nhỏ. Chúng ta có thể sử dụng image pyramid để phát hiện vật thể, tuy nhiên quá trình xử lý sẽ tốn rất nhiều thời gian. Chúng ta có thể sử dụng chúng trong các cuộc thi, nơi độ chính xác được đặt cao hơn so với tốc độ. Ngoài ra chúng ta có thể tạo pyramid of feature để phát hiện vật thể. Các feature map gần với ảnh chứa low-level feature và thường không hiệu quả trong object detection.