Em produção, a pergunta não é “funciona?”, é: quantos FPS, com quanta bateria e com qual estabilidade.
- Quantização (FP32 → FP16/INT8): reduz tamanho e acelera inferência.
- TensorRT (Jetson): compila o grafo e usa kernels otimizados da GPU NVIDIA.
- Batch=1: no edge, quase sempre é “um frame por vez”.
Regra prática: modelo menor + bem otimizado costuma ganhar de modelo grande “cru”.