Equilíbrio entre o reconhecimento facial e a precisão no mundo real

11 de fevereiro de 2019

Avaliação dos sistemas de reconhecimento facial através das pontuações do Instituto Nacional de Padrões e Tecnologia (NIST). Aqui está um guia objetivo sobre como navegar pelos dados do NIST e entende-los melhor.

Os testes de benchmark são uma maneira útil de avaliar e contrastar o estado do reconhecimento facial, mas os testes são facilmente mal compreendidos e frequentemente deturpados. Os testes mais proeminentes da indústria de reconhecimento facial, que começaram em 2000, são conduzidos pelo NIST, uma agência governamental que faz parte do Departamento de Comércio dos EUA.

O NIST realiza uma bateria contínua de testes, conhecida como Teste de Fornecedor de Reconhecimento de Face (FRVT), para medir as principais características dos algoritmos de reconhecimento facial, incluindo precisão, desempenho e viés. Empresas e instituições acadêmicas têm a oportunidade de enviar um ou mais algoritmos para que o NIST aplique um conjunto de testes. Os dois resultados mais recentes do teste FRVT têm mais de 270 páginas e foram publicados em Junho/18 e Janeiro/19. O NIST não apenas mede características específicas de algoritmos faciais, como desempenho, precisão e viés, como também os padrões de medições reportam atributos por tipo de imagem, como fotos posadas, de webcam ou imagens de situações reais. Imagens de situações reais (“wild images”) são rostos desconhecidos capturados por imagens de vídeo: são imagens complexas porque os rostos podem ter variações de ângulo e inclinação; sem mencionar que pode haver muitas faces dentro de um mesmo quadro de vídeo. As “wild images” desafiam qualidades faciais porque estão inseridas em condições do mundo real, para as quais o SAFR foi projetado. O NIST realiza seus testes de reconhecimento facial usando fotografias estáticas. O reconhecimento facial em vídeo ao vivo requer otimização combinada na captura, precisão e velocidade.

O SAFR da RealNetworks é o algoritmo de reconhecimento facial de alto desempenho mais preciso para vídeo ao vivo, conforme testado pelo NIST.

Fornecedores, pesquisadores e instituições acadêmicas podem submeter suas soluções para o teste de FRVT do NIST e não precisamente enviarem seu algoritmo de reconhecimento facial comercial e real, o que pode levar a resultados enganosos. Um fornecedor ou acadêmico pode enviar um algoritmo que funcione bem em precisão mas que em condições comerciais reais talvez seja tão computacionalmente caro que se torne impraticável. Por exemplo, nos resultados do FRVT de Janeiro, vários algoritmos alcançaram marcas de alta precisão para wild faces mas executaram tão lentamente – três a cinco vezes mais lento que o algoritmo SAFR – que seriam impraticáveis em muitas condições do mundo real, exigindo poder computacional extremamente caro, tempo excessivo para reconhecer um rosto e ser sobrecarregado por muitos rostos no vídeo.

Alguns dos algoritmos testados pelo NIST podem ser comparados com os carros de Fórmula 1: são construídos para um bom desempenho em um determinado circuito, mas não refletem o mundo comercial real, que exige equilíbrio nas condições de direção, ruído, freagem, capacidade de alcance, segurança, e conforto.

Então, como o SAFR performou contra o algoritmo de maior precisão no relatório de Janeiro? O algoritmo de maior precisão do relatório de Janeiro tem uma pontuação para wild faces de 0,028 mas é 4,7 vezes mais lento e 2,4 vezes mais pesado que o algoritmo SAFR, que tem uma pontuação de 0,048. O segundo algoritmo com maior precisão do mês de Janeiro teve um bom desempenho em precisão, mas em comparação com o SAFR em uma implementação comercial, em grande escala e no mundo real, seria necessário ter de 2-3 vezes o hardware local para obter resultados que seriam de 4 a 5 vezes mais lentos, como ilustrado no gráfico abaixo. O aumento na precisão tem um efeito debilitante no desempenho e no custo.

Alto desempenho faz uma diferença material, uma vez que aumenta o número de oportunidades para ter o reconhecimento em um sistema computacionalmente restrito. No grupo de algoritmos que ultrapassaram a precisão de 95%, o SAFR é o modelo mais rápido e mais leve. Isso significa que o SAFR pode identificar uma face várias vezes durante o mesmo período de tempo de outros algoritmos, compondo posteriormente a precisão da plataforma. Como resultado, o SAFR pode identificar inequivocamente um único indivíduo em uma galeria de 10.000 registros, mais rápido que qualquer outro algoritmo.

O SAFR é altamente competitivo em precisão para fotos: conforme testado pelo NIST, ele está classificado entre os 10 principais produtos comercialmente disponíveis no mundo e entre os 3 primeiros entre empresas dos Estados Unidos. No entanto, conforme observado, a pontuação de precisão do NIST não transmite a imagem inteira. O NIST mede a correspondência de uma única imagem com uma única imagem para wild faces, enquanto na vida real as pessoas que se deslocam dentro de um frame de vídeo estão em constante movimento. O SAFR usa inteligência de ponta para selecionar a imagem certa a partir de centenas de frames de vídeo. Isso significa que a precisão do SAFR é realmente maior do que a medida pelo NIST, já que o SAFR monitora continuamente o vídeo para capturar e enviar o melhor frame para reconhecimento. O NIST não usa vídeo em seus testes.

O SAFR se diferencia de outros algoritmos de reconhecimento facial porque atinge resultados com uma fração do poder computacional exigido pela maioria dos algoritmos de sua categoria. Muitas empresas que se submetem ao NIST estão otimizadas para obter alta precisão, mas não conseguem encontrar um equilíbrio entre desempenho e precisão.

O SAFR da RealNetworks está comprometido em fornecer a melhor precisão e desempenho com o mínimo de viés, usando hardware prontamente disponível para reconhecer pessoas em condições do mundo real.

O SAFR é a principal plataforma para reconhecimento facial no mundo real.