Resultados do NIST confirmam que o SAFR oferece a mais alta precisão eficaz para vídeo ao vivo

21 de Janeiro de 2020

Manter espaços seguros é um esforço conjunto. Para os mais de 25 milhões de profissionais de segurança pública e privada em todo o mundo que trabalham incansavelmente para nos manter seguros, pode ser quase impossível rastrear um número potencialmente impressionante de feeds de câmera. Ninguém pode fazer isso sozinho.

Em um movimentado aeroporto metropolitano, um operador que monitora dezenas de telas de vídeo pode não encontrar alguém perambulando em uma área sensível ou identificar uma pessoa de interesse. Com muita frequência, as equipes de segurança e policiais descobrem pessoas de interesse após o fato – com um cidadão preocupado se aproxima ou com uma ligação que vem de outro oficial. A equipe de segurança deve escanear todas as câmeras o mais rápido possível para identificar onde a pessoa de interesse pode ser encontrada.

É em condições do mundo real como essas nas quais soluções poderosas e cuidadosamente projetadas para visão computacional podem se destacar da concorrência. Quando o tempo é essencial – quando a resposta em tempo real importa – o SAFR oferece a precisão mais eficaz para o reconhecimento facial de vídeo ao vivo.

O desafio do vídeo ao vivo

É muito mais fácil identificar alguém em uma imagem parada do que em um feed de vídeo ao vivo. Quando você renova sua carteira de motorista, é solicitado que você tire uma foto no que o setor de reconhecimento facial chama de condições ideais: você está parado, olhando a câmera diretamente e está em iluminação adequada. Mas os feeds de vídeo ao vivo capturam pessoas em movimento – passageiros pegando trens, frequentadores de shows e fãs de esportes que se deslocam pelos estádios, os pais correndo pelas loja lotadas durante os feriados.

A indústria descreve esse desafio como imagens selvagens (wild images): pessoas não expostas se movendo em espaços em condições variadas, sem perceber a câmera. E quando várias imagens selvagens se movem pelos feeds de vídeo ao vivo ao mesmo tempo, é ainda mais difícil obter resultados precisos de reconhecimento facial.

Como o NIST testa a precisão do reconhecimento facial

O Instituto Nacional de Padrões e Tecnologia (NIST) é a referência do setor para a precisão do reconhecimento facial. O NIST desempenha um papel crucial no fornecimento de transparência para o setor, avaliando a precisão, o desempenho e viés três vezes por ano. A RealNetworks defende o envio regular de algoritmos para teste NIST, porque sabemos muito bem como os algoritmos podem mudar significativamente ao longo do tempo: em apenas três meses, de abril de 2019 a julho de 2019, o SAFR da RealNetworks ficou 30% mais rápido.

A precisão no vídeo ao vivo é a combinação de velocidade e precisão. Ao revisar os resultados do NIST, você pode pensar que eles também se aplicam ao vídeo ao vivo, mas o NIST avalia apenas o desempenho em imagens estáticas, segmentando seus resultados por tipo de imagem: fotos de vistos, mugshots, webcam ou imagens selvagens. Uma taxa de não correspondência falsa (FNMR) é a taxa na qual o algoritmo classifica erroneamente duas imagens capturadas do mesmo indivíduo como sendo de indivíduos diferentes.

A precisão efetiva no vídeo ao vivo significa obter o melhor resultado possível ao rastrear um rosto em vários quadros para acompanhar o vídeo em tempo real. Embora o reconhecimento facial por vídeo ao vivo apresente o mesmo rosto muitas vezes em sucessão rápida, com iluminação e ângulos ligeiramente diferentes, para melhorar a precisão, as soluções concorrentes conseguem realizar o reconhecimento a cada 10, 15 ou mesmo 30 quadros. O SAFR alcança mais de 500 reconhecimentos por segundo por placa GPU e pode balancear automaticamente essa capacidade em vários fluxos de vídeo, conforme necessário. Ser capaz de selecionar a melhor imagem de referência de vários quadros de vídeo posteriormente aumenta nossa precisão.

Por que o SAFR é a melhor solução para reconhecimento facial de vídeo ao vivo

Para traduzir os resultados do NIST em determinantes do desempenho em vídeo ao vivo, devemos primeiro examinar os níveis de precisão do SAFR em relação à velocidade. No campo do NIST abaixo, você verá que, dentre os algoritmos mais precisos, o SAFR da RealNetworks é o mais rápido:

Os resultados do FRVT de janeiro de 2020 mostram que, entre os algoritmos de primeira linha para precisão, o SAFR da RealNetworks é o mais rápido. (Fonte: resultados contínuos do teste FRVT, 6 de janeiro de 2020)

Em seguida, vemos o impacto do SAFR em concluir vários reconhecimentos no tempo necessário para que os concorrentes terminem um. Com cada pose sucessiva (quadro) do mesmo indivíduo, a precisão do SAFR aumenta. Sendo mais rápido que outros algoritmos, o SAFR atinge 99,9% de precisão positiva verdadeira mais rapidamente do que qualquer outro, incluindo o Hikvision, que possui a maior precisão para um único quadro:

(Fonte: resultados do teste NIST FRVT em andamento, 6 de janeiro de 2020)

Além disso, o SAFR teve consistentemente uma das menores taxas de viés em ciclos contíguos de testes NIST de mais de 100 algoritmos. O SAFR é o 7º dos 167 algoritmos avaliados em termos de desempenho mais uniforme em gênero e tom de pele.

Mais do que um algoritmo: análise de vídeo ao vivo de ponta a ponta

Indo além do algoritmo principal que enviamos ao NIST, o SAFR oferece uma solução analítica de ponta a ponta para vídeo ao vivo, que possibilita:

  • Conecte-se a qualquer câmera compatível com ONVIF;
  • Processe vídeo com eficiência;
  • Reduza o custo total de propriedade (TCO);
  • Adicione a detecção de pessoas à nossa lista de recursos (com a detecção de objetos em breve).

Precisão é importante. A velocidade é importante. O viés é importante. E em nenhum lugar a combinação dos três importa mais do que no vídeo ao vivo. Com a mais alta precisão efetiva para vídeo ao vivo, o SAFR é sua solução abrangente de reconhecimento facial.


Os resultados mostrados no NIST não constituem um endosso de nenhum sistema, produto, serviço ou empresa em particular pelo NIST.