O que é visão computacional e quais são seus desafios no mundo dos carros autônomos?

Carros autônomos são um tópico controverso e fascinante, pois dependem de sistemas avançados de assistência ao motorista (ADAS) para atingir um alto nível de segurança e conforto. Embora ainda não existam carros totalmente autônomos, as tecnologias atuais permitem funções como direção automática e estacionamento automático.

Esses carros usam sistemas avançados de visão computacional para analisar os arredores e tomar decisões inteligentes, contando com uma variedade de sensores. Neste artigo, abordaremos os conceitos básicos da visão computacional e como ela aumenta a eficácia da direção automatizada, bem como os desafios e inovações futuras esperados neste campo.

Visão computacional e seus desafios no mundo dos carros autônomos

O que é visão computacional?

Visão computacional é uma tecnologia que permite que máquinas vejam e reconheçam objetos em seu ambiente. É um subconjunto da visão que se concentra em aplicações industriais de detecção de objetos orientada por visão em máquinas autônomas, como robôs e veículos.

A visão computacional atual usa algoritmos de IA de aprendizado profundo, como redes neurais convolucionais (CNNs), para criar modelos robustos e bem generalizados que podem identificar objetos com precisão em várias condições. Ela possibilita implementar a visão computacional em diversas tarefas que exigem maior confiabilidade em manufatura, agricultura, robótica e automotivo.

Como a visão computacional funciona em carros autônomos?

A visão computacional em carros autônomos pode geralmente ser dividida em três partes: o sistema de câmera, o processamento (computação de ponta) e a inteligência artificial. Este conjunto de tecnologias permite que carros autônomos vejam, considerem e identifiquem diferentes sinais e obstáculos enquanto dirigem. Vamos discutir cada parte em detalhes para entender como essas tecnologias se conectam para criar uma visão computacional para um carro autônomo.

Sistema de câmera

A visão computacional depende de sistemas de câmeras para coletar informações visuais sobre o ambiente. Carros autônomos usam diversas câmeras instaladas ao redor do veículo para coletar o máximo de informações visuais possível.

Dois sensores principais são usados em câmeras de visão de máquina: semicondutores de óxido metálico complementar (CMOS) e dispositivos de carga acoplada (CCD). Para carros autônomos, a tecnologia CMOS é frequentemente preferida devido à sua rápida velocidade de leitura, eletrônica poderosa e capacidade de processamento paralelo, tornando-o o sensor mais rápido. Soluções como diferentes modos de iluminação, visão noturna digital e filtros podem ajudar o sensor CMOS durante condições de iluminação abaixo das ideais.

Para carros autônomos, as câmeras são instaladas a certas distâncias umas das outras para produzir uma visão estereoscópica. A visão estereoscópica é a capacidade de combinar duas ou mais entradas visuais, criando uma sensação de profundidade ou tridimensionalidade nos objetos e no ambiente. Isso, por sua vez, permite que os carros triangulem e calculem a distância aproximada entre o objeto e o carro.

Como os humanos têm dois olhos, também nos beneficiamos da visão estereoscópica. Você pode testar essa visão por si mesmo; Feche um olho e pegue um pequeno objeto da sua mesa. Coloque a mão na lateral do objeto e certifique-se de que a ponta dele esteja a pelo menos cinco centímetros de distância. Tente parar por alguns segundos e observe o quão confiante você se sente na sua aproximação. Agora, tente abrir os dois olhos e veja o quanto seu senso de profundidade melhora.

Computação de ponta

Computação de ponta é o processo de aproximar o armazenamento de informações e o poder de computação do dispositivo que gera esses dados e dos usuários que interagem com ele. Tradicionalmente, os aplicativos transmitiam dados de dispositivos inteligentes, como sensores e smartphones, para um data center central para processamento. Entretanto, a complexidade e o volume de dados sem precedentes excederam as capacidades da rede. Os sistemas de computação de ponta levam os recursos de processamento para mais perto dos usuários e dispositivos, melhorando drasticamente o desempenho dos aplicativos, reduzindo os requisitos de largura de banda da rede e fornecendo insights mais rápidos e em tempo real.

Enquanto o sistema de câmeras do carro autônomo coleta dados, o computador de bordo (processador de borda) processará todas as entradas em tempo real para atualizar o sistema sobre o estado do ambiente imediatamente. Embora tarefas típicas de visão computacional possam economizar dinheiro usando a computação em nuvem, há muitos riscos para carros autônomos serem vinculados à nuvem, mesmo que seja devido à terceirização do processo para requisitos de visão computacional.

Usar um computador sofisticado para processar dados de entrada elimina problemas de latência e garante que os dados sejam recebidos, processados e transmitidos em tempo real. Computadores avançados para carros autônomos usam computadores especializados que integram processadores gráficos de IA, como o Tensor Core e os CUDA Cores da NVIDIA.

Algoritmos de inteligência artificial

Algoritmos sempre foram uma parte importante da visão computacional. O algoritmo é o que permite ao computador reconhecer todos os padrões, formas e cores fornecidos pelo sistema de câmera. Usar inteligência artificial em vez de algoritmos tradicionais de visão computacional aumenta muito a capacidade de um carro autônomo de identificar objetos, placas de rua, marcações rodoviárias e semáforos de forma confiável. Muitos algoritmos de IA são usados para treinar carros autônomos. Os mais populares incluem:

YOLO (Você só olha uma vez): Um algoritmo de detecção de objetos em tempo real que identifica e rastreia objetos no campo de visão do carro.
SIFT (Scale-Icar'sant Feature Conversion): Usado para extrair recursos, ajuda o carro a reconhecer pontos de referência e objetos distintos em seu entorno.
Histograma de gradientes direcionados (HOG): Usado para reconhecimento de objetos, concentra-se na extração de padrões e gradientes locais de imagens.
TextonBoost: Um algoritmo que ajuda a identificar objetos analisando texturas no ambiente.
Ada Boost: Usado para classificar dados, o AdaBoost combina vários classificadores fracos para tomar decisões robustas sobre objetos e obstáculos no caminho de um veículo.

A importância da visão computacional em carros autônomos

A visão computacional é a principal maneira pela qual um carro autônomo detecta e entende o que está ao seu redor. Sem visão computacional, os carros autônomos provavelmente serão relegados ao Nível 1 na escala de autonomia do veículo e podem nunca atingir a autonomia total.

Graças à visão mecânica, os carros autônomos agora são capazes de classificar objetos, detectar faixas e sinais, identificar sinais e reconhecer o tráfego.

Embora muitos carros autônomos agora usem vários sensores, como LIDAR, RADAR e SONAR, todos eles dependem fortemente da visão computacional para ver o ambiente, identificar objetos e entender o significado de placas de trânsito e sinais de trânsito. Todos esses sensores adicionais existem apenas para aprimorar a visão da máquina e aumentar a segurança de pessoas, animais e propriedades.

No entanto, a visão mecânica pode operar de forma autônoma, sem a assistência de outros sensores, para fornecer capacidades de controle automático. Na verdade, os mais recentes carros autônomos da Tesla abandonaram o sistema de radar e agora dependem apenas da visão mecânica do seu sistema de piloto automático.

Embora isso não necessariamente coloque em questão a utilidade de outras tecnologias de detecção, demonstra a importância e o poder da visão computacional em carros autônomos.

perguntas comuns

Q1. O que é tecnologia de visão computacional? Em carros autônomos?

A tecnologia de visão computacional é um sistema baseado em hardware e software que analisa e interpreta imagens e vídeos para permitir que carros autônomos reconheçam seus arredores e tomem decisões enquanto dirigem.

Q2. Como funciona a tecnologia de visão computacional Em carros?

O carro está equipado com múltiplas câmeras e sensores que capturam imagens e vídeos do entorno. Esses dados são processados usando software avançado para analisar imagens e reconhecer diferentes objetos e pontos de referência na estrada.

T3. Qual é a importância da tecnologia de visão computacional? Em direção autônoma?

A tecnologia de visão computacional é essencial para a direção autônoma, permitindo reconhecer placas de trânsito, outros veículos e obstáculos na estrada. Essas informações ao vivo são a base para a tomada de decisões automatizadas, incluindo direção do veículo e prevenção de acidentes.

Q4. Quais são os desafios enfrentados pela tecnologia de visão mecânica?

Os desafios enfrentados pela tecnologia de visão computacional incluem fatores como condições climáticas adversas, como neblina e chuva, dificuldade em reconhecer objetos na escuridão total e proteção e privacidade de dados.

Q5. Quais são os desenvolvimentos futuros esperados neste domínio?

Espera-se que a tecnologia de visão computacional continue evoluindo, com melhores aplicações de inteligência artificial e melhores capacidades de detecção e reconhecimento de imagens. Também é possível expandir o uso dessa tecnologia para outras áreas além da automotiva.

O futuro da visão mecânica em carros autônomos

A visão computacional é a base dos carros autônomos. Com a visão computacional, os carros podem ver e perceber o ambiente da mesma forma que os humanos. Embora ainda existam desafios, os benefícios da visão computacional em termos de segurança e navegação não podem ser subestimados. Quanto ao futuro dos veículos autônomos, quaisquer avanços adicionais em inteligência artificial, computação de ponta e/ou tecnologia de câmeras tornarão os carros autônomos mais eficientes, o que provavelmente os levará a um nível mais alto de automação.