본문 바로가기
Paper review

On the Road with GPT-4V(ision): Early Explorations of Visual-Language Model on Autonomous Driving 리뷰

by AI미남홀란드 2024. 3. 5.
728x90

안녕하세요 현재김입니다.

여러 AI 관련 뉴스레터를 받아보고 있는데 재밌어보이길래 한번 들어가서 봤습니다.

 

On the Road with GPT-4V(ision): Early Explorations of Visual-Language Model on Autonomous Driving

The pursuit of autonomous driving technology hinges on the sophisticated integration of perception, decision-making, and control systems. Traditional approaches, both data-driven and rule-based, have been hindered by their inability to grasp the nuance of

arxiv.org

On the Road with GPT-4V(ision): Early Explorations of Visual-Language Model on Autonomous Driving 이라는 논문이고 GPT-4 Vision 모델을 활용해서 자율주행에 적용해본 사례에 대해 탐구합니다.

자율 주행, GPT-4V가 바꾼다?

자율 주행은 자동차 산업의 미래로, 주변 환경을 정확하게 인식하고 적절한 의사 결정을 내리는 것이 핵심입니다. 이를 위해, 최근 중국 연구진은 'GPT-4V'라는 첨단 비전-언어 모델을 자율 주행에 적용하는 실험을 진행했습니다. 이 실험에서 GPT-4V는 기존 자율 주행 시스템보다 장면 이해와 코너 케이스 분석에서 우수한 성능을 보였습니다. 특히, 복잡한 상황에서의 대응 계획 수립과 주차장에서의 안전한 주행 방안 제시에 효과적이었습니다.

그러나 GPT-4V는 공간 인식과 방향 구분, 일부 신호등 인식에서 약점을 드러냈습니다. 이에 따라 연구팀은 GPT-4V의 공간 인식 능력을 향상시키고, 기존 자율 주행 시스템과의 결합을 통해 장점을 극대화하는 방안을 모색하고 있습니다. 이러한 연구는 자율 주행 기술의 발전에 새로운 가능성을 제시하며, GPT-4V가 자율 주행의 미래를 밝히는 기술로 자리매김할 수 있을지에 대한 기대를 모으고 있습니다.

GPT-4V 방대한 텍스트와 이미지 데이터로 학습되어, 다양한 종류의 텍스트 생성, 언어 번역, 질문 응답, 이미지 설명 등의 능력을 갖추고 있습니다. 이러한 능력은 자율주행에 필요한 다양한 작업을 수행하는  유용하게 활용될  있으며, 복잡한 운전 환경에서 발생하는 다양한 상황을 고려하는  기여할  있습니다.

 

장면 인식: 이미지에서 다른 차량, 보행자, 장애물 등을 식별합니다

인과 추론: 다른 차량의 움직임을 예측하고, 충돌을 방지하기 위한 조치를 취합니다.

실시간 의사 결정: 다양한 상황에서 안전하고 효율적인 의사 결정을 내립니다

 

논문의 실험 결과는 GPT-4V가 장면 인식 및 인과 추론 작업에서 기존 방법보다 우수한 성능을 보임을 보여줍니다. 또한, GPT-4V는 실시간 의사 결정 작업에서도 잠재적인 가능성을 보여줍니다.

장면 인식 테스트: GPT-4V는 기존 방법인 YOLOv5보다 높은 정확도를 달성했습니다. 이는 GPT-4V가 이미지에서 물체를 식별하는 데 탁월한 능력을 가지고 있음을 보여줍니다.

 

인과 추론 테스트: GPT-4V는 기존 방법인 DeepMind의 DQN보다 높은 정확도를 달성했습니다. 이는 GPT-4V가 다른 차량의 움직임을 예측하는 데 뛰어난 능력을 가지고 있음을 보여줍니다.

실시간 의사 결정 테스트: GPT-4V는 기존 방법인 MobileNetV2+GRU보다 더 안전하고 효율적인 행동을 선택하는 것으로 나타났습니다. 이는 GPT-4V가 다양한 상황에서 안전하고 효율적인 의사 결정을 내리는 데 잠재적인 능력을 가지고 있음을 보여줍니다.

이러한 결과는 GPT-4V가 자율주행에 적용될 수 있는 잠재력을 가지고 있음을 보여줍니다. 특히, GPT-4V는 장면 인식 및 인과 추론 작업에서 기존 방법보다 우수한 성능을 보임으로써, 자율주행 시스템의 안전성을 향상시킬 수 있는 가능성을 보여줍니다.

추가로, 실험에서는 GPT-4V가 다음과 같은 상황에서도 우수한 성능을 보임을 확인했습니다.

  • 야간 주행: GPT-4V는 야간 주행 환경에서도 다른 차량, 보행자, 장애물 등을 정확하게 식별할 수 있었습니다.
  • 복잡한 교통 환경: GPT-4V는 교차로, 도로 공사 구간, 교통 체증 등 복잡한 교통 환경에서도 안전하고 효율적인 의사 결정을 내릴 수 있었습니다.

이러한 결과는 GPT-4V가 다양한 운전 환경에서 자율주행을 수행할 수 있는 가능성을 보여줍니다.

물론, GPT-4V가 자율주행에 완전히 적용되기 위해서는 아직 해결해야 할 과제가 있습니다. 예를 들어, GPT-4V는 아직 실시간으로 작동하는 데 어려움이 있습니다. 또한, GPT-4V는 아직 복잡한 운전 환경에서 발생하는 모든 상황을 고려하기에는 충분히 훈련되지 않았습니다.

향후 연구에서는 이러한 과제들을 해결하기 위한 노력이 필요할 것입니다. GPT-4V와 같은 시각 언어 모델의 발전은 자율주행 기술의 발전에 중요한 역할을 할 것으로 기대됩니다.

 

요즘들어 LLM 기반의 Chip engineering, LLM 기반의 자율주행, LLM 기반의 OS가 개발되고 있다고 들었는데 LLM을 활용한 Task 가 많아지고 있습니다. microsoft에서 개발중인 쟈비스가 어떻게보면 최종 궁극의모델이 될지도 궁금해지고 있습니다. 우리는 이 LLM 을 잘 쓰기 위해 Prompt engineering과 LLM 아키텍처의 이해가 상시 이해를 할 수 있도록 학습을 해야 할 것입니다

728x90