2025. 1. 6. 02:09ㆍPaper/Robotics
Abstract
✅ LLMs을 활용하는 반응형 로봇 에이전트가 사용자의 명령이 명확한지, 모호한지, 실행 불가능한지 추론하는 것에 초점을 두었다.
✅ 사용자 명령이 모호함 → LLMs의 질문 생성 → 사용자와 상호작용을 하며 모호함을 제거 → 로봇의 오작동을 줄임
✅ 방식 검증 방법: 데이터셋 기반 검증, 물건을 골라서 놓는 시뮬레이션 환경에서 실험
🤓 느낀 점
사용자의 명령을 듣고 모호하면 '말씀하신 내용을 이해하지 못했습니다.'와 같이 반응하여 할루시네이션을 줄이는 방법만 생각했었다. 이 논문에서 모호한 부분에 대한 질문을 생성해서 답을 찾아간다는 아이디어가 더 좋은 것 같다. 의사 결정을 위한 기준을 어떻게 마련할지 궁금해지는 초록이었다.
Introduction
✅ 언어 명령의 모호함과 실행 불가능성을 다루고, 발견된 불확실성에 대해 설명해주는 프레임워크를 제안한다.
✅ '상황 인식'이 중요하다. 동일한 명령이 주어져도 '사람의 상황'과 '로봇의 주요 기능'에 따라 다른 의미를 가질 수 있다.
✅ 명령은 명확한 것 / 명확하지 않은 것으로 나누어지고, 명확하지 않은 것은 모호한 것과 실행 불가능한 것으로 분류된다.
🤓 느낀 점
명령과 상황 예시를 설정하고, 로봇 종류에 따라 명령을 어떻게 받아들일지 전개하는 부분에서 상황 인식이 왜 중요한지 와닿았던 것 같다. 그리고 zero-shot과 few-shot에 대한 내용은 잘 몰라서 추가로 검색해 보았다.
+) N-shot learning은 딥러닝과 컴퓨터 비전 모델 학습에서 제한된 양의 라벨링 된 데이터로 인한 한계를 극복하기 위해 사용된다고 한다. Few-shot learning은 N-way K-shot 문제를 정의하여, K개의 샘플로 N개의 클래스에 대해 모델을 훈련하는 것을 목표로 한다. Zero-shot learning은 학습 예시가 전혀 없는 상태에서 데이터 샘플을 분류하는 것을 목표로 한다. 유사한 레이블 클래스와 보조 정보가 포함된 데이터셋으로 모델을 훈련한 후, 직접적으로 학습한 적이 없는 새로운 클래스의 예측을 하는 것이다. (https://viso.ai/deep-learning/n-shot-learning/)
Related Work
✅ 언어의 불확실성과 모호함은 질문-답변과 기계 번역 분야에서 활발하게 연구되는 내용이다.
✅ 토큰 단위의 엔트로피 또는 확률을 통해 불확실성을 추정하는 방법이 있다.
✅ GPT-4와 같이 토큰별 확률에 접근할 수 없는 LLM에는 이러한 방법을 사용할 수 없다. 또한, LLM은 프롬프트 순서나 샘플링으로 인한 최근성 편향을 가지므로, 불확실한 상황에서 원하는 만큼 다양한 샘플을 생성하기 어렵다.
🤓 느낀 점
불확실성을 추정하기 위해 기존에 주로 사용되는 방법을 알 수 있었다. LLM에 적용이 어려운 이유에 대해서 많이 다루는 느낌이었는데, 이 논문에서 한계를 어떻게 보완해 나갈지 기대감이 생기는 문단이었다.
Proposed Method
✅ 실행 가능성과 명확성 판단은 zero-shot 방법을 사용하고, 불확실성 추정은 few-shot 방법을 사용한다.
✅ 시스템 입력은 고수준 목표, 환경 내 객체 목록, few-shot 맥락이다. 이후 LLM은 짧은 범위의 저수준 기술을 생성하거나, 불확실성에 대한 설명을 텍스트로 생성한다.
✅ 불확실한 조건에서 LLM이 더 다양한 출력을 생성할 수 있도록, context 샘플링을 수행한다. 불확실한 목표일수록 예측이 더 큰 분산을 나타낸다. 키워드를 기반으로 출력의 쌍별 거리를 계산하는 불확실성을 예측하는 공식을 만들었다. 또한, 목표의 불확실성을 인지하는 프롬프트를 설계하였으며, 80%를 불확실성의 임계값으로 설정했다.
✅ 불확실성을 분석하고 설명하는 방법을 제시하며, 이는 실행 가능성 체크, 이유 생성, 질문 생성으로 이루어진다. Yes or No 이진 분류에서 로봇이 주어진 일을 수행할 수 있다는 결론이 나오면, 불확실성에 대한 이유를 제시하고 추가 정보를 얻기 위한 질문을 함으로써 중의성을 해소한다. 사용자 답변을 받으면 시스템은 불확실성 추정 단계로 돌아간다.
🤓 느낀 점
Fig. 1이 전반적인 흐름을 압축하고 있어서 내용을 이해하는 데 도움이 되었다. 기존 연구의 한계를 극복하기 위해 context 샘플링을 수행하고, 공식을 수립한 점이 신뢰가 가는 것 같다. 80%를 임계값으로 설정한 이유가 궁금하기는 했다. 사용자 명령에 불확실성이 존재할 때, 그 이유를 먼저 알려주고 질문을 건네는 방식이 대화의 흐름에서 매끄럽다고 느꼈다.
Experiment
✅ CLARA가 기존의 불확실성 정량화 기법에 비해 얼마나 효과적인지 분석한다. 제시한 방법으로 명확성, 모호성, 실행 불가능성을 정확히 식별하는지, 불확실성 인지 상호작용 모듈이 모호한 명령을 명확히 하는데 어떤 역할을 하는지 알아낸다. 마지막으로, 이 내용이 실제 인간-로봇 상호작용 시나리오에 적용 가능한지 알아낸다.
✅ LLaMA, ChatGPT (GPT-3.5-turbo), InstructGPT (text-davinci-003) 모델을 사용하여 테스트했다. 로봇 작업의 목표 분류를 위한 상황 인식 데이터셋을 활용하여, 언어 모델이 목표(명확성, 모호성, 실행 불가능성)을 효율적으로 구별할 수 있는지 평가한다.
✅ 논문에서 제안한 방법은 기존의 불확실성 정량화 기법이나 중의성을 해소하는 방법인 Inner Monologue, CLAM에 비해 높은 분류 정확도를 달성했다. 데이터셋은 gpt-3.5-turbo 모델을 사용하여 구성되었지만, text-davinci-003 모델의 분류 정확도가 더 높았으며, 이는 LLM 모델의 크기와 성능의 상관관계를 보여준다.
✅ F(Feasibility), R(Reasoning), Q(Question)를 사용하여 사용자와의 상호작용을 나타냈다. 특정 종류의 로봇이 실행 불가능한 목표인 경우 F 단계에서 No를 언급하며 종료된다. 실행 가능하지만, 모호한 목표의 경우에는 Yes를 외치고 어떤 부분에서 불확실성이 존재하는지 이야기한다. 그리고 그 부분에 대해 질문을 한다. (Fig 3) 실제 환경에서도 동일한 방법으로 로봇이 사용자 명령을 수행하였다.
🤓 느낀 점
아무래도 내용이 길고, 이해하기에 시간이 오래 걸렸던 파트인 것 같다. 실험 결과를 통계적으로 분석한 표가 많았는데, 기존에 방법들에 비해 논문에서 제안한 방식을 사용했을 때 성능이 향상된 것을 수치로 확인할 수 있었다.
실험에 대해 이해하는 데 Fig. 3과 Fig. 4가 도움이 되었고 흥미롭기도 했다. 특히 검은색 옷을 입은 사람에게 코카콜라 캔을 주라는 명령을 내렸을 때, 검은색 옷을 입은 사람이 2명인 모호한 상황을 F-R-Q 방식으로 해결하는 부분이 신기했다.
Limitations
✅ LLM 모델의 few-shot과 zero-shot 기능에 의존한다는 한계가 있고, 파인튜닝을 통해 이를 개선할 수 있다.
✅ 불확실성 유형을 더 세부적으로 분류할 필요가 있다. 예를 들면, 명령의 모호성, 계획의 모호성, 환경으로 인한 실행 불가능성, 에이전트 능력으로 인한 실행 불가능성이 있다.
✅ SaGC 데이터셋이 LLM에 의해 구성되어 편향이 존재할 수 있다.
🤓 느낀 점
위에 요약 정리를 할 때는 한계점만 간단히 적은 편이다. 논문에서는 제안한 방법과 어떤 연관성이 있는지, 각각의 한계점이 얼마나 중요한지를 함께 다루는 느낌이었다.
실험에서 사용한 조건과 데이터셋이 가지고 있는 한계를 인지하는 것이 중요한 것 같다. 특히, 불확실성의 유형을 더 세부적으로 분류해야 한다는 내용이 와닿았고 또 다른 후속 연구를 유도할 수 있는 부분이라고 느꼈다.
Conclusion
✅ LLMs 기반의 불확실성 추정 방법을 제시하였다. 불확실한 목표를 모호한 것과 실행 불가능한 것으로 분류하는 접근과 모호한 명령이 주어지면 상호작용을 통해 중의성을 해소하는 방법을 소개했다.
✅ 물건 선택 및 배치 시뮬레이션과 실제 환경에서 제안한 방법에 대한 평가를 수행했다.
✅ LLMs로부터 불확실성을 제대로 정량화하고, 사용자 명령의 유형을 적절하게 분류했다.
🤓 느낀 점
논문에서 제안한 방법과 이에 대한 평가 방식, 분석 결과를 간략하게 요약한 것이 보였다.