본 논문은 불규칙한 지형을 이동하고 물리적 장애물을 극복할 수 있는 로봇 설계에 대한 오랜 과제를 다룹니다. 보행 로봇은 민첩성, 과잉 자유도(DOF), 그리고 보행 부속물의 간헐적 지면 접촉으로 인해 유망한 해결책으로 여겨집니다. 하지만 보행 로봇의 복잡성과 많은 자유도는 제어를 매우 어렵고 계산적으로 무겁게 만듭니다. 강화 학습으로 훈련된 선형 정책은 사족 보행을 가능하게 하면서 계산적으로 가벼운 것으로 나타났습니다. 본 연구는 새로운 상태 변수를 사용하여 선형 정책의 관측 공간을 확장하는 것이 정책 성능에 미치는 영향을 연구하는 것을 목표로 합니다. 지면 접촉과 반응력은 로봇-환경 상호 작용의 주요 수단이므로, 선형 정책에 정보를 제공해야 하는 필수적인 상태 변수입니다. 실험 결과에 따르면 지면 접촉 및 반응력 데이터로 관측 공간을 확장하면 생존율이 향상되고, 외부 방해에 대한 안정성이 향상되며, 훈련되지 않은 조건에 대한 적응력이 높아지는 정책을 훈련할 수 있습니다.