openai gym 예제

Uncategorized by nrhpadmin

2018-01-24: 모든 연속 제어 환경은 이제 mujoco_py를 사용합니다 .= 1.50. 버전은 -v2(예: HalfCheetah-v2)에 따라 업데이트되었습니다. 성능은 비슷해야 하지만(https://github.com/openai/gym/pull/834 참조) MuJoCo의 변경으로 인해 약간의 차이가 있을 수 있습니다. 여러분 대부분은 아마 AI가 스스로 컴퓨터 게임을 배우는 것을 들었을 것입니다, 매우 인기있는 예는 Deepmind입니다. 딥마인드는 2016년 알파고 프로그램이 한국 바둑 월드 챔피언을 물리치면서 이 소식을 전했다. 과거에는 브레이크아웃, 탁구, 우주 침략자 와 같은 아타리 게임을 플레이하려는 의도를 가진 에이전트를 개발하려는 시도가 많이 있었습니다. 예를 들어 택시가 현재 위치에 승객을 포함하는 상태에 직면한 경우 하차 또는 북쪽과 같은 다른 작업과 비교할 때 픽업의 Q 값이 더 높을 가능성이 높습니다. 관찰은 환경에 따라 다릅니다. 예를 들어, 마운틴 카에서는 목표를 달성하기 위해 모멘텀을 구축하는 데 필요한 속도, 속도를 반환합니다. 경우에 따라 원시 픽셀 데이터일 수 있습니다. pip 설치 명령을 실행할 때 오류가 코드 1에 대한 권한이 거부되거나 실패한 경우 패키지를 설치하려는 디렉터리(이 경우 virtualenv 내부의 openai-gym 디렉터리)에 대한 사용 권한이 특별한/ 루트 권한입니다.

sudo-H pip 설치 -U 체육관[all]을 실행하여 문제를 해결하거나 sudo chmod -R o+rw ~/openai-gym을 실행하여 openai-gym 디렉토리에 대한 권한을 변경할 수 있습니다. 깊은 강화 학습에 대한 거대한 과대 광고와 인식을 만든 IBM의 딥 블루 v / s 카스파로프 이후 가장 인기있는 게임 시리즈로 시작 알파고 v / s 리 세돌입니다. 덴 9 마스터에 대한 우주의 원자보다 더 많은 보드 구성으로 게임을 마스터하는 것은 스마트 시스템이 보유 하는 힘을 보여줍니다. 도타 봇을 만드는 월드 프로를 상대로 최근 의기와 승리를 거둔 것은 또한 OpenAI 팀으로, 봇들이 복잡하고 역동적인 환경을 처리하도록 훈련을 받고 있습니다. 이러한 게임을 마스터하는 것은 매우 복잡한 상황을 처리하기 위해 만들 수 있는 AI 에이전트의 한계를 테스트하는 예입니다. 이미 운전자가 없는 자동차, 스마트 드론과 같은 복잡한 애플리케이션이 실제 환경에서 운영되고 있습니다. 강화 학습의 기초를 이해하고 우리 자신의 에이전트를 만들기 위해 OpenAI 체육관에서 시작하자.