[論文紹介] 状態遷移差分の学習による耐故障ロボットのための強化学習

January 26, 2024

Research

23

[論文紹介] 状態遷移差分の学習による耐故障ロボットのための強化学習

PDFファイルをダウンロードすると，スライド内のリンクを見ることができます．

tt1717

January 26, 2024

Tweet

More Decks by tt1717

See All by tt1717

[論文紹介] RT-1: Robotics Transformer for Real-World Control at Scale

0

18

[論文紹介] Chip Placement with Deep Reinforcement Learning

0

9

[論文紹介] Human-level control through deep reinforcement learning

0

21

[論文紹介] Transformer-based World Models Are Happy With 100k Interactions

0

37

[論文紹介] Deep Learning for Video Game Playing

0

24

[論文紹介] Playing Atari with Deep Reinforcement Learning

0

20

[論文紹介] 物理パラメータのランダム化による耐故障ロボットのための強化学習

0

21

[論文サーベイ] Survey on Minecraft AI

0

39

[論文サーベイ] Survey on Sim-to-Real

0

15

Other Decks in Research

See All in Research

ニューラルネットワークを用いた床面圧力センサによる靴の種類の識別 / shoes-i2024

0

110

サステナビリティと価格の壁 / Price Challenges to Sustainability

0

160

Engineering LaCAM∗: Towards Real-Time, Large-Scale, and Near-Optimal Multi-Agent Pathfinding

0

220

大規模言語モデルを用いたその場での要約に基づくレビュー探索インタフェース

0

120

第12回全日本コンピュータビジョン勉強会：画像の自己教師あり学習における大規模データセット

0

560

MLtraq: Track your AI experiments at hyperspeed

1

130

LLMとの共同執筆は文章の多様性を減らすか？

3

530

東工大Swallowプロジェクトにおける大規模日本語Webコーパスの構築

13

7.8k

CARA MEMBUKA VIDEO DEWASA DI INDONESIA

0

170

LiDARセキュリティ最前線

0

320

Ground Metric Learning with applications in genomics

0

420

媒介分析と疫学

0

170

Featured

See All Featured

Save Time (by Creating Custom Rails Generators)

5

220

Keith and Marios Guide to Fast Websites

408

22k

Optimising Largest Contentful Paint

14

2.5k

Adopting Sorbet at Scale

69

8.7k

Designing on Purpose - Digital PM Summit 2013

112

6.5k

Building Effective Engineering Teams - LeadDev

38

2k

Music & Morning Musume

42

5.7k

Cheating the UX When There Is Nothing More to Optimize - PixelPioneers

stephaniewalter

275

13k

Design and Strategy: How to Deal with People Who Don’t "Get" Design

117

18k

Thoughts on Productivity

61

4k

Fight the Zombie Pattern Library - RWD Summit 2016

228

16k

Sharpening the Axe: The Primacy of Toolmaking

23

1.5k

Transcript

・walker2Dを使用・3通りの訓練で検証 1．正常なロボットのみで訓練 (normal policy) 2．ロボットをランダムに故障させながら訓練 (robust policy) 3．状態遷移の差分を用いて故障させながら訓練 (our
policy) どんなもの？先行研究と比べて何がすごい？技術の手法や肝は？どうやって有効だと検証した？・故障度合いが大きいとき，our policyとrubust policyで高い収益を得られた・故障度合いが小さいとき，our policyで高い収益を得られた故障の表現・故障する関節をランダムに選択し，関節アクチュエータのトルクに対して，故障係数kをかける・故障係数kは一様分布U(0.0,2.0)からサンプリングする・MDPにおける遷移関数に対して，正常時の遷移関数と故障時の遷移関数の差分を利用して故障度合いを表現する手法を提案状態遷移差分の学習による耐故障ロボットのための強化学習（JSAI 2020）大里虹平, 川本一彦 https://www.jstage.jst.go.jp/article/pjsai/JSAI2020/0/JSAI2020_4Rin134/_pdf 2024/01/26 論文を表す画像被引用数：- 1/4
故障の表現 ❏ 正常時の遷移関数Tnormalと故障時の遷移関数Tbrokenが異なることを利用 ❏ Tnormalと遷移関数Tが等しければ正常，そうでなければ故障とみなす ❏ Stdiﬀ：ロボットの故障度合いを反映したパラメータ ❏ St：t時刻の状態
❏ Stnormal：正常時ロボットを仮定してt時刻の状態 ❏ Tnormalは未知関数なのでニューラルネットワークで表現する ❏ 定常環境でStnormalを収集し，これを教師データとして遷移予測ネットワークを訓練する ❏ St^normalとSt^diﬀは予測値を意味する 2/4
実験結果 ❏ 結果 ❏ 故障度合いが大きいとき，our policyとrobust policyで高い収益 ❏ 故障度合いが小さいとき，our policyで高い収益
3/4 ❏ 実験設定 ❏ 正常なロボットのみで訓練 (normal policy) ❏ ロボットをランダムに故障させながら訓練 (robust policy) ❏ 状態遷移の差分を用いて故障させながら訓練 (our policy) ❏ hip,knee,ankleに対してkを0.25刻みで故障させて評価する ❏ 各手法に対して3つのシード値で 3200万ステップ訓練する
❏ まとめ ❏ 正常時の遷移関数を学習する ❏ 予測される状態遷移と実際の状態遷移の差分を方策ネットワークに加える ❏ これにより，故障度合いを識別しながら学習する手法を提案 ❏ 提案手法では，正常時および故障時に遷移関数を利用しない方策より高い
収益を獲得した ❏ 感想 ❏ 提案手法の概要とイメージを掴むことができたが，方策ネットワークに入力される「StとSt^diﬀ」の2つを入力するのをどのように実装しているのか気になる (通常，t時刻に対する状態は1つだけいれる) ❏ 他のロボット (hopper,halfcheetah,ant)による実験でも，同様の結果が得られるのか気になる ❏ この研究では，オンライン強化学習の設定で行っているが，オフライン強化学習の設定で行った場合，結果に変化があるのか見てみたいまとめと感想 4/4