Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

Robo-Instruct: Simulator-Augmented Instruction Alignment For Finetuning Code LLMs

Created by
  • Haebom

作者

Zichao Hu, Junyi Jessy Li, Arjun Guha, Joydeep Biswas

概要

本稿では、サービスロボットの自然言語操作をプログラムに変換するのに有望な結果を示すコードLLM(Large Language Models)に焦点を当てています。小規模で特殊化されたLLMを微調整することに興味がありますが、各ロボットに特化した作業 - プログラムペアのデータセットを収集するのは時間がかかり、費用がかかります。 SELF-INSTRUCTやEVOL-INSTRUCTなどの方法では、いくつかの例で新しいタスクを作成できますが、提供されたプログラミングインターフェースを使用して物理的な世界とロボットの制約に正しく準拠するプログラムを提供することはできません。シミュレータを使用することはこれらの制約を確認するための自然な潜在的な解決策ですが、必要なオブジェクトと場所を処理するための任意のタスクとシミュレーション環境を構築することは困難です。これらの課題を解決するため、本論文ではROBO-INSTRUCTを提案する。 ROBO-INSTRUCTは、プログラムの実行中にエンティティ属性を機会的に推論し、タスクプログラムでエンティティがどのように使用されるかに基づいて、対応する制約を適用して、タスク固有のシミュレーション環境を即座に合成します。さらに、ROBO-INSTRUCTは、ロボットプログラムとの位置合わせを改善するためにLLMサポート後処理手順を統合しています。複数のLLMでROBO-INSTRUCTの効果を示し、微調整されたモデルがすべての基準方法を上回り、さらにいくつかのより大きく排他的なモデルの性能と一致または上回ることを示します。

Takeaways、Limitations

Takeaways:
タスクとプログラムのペアデータセットの収集の難しさを解決する効率的な方法を提示します。
小規模で特殊化されたLLMを効果的に微調整し、大規模モデルと競争力のある性能を達成。
リアルタイムシミュレーション環境合成による物理的制約の効果的な処理
LLMベースの後処理手順によるロボットプログラムとの位置合わせの改善
Limitations:
ROBO-INSTRUCTの性能は、使用されるLLMとシミュレータの精度に依存する可能性があります。
すべての作業、オブジェクト、場所を完全に処理するには制限がある可能性があります。
複雑なタスクや例外状況に対する処理能力の追加評価が必要です。
シミュレータ環境の作成と保守には費用と時間がかかる場合があります。
👍