本研究では,照明制御システムにおいて「とても明るく」や「やや暗く」のようにユーザが感覚的に明るさを指示し,その尺度を強化学習手法の一つであるActor-Criticアルゴリズムを利用して学習するシステムを構築する.このシステムではユーザの要求とユーザ周辺の明るさの2種類の状態に応じた行動を取るように学習する必要がある.本研究では効率良く学習を行うために,2種類の状態それぞれに対応した2種類のActorを備えたActor-Criticアルゴリズムを構築した.本稿ではそのアルゴリズムの概要とその有効性を示す.