酒店前台 图源摄图网
摘要:传统酒店动态定价研究大多考虑改进需求预测方法或考虑需求环境已知,而现实生活中需求分布通常是未知的。本文考虑需求分布未知的情境,建立基于马尔可夫决策过程的酒店客房多周期动态定价模型,并利用强化学习方法,提出基于SARSA(λ)的改进算法对客房动态定价模型进行求解。为提升算法的求解能力和收敛速度,提出了基于改进ε-greedy策略的ε-SARSA(λ)算法和基于改进模拟退火策略的ISA-SARSA(λ)算法。通过数值实验对比SARSA(λ)、ε-SARSA(λ)、SA-SARSA(λ)、ISA-SARSA(λ)四种算法的收益优化结果,验证了改进算法的有效性,结果显示,ISA-SARSA(λ)算法求解性能最好。
关键词:强化学习;动态定价;SARSA(λ)算法;收益管理
一、研究背景及意义
随着酒店业市场竞争越发激烈,酒店亟须在成本可控的前提下不断提升自身竞争力,占据更多的市场份额,从而提高收益水平。客房收入作为酒店收益的主要来源,对其定价时会受到供需情况、竞争者价格及其他市场因素的影响,传统的静态定价即客房价格固定方法已经不能适应当今复杂的市场环境,企业的定价策略日趋复杂,如何制定出有效的客房动态定价策略成为各大酒店面临的重大难题。需求预测是酒店客房动态定价的基础和前提,已有的对客房动态定价问题的研究大多提前假定需求环境已知(即构建需求环境模型)或聚焦于改进需求预测方法(提高预测准确度)。然而考虑到需求的不确定性,尽管如今需求预测方法在不断改进,往往也无法实时反映真实的现实需求。
强化学习训练智能体根据与环境交互得到的奖惩不断试错来自主学习策略,从而实现长期利益最大化的目标,是研究智能动态定价策略的重要方法。然而,目前少有研究将强化学习方法与酒店客房动态定价相结合。对比传统的优化决策方法,强化学习的最大优势在于可以解决模型环境未知的动态规划问题,因此本文重点研究如何构建动态定价模型并利用强化学习解决需求环境未知情境下的酒店客房动态定价问题。为了提升算法的求解性能,本文对强化学习中的SARSA(λ)算法进行改进,并基于改进的SARSA(λ)算法求解客房多周期最优定价策略,为管理者定价决策提供一定的参考借鉴。通过本文的研究除了希望可以帮助酒店竞争激烈的市场环境下提高自身收益,增强自身竞争力以抢占更多的市场份额外,还期望通过利用强化学习技术解决酒店客房动态定价问题的研究可以更好地推动酒店收益管理的发展。
二、动态定价的MDP模型
三、主要结论
为验证改进算法的有效性,本文通过数值实验对比分析SARSA(λ)、ε-SARSA(λ)、基于传统模拟退火策略的SA-SARSA(λ)、基于改进模拟退火策略的ISA-SARSA(λ)四种算法的求解性能。图1展示了四种动态定价算法在迭代5000次后的收益优化结果。
实验表明,SARSA(λ)、ε-SARSA(λ)、ISA-SARSA(λ)三种算法均能稳定运行,最后总收益会在一定范围内稳定波动,迭代后期SA-SARSA(λ)总收益波动范围更大,算法不易达到稳定。此外,SARSA(λ)算法的求解性能最差,因此本文对SARSA(λ)算法的改进是有效果的,并且基于改进模拟退火策略的ISA-SARSA(λ)算法求解酒店客房动态定价问题的表现效果最好,该算法的收敛速度最快、算法收敛时总收益最大。ISA-SARSA(λ)算法迭代终止时的期望总收益为659527元,相比于SARSA(λ)算法的475950元,提升了38.6%。
本文基于SARSA(λ)、ε-SARSA(λ)、SA-SARSA(λ)和ISA-SARSA(λ)四种算法进行大规模试验,变换参数取值,对改进算法相对于SARSA(λ)算法的收益提升效果进行分析,ISA-SARSA(λ)对SARSA(λ)算法的总收益提升效果最好,有超过1/3的情况下能使总收益提升40%以上,99%的情况下能使总收益提升至少20%。SA-SARSA(λ)对SARSA(λ)的改进有14%的情况下使总收益提升40%以上,90%的情况下使总收益至少提升20%。ε-SARSA(λ)有超过20%的情况下至少提升40%的总收益,而仅有66%的情况下使总收益至少提升20%。三个算法均优于SARSA(λ)算法,且最差也能提升10%的总收益。通过分析三种算法相对于SARSA(λ)算法的总收益提升效果在不同参数取值下的平均值、最大值和最小值,再次说明了ISA-SARSA(λ)算法表现效果较好。若考虑顾客连续入住多天产生的收益分别发生在实际入住的日期,而不是在办理入住日当天全部结算,重复上述实验,仍能说明本文对SARSA(λ)算法的改进是有效果的,基于改进模拟退火策略的ISA-SARSA(λ)算法在问题求解时的收敛速度最快,收敛时酒店客房总收益水平最高。
四、贡献与拓展
在大数据与人工智能时代背景下,本文将前沿的强化学习方法与酒店客房动态定价问题相结合,利用强化学习技术求解酒店客房多周期动态定价问题,为酒店管理者提供最优定价策略,从而帮助酒店增强自身竞争力从而提高收益水平。现阶段,很多酒店在对客房进行动态定价时主要依靠构建需求环境模型,利用大量历史数据求解模型预测未来需求,本文考虑现实生活中需求是未知的,具有一定的不确定性,难以构建模型精准预测,因此构建需求未知环境下的酒店客房马尔可夫动态规划模型。本文采用SARSA(λ)算法对模型进行求解,为了更好地平衡该算法的“利用”和“探索”之间的关系,提高算法收敛速度和寻优能力,本文提出了基于改进 ε-greedy策略的ε-SARSA( λ )和基于改进模拟退火策略的ISA-SARSA(λ)算法。
本文仍有许多不足之处,例如在建模时仅考虑一家酒店并未考虑不同酒店竞争关系,此外也未考虑顾客预订客房后的取消和no-show行为。基于此,在后续研究中可以探究考虑两家甚至多家酒店的竞争或是基于顾客取消和no-show的酒店超售动态 定价模型。
本文摘编自《系统工程理论与实践》第43卷第2期论文《基于强化学习的需求分布未知情境下酒店客房动态定价研究》(点击题目链接全文);
作者:朱晗、张敏、唐加福,东北财经大学 管理科学与工程学院 博士,教授、硕士研究生、博士,教授