基于民航旅客服务数据的NOSHOW规则发现研究
在航空市场中,经常有旅客订座后却不能如期登机(NOSHOW),这些行为最终会导致座位虚耗,从而给航空公司造成巨额经济损失.随着大数据技术的飞速发展,如何从海量民航旅客服务系统中产生的CKI(Check-In,离港数据)中挖掘出有效的规则以降低座位虚耗、减少收益损失成为各大航空公司亟待解决的问题.本文首先分析了民航旅客服务系统的产生的CKI数据,得出此数据集是海量不平衡数据集,针对这一数据特征,采用适用于处理大数据集的C5.0算法对CKI数据进行挖掘,构建初始NOSHOW分类模型,验证了决策树算法在民航旅客NOSHOW分类中的可行性,较好的解决了分类速度低、内存占用性能高的问题.其次,根据前期分类模型构建实验验证,发现不同情况分类代价在实际的应用中带来的影响不同,针对此类情况,提出一种基于误判代价的NOSHOW分类规则发现方法,将不同情况的误判代价考虑在内,在保证总分类错误变化不大的基础上,有效降低高代价误判带来的影响.再次,根据上述构建的分类模型,得到对NOSHOW影响程度大的强因子,由于挖掘出的NOSHOW分类规则,并未考虑强因子之间的关联关系,因此,对上述提取的NOSHOW强因子采用优化Apriori算法进行强因子关联规则挖掘,揭示了NOSHOW强因子之间的隐含关联关系.最后,通过对海量CKI数据进行实验与验证,本文研究方法构建低代价、高效率的NOSHOW分类模型,产生直观、易懂的规则集,为各大航空公司实现准确的NOSHOW分类及收益提升管理提供有效的决策依据.
- 作者:
- 许代代
- 学位授予单位:
- 中国民航大学
- 专业名称:
- 计算机科学与技术
- 授予学位:
- 硕士
- 学位年度:
- 2018年
- 导师姓名:
- 曹卫东
- 中图分类号:
- V354;TP311.13
- 关键词:
- 民航旅客服务数据;NOSHOW;误判代价;C5.0算法;Apriori算法;规则发现
- Civil aviation passenger service data; NOSHOW; Misjudgment cost; C5.0algorithm; Apriori algorithm; Rule discovery