編者按:卷煙市場的價格波動一直是行業關注的焦點。為了更好地理解市場狀態并做出合適的決策,本文將通過上下兩期文章去介紹如何通過隨機森林算法進行卷煙市場價格預測及策略研究。
在“十三五”時期,我國經濟發展進入新常態,宏觀經濟轉型和產業結構調整加速,卷煙消費需求及環境發生顯著變化。“十四五”以來,行業全面應用互聯網+、云平臺、大數據、AI等技術,積極探索新一代信息技術在煙草“農工商政”領域的融合應用。根據市場價格指數、社會庫存等信息,去把握市場供需關系的微妙平衡,合理調配卷煙供應、銷售結構、投放策略,以確保高水平、高質量的市場穩定。
作為卷煙市場狀態的重要評判依據的市場價格,在任何市場狀態的評價中都屬于最核心的數據指標,為此工商公司通過多種途徑,以獲得市場價格的數據來源,從而保障在貨源投放數字化的基礎。
評價體系往往是通過已知的價格數值構建價格指數,另加其他終端指標對市場進行綜合評價。評價的方法基本都是通過多項指標之間的權重進行加權打分,如層次分析法、熵權法、變異系數法等,再通過閾值判斷其定性狀態。
這樣的判定方法有兩個缺陷,一是指標較多,太多弱影響的指標分去了評價的權重,導致評價的結果無法反映真實的結果,二是數據以靜態為主,缺乏預知性,對于調控而言存在一定的滯后性。
雖然預測是一個適應性、準確性難以把握的工作,但是它又有很高的必要性,尤其是當前我們處于數字時代,面臨數字化轉型,由數字化向智慧化轉化,一定是通過機器學習的不斷迭代、更優質的數據采集以及市場的細分等,達到預測更精確、應用更廣泛、場景轉化和適應更靈活的目的。
針對以上兩個問題,首先要優選指標,指標的數量控制在合理范圍之內,既能保障評價的全面性,又能突出重點指標的貢獻作用。二是通過已知有限的指標集合,通過機器學習的方式對卷煙市場價格進行預測,形成動態的價格參數,用來彌補價格靜態的不足,對市場評價體系的綜合應用具有重要的應用價值。
考慮到煙草工業企業獲取數據的維度有限,選定進貨戶數、上柜率、重購率、動銷率、商業庫存、訂足面、斷貨率、訂單滿足率、競品銷量9個指標作為研究指標(見表1),以某卷煙品牌規格在2019年10月-2023年6月的月度數據作為樣本。
表1指標解釋
隨機森林算法可以用于分類和回歸,其中隨機森林分類是基于原始樣本集通過Bootstrap抽樣法抽取樣本子集構建多棵決策樹,最終通過眾數投票的方式來決定最優分類決策結果。核心思想是對訓練集進行自助采樣,組成多個訓練集,每個訓練集生成一棵決策樹,所有決策樹組成隨機森林,從而對樣本進行訓練并預測的機器學習算法。
1、某卷煙品牌的價格波動情況
某卷煙品牌自2019年上市以來,2023年上半年銷量為1370箱,市場份額達到13.82%。但是市場價格從上市之初的270元/條,呈規律性的滑落(每年的5月以后價格小幅回升,到下半年7月左右又開始下滑,且屢創新低)。如圖2所示:
圖2某卷煙品牌自上市以來的價格波動情況
2、價格波動的影響因素重要性排序
通過對隨機森林模型的參數設置,其中內部節點分裂的最小樣本數為2,葉子節點的最小樣本數為2,樹的最大深度為10,葉子節點的最大數量為50,決策樹數量為100,得到運行結果,其特征重要性如圖3:可以發現訂足面重要性最高,其次是競品銷量和庫存。
圖3隨機森林模型下的特征重要性排序
結語
我們可以看到,隨機森林模型在卷煙市場價格預測中表現出了良好的效果,通過隨機森林模型,可以分析出影響品牌價格波動的因素,及其重要性排序,為行業提供了重要的決策參考。
隨著技術的進一步發展,我們可以期待更多智能化的解決方案,從而促進煙草行業的持續健康發展。
篤行致遠 2024中國煙草行業發展觀察