在旅游行業,準確預測出行產品的未來銷量對于庫存管理、營銷策略制定和收益優化至關重要。本文將以攜程出行產品(如機票、酒店、度假套餐等)為例,詳細介紹如何使用Python進行數據預處理、特征工程和初步分析,為后續構建銷量預測模型奠定堅實的數據基礎。預測未來14個月的銷量屬于中長期時間序列預測,對數據的完整性和質量要求極高。
我們需要獲取歷史銷售數據。數據可能來源于公司數據庫、數據倉庫或提供的CSV/Excel文件。典型的數據字段包括:
使用pandas庫進行初步加載和探索:`python
import pandas as pd
import numpy as np
df = pd.readcsv('ctripsalesdata.csv', parsedates=['orderdate', 'traveldate'])
print(df.head())
print(df.info())
print(df.describe())`
這是確保預測準確性的核心步驟。
1. 處理缺失值:檢查并處理銷量等關鍵字段的缺失。
`python
# 檢查缺失
print(df.isnull().sum())
# 根據情況填充或刪除。例如,對銷量缺失,若為近期數據可置0,或使用前后均值/插值法填充。
df['sales_volume'].fillna(method='ffill', inplace=True) # 前向填充,需謹慎
`
2. 處理異常值:銷量可能因系統錯誤、大型團購等出現極端值。
`python
# 使用IQR或標準差方法檢測
Q1 = df['salesvolume'].quantile(0.25)
Q3 = df['salesvolume'].quantile(0.75)
IQR = Q3 - Q1
lowerbound = Q1 - 1.5 * IQR
upperbound = Q3 + 1.5 * IQR
# 可以考慮用邊界值替換或視為缺失值處理
df['salesvolume'] = np.where(df['salesvolume'] > upperbound, upperbound, df['sales_volume'])
`
為時間序列預測模型構建有效的特征是關鍵。
1. 時間特征提取:從訂單/出行日期中提取豐富的時序特征。
`python
df['year'] = df['orderdate'].dt.year
df['month'] = df['orderdate'].dt.month
df['dayofmonth'] = df['orderdate'].dt.day
df['dayofweek'] = df['orderdate'].dt.dayofweek # 周一=0
df['weekofyear'] = df['orderdate'].dt.isocalendar().week
df['isweekend'] = df['dayofweek'].apply(lambda x: 1 if x >= 5 else 0)
`
2. 滯后特征:歷史銷量對未來預測有直接影響。由于預測未來14個月,我們需要創建過去多個時間窗口的滯后特征。
`python
# 假設數據已按產品和日期排序
for lag in [1, 3, 6, 12]: # 滯后1個月、3個月、半年、一年
df[f'saleslag{lag}m'] = df.groupby('productid')['salesvolume'].shift(lag * 30) # 簡化為30天一個月
`
3. 滾動統計特征:捕捉趨勢和季節性。
`python
df['rollingmean3m'] = df.groupby('productid')['salesvolume'].transform(lambda x: x.rolling(window=90, minperiods=1).mean())
df['rollingstd3m'] = df.groupby('productid')['salesvolume'].transform(lambda x: x.rolling(window=90, minperiods=1).std())
`
5. 產品類別編碼:對出發地、目的地、產品類型等進行標簽編碼或獨熱編碼。
`python
from sklearn.preprocessing import LabelEncoder
le = LabelEncoder()
df['departurecityencoded'] = le.fittransform(df['departurecity'])
# 或者使用pd.get_dummies進行獨熱編碼
`
預測目標通常是未來14個月每個月的總銷量。因此,我們需要將原始數據(可能是日度或周度)聚合到月度級別。
`python
# 假設以‘order_date’的月份為時間點進行聚合,并計算月度銷量
monthlydf = df.setindex('orderdate').groupby(['productid', pd.Grouper(freq='M')])['salesvolume'].sum().resetindex()
# 確保時間序列連續,填充可能缺失的月份(銷量為0)
alldates = pd.daterange(start=monthlydf['orderdate'].min(), end=monthlydf['orderdate'].max(), freq='M')
allproducts = monthlydf['product_id'].unique()
# 使用交叉連接創建完整面板數據
fullindex = pd.MultiIndex.fromproduct([allproducts, alldates], names=['productid', 'orderdate'])
monthlydffull = monthlydf.setindex(['productid', 'orderdate']).reindex(fullindex, fillvalue=0).reset_index()`
將處理好的數據劃分為訓練集和測試集。由于是時間序列,不能隨機劃分,必須按時間順序劃分。
`python
# 假設我們最后14個月作為驗證未來預測的參考,倒數第15個月之前的數據用于訓練
cutoffdate = monthlydffull['orderdate'].max() - pd.DateOffset(months=14)
traindata = monthlydffull[monthlydffull['orderdate'] < cutoff_date]
# 注意:實際預測時,我們使用全部歷史數據訓練,然后預測未來14個月。
`
對于涉及距離的模型(如神經網絡、SVM),需要對數值特征進行縮放。對于樹模型(如LightGBM, XGBoost)通常不需要。
`python
from sklearn.preprocessing import StandardScaler
scaler = StandardScaler()
numericalfeatures = ['price', 'rollingmean3m', 'saleslag_12m'] # 示例特征列
scaler.fit(traindata[numericalfeatures])
traindata[numericalfeatures] = scaler.transform(traindata[numericalfeatures])
# 對測試數據使用相同的scaler進行轉換
`
###
通過以上步驟,我們完成了攜程出行產品銷量預測項目的數據處理階段。我們清洗了原始數據,構建了包含時序滯后、滾動統計、節假日等多維特征的數據集,并將其規范化為適合機器學習模型輸入的格式。處理后的數據將作為輸入,用于訓練如Prophet、ARIMA、LightGBM或LSTM等時間序列預測模型,以生成未來14個月的銷量預測。值得注意的是,在實際項目中,數據處理是一個迭代過程,需要根據模型反饋不斷調整特征工程策略,并與業務理解緊密結合,才能獲得具有指導意義的預測結果。
如若轉載,請注明出處:http://www.otklc.cn/product/86.html
更新時間:2026-02-19 12:21:42