基于Python的攜程出行產品未來14個月銷量預測：數據處理流程與實踐

在旅游行業，準確預測出行產品的未來銷量對于庫存管理、營銷策略制定和收益優化至關重要。本文將以攜程出行產品（如機票、酒店、度假套餐等）為例，詳細介紹如何使用Python進行數據預處理、特征工程和初步分析，為后續構建銷量預測模型奠定堅實的數據基礎。預測未來14個月的銷量屬于中長期時間序列預測，對數據的完整性和質量要求極高。

一、數據獲取與理解

我們需要獲取歷史銷售數據。數據可能來源于公司數據庫、數據倉庫或提供的CSV/Excel文件。典型的數據字段包括：

產品標識：產品ID、名稱、類別（機票/酒店/跟團游等）。
時間維度：訂單日期、出行日期（對于預訂類產品尤為重要）。
銷售指標：銷量（訂單數）、銷售額、預訂量。
產品屬性：出發城市、目的地城市、價格、艙等/房型、是否促銷。
外部因素：節假日標記、天氣數據（可能需要后期整合）、宏觀經濟指標。

使用pandas庫進行初步加載和探索：
`python
import pandas as pd
import numpy as np

df = pd.readcsv('ctripsalesdata.csv', parsedates=['orderdate', 'traveldate'])
print(df.head())
print(df.info())
print(df.describe())
`

二、數據清洗與預處理

這是確保預測準確性的核心步驟。

1. 處理缺失值：檢查并處理銷量等關鍵字段的缺失。
`python
# 檢查缺失

print(df.isnull().sum())
# 根據情況填充或刪除。例如，對銷量缺失，若為近期數據可置0，或使用前后均值/插值法填充。

df['sales_volume'].fillna(method='ffill', inplace=True) # 前向填充，需謹慎
`

2. 處理異常值：銷量可能因系統錯誤、大型團購等出現極端值。
`python
# 使用IQR或標準差方法檢測

Q1 = df['salesvolume'].quantile(0.25)
Q3 = df['salesvolume'].quantile(0.75)
IQR = Q3 - Q1
lowerbound = Q1 - 1.5 * IQR
upperbound = Q3 + 1.5 * IQR
# 可以考慮用邊界值替換或視為缺失值處理

df['salesvolume'] = np.where(df['salesvolume'] > upperbound, upperbound, df['sales_volume'])
`

數據一致性檢查：確保日期格式正確，價格非負，出行日期晚于訂單日期等。

三、特征工程

為時間序列預測模型構建有效的特征是關鍵。

1. 時間特征提取：從訂單/出行日期中提取豐富的時序特征。
`python
df['year'] = df['orderdate'].dt.year
df['month'] = df['orderdate'].dt.month
df['dayofmonth'] = df['orderdate'].dt.day
df['dayofweek'] = df['orderdate'].dt.dayofweek # 周一=0
df['weekofyear'] = df['orderdate'].dt.isocalendar().week
df['isweekend'] = df['dayofweek'].apply(lambda x: 1 if x >= 5 else 0)
`

2. 滯后特征：歷史銷量對未來預測有直接影響。由于預測未來14個月，我們需要創建過去多個時間窗口的滯后特征。
`python
# 假設數據已按產品和日期排序

for lag in [1, 3, 6, 12]: # 滯后1個月、3個月、半年、一年
df[f'saleslag{lag}m'] = df.groupby('productid')['salesvolume'].shift(lag * 30) # 簡化為30天一個月
`

3. 滾動統計特征：捕捉趨勢和季節性。
`python
df['rollingmean3m'] = df.groupby('productid')['salesvolume'].transform(lambda x: x.rolling(window=90, minperiods=1).mean())
df['rollingstd3m'] = df.groupby('productid')['salesvolume'].transform(lambda x: x.rolling(window=90, minperiods=1).std())
`

節假日與事件特征：整合中國的法定節假日、寒暑假、旅游旺季（如國慶、春節）作為二元特征或影響權重。

5. 產品類別編碼：對出發地、目的地、產品類型等進行標簽編碼或獨熱編碼。
`python
from sklearn.preprocessing import LabelEncoder
le = LabelEncoder()
df['departurecityencoded'] = le.fittransform(df['departurecity'])
# 或者使用pd.get_dummies進行獨熱編碼

df = pd.getdummies(df, columns=['producttype'], prefix='type')

四、數據重構與聚合

預測目標通常是未來14個月每個月的總銷量。因此，我們需要將原始數據（可能是日度或周度）聚合到月度級別。

`python # 假設以‘order_date’的月份為時間點進行聚合，并計算月度銷量

monthlydf = df.setindex('orderdate').groupby(['productid', pd.Grouper(freq='M')])['salesvolume'].sum().resetindex()
# 確保時間序列連續，填充可能缺失的月份（銷量為0）

創建完整的日期范圍

alldates = pd.daterange(start=monthlydf['orderdate'].min(), end=monthlydf['orderdate'].max(), freq='M')
allproducts = monthlydf['product_id'].unique()
# 使用交叉連接創建完整面板數據

fullindex = pd.MultiIndex.fromproduct([allproducts, alldates], names=['productid', 'orderdate'])
monthlydffull = monthlydf.setindex(['productid', 'orderdate']).reindex(fullindex, fillvalue=0).reset_index()
`

五、為預測準備數據集

將處理好的數據劃分為訓練集和測試集。由于是時間序列，不能隨機劃分，必須按時間順序劃分。

`python # 假設我們最后14個月作為驗證未來預測的參考，倒數第15個月之前的數據用于訓練

cutoffdate = monthlydffull['orderdate'].max() - pd.DateOffset(months=14)
traindata = monthlydffull[monthlydffull['orderdate'] < cutoff_date]
# 注意：實際預測時，我們使用全部歷史數據訓練，然后預測未來14個月。

這里的劃分是為了驗證模型在“已知未來”一段時期上的表現。

六、數據標準化/歸一化

對于涉及距離的模型（如神經網絡、SVM），需要對數值特征進行縮放。對于樹模型（如LightGBM, XGBoost）通常不需要。

`python from sklearn.preprocessing import StandardScaler scaler = StandardScaler() numericalfeatures = ['price', 'rollingmean3m', 'saleslag_12m'] # 示例特征列 scaler.fit(traindata[numericalfeatures]) traindata[numericalfeatures] = scaler.transform(traindata[numericalfeatures]) # 對測試數據使用相同的scaler進行轉換 `

###

通過以上步驟，我們完成了攜程出行產品銷量預測項目的數據處理階段。我們清洗了原始數據，構建了包含時序滯后、滾動統計、節假日等多維特征的數據集，并將其規范化為適合機器學習模型輸入的格式。處理后的數據將作為輸入，用于訓練如Prophet、ARIMA、LightGBM或LSTM等時間序列預測模型，以生成未來14個月的銷量預測。值得注意的是，在實際項目中，數據處理是一個迭代過程，需要根據模型反饋不斷調整特征工程策略，并與業務理解緊密結合，才能獲得具有指導意義的預測結果。