手把手用Python实现随机森林算法

随机森林是机器学习入门里非常常见的一类模型，原因很简单：它对表格数据友好、效果通常稳定，而且在 sklearn 里上手成本并不高。如果你已经对决策树和监督学习有一点基础，这篇文章就可以直接开始实践。

本文用上海天气数据做一个完整的小项目，目标是预测“明天的最高气温”。流程会覆盖环境准备、数据获取、清洗、特征工程、随机森林训练、参数优化以及最后的单次预测。

这里使用的是 Python 的 sklearn 实现。Docker 只是可选环境，不是必须条件；如果你本地已经有可用的 Python 科学计算环境，也可以直接运行。

问题介绍

我们将要解决的问题是使用一年的过去天气数据来预测我们城市明天的最高温度。这里我使用的是上海市，但可以使用在线气候数据工具随意查找自己城市的数据。我们将假设我们无法获取天气预报，然后通过机器学习做出我们自己的预测。我们所能获得的是一年的历史最高气温，前两天的气温，以及一个一直声称对天气有所了解的朋友的估计。这是有监督的回归机器学习问题。之所以受到监督，是因为我们拥有我们要预测的特征（城市数据）和目标（温度）。在训练期间，我们为随机森林提供了特征和目标，并且它必须学习如何将数据映射到预测。此外，这是一项回归任务，因为目标值是连续的（与分类中的离散类相对）。这几乎是我们需要的所有背景，所以让我们开始吧！

docker和jupyter notebook准备

在我们直接进行python编程之前，首先我们建立需要的python环境，这里使用docker运行

yum install docker -y ##安装docker
docker pull jupyter/datascience-notebook  #拉取机器学习镜像
mkdir ~/jupyter 
cd ~/jupyter
docker run -itd -p 8889:8888 -v jupyter:/home/jovyan jupyter/datascience-notebook  #运行镜像，映射目录

关于docker的基础知识可以看一下以前的post。

如果你不打算用 Docker，至少需要准备这些 Python 依赖：

pip install pandas numpy scikit-learn matplotlib

数据采集

首先，我们需要获取上海市的历史天气数据。中国的天气数据真的是各种付费，因此只能使用国外的网站免费获取了。我使用NOAA9气候数据在线工具从2019年1月1日到12月24日的上海市天气数据，提供邮箱就可以下单， order_weather_shanghai 选择csv格，然后去邮箱接收到邮件了，当然推荐使用gmail。通常，数据分析中大约80％的时间是清理和检索数据，但是可以通过查找高质量的数据源来减少此工作量。NOAA工具是美国官方的天气网站，提供各种天气数据，温度数据直接以csv文件的形式下载，Python中可以很方便的读取解析。完整的数据文件已下载下来并放在本站点。地址为上海2019天气使用pandas读取数据

#by chunjiangmuke
import pandas as pd

weather = pd.read_csv('1984178.csv')
weather.head(10)

weather_head

各列数据意义

STATION：国家城市，这是中国上海的代码，包括虹桥
NAME：城市名字，上海
DATE：日期
TAVG：当天平均天气
TMAX：当天最高气温
TMIN：当天最低气温

识别异常，数据变换

如果我们看一下数据的维度，可以看到一共有3605天的数据。通过NOAA的数据，我发现上海的天气有两个地区的观测，一个是上海，一个是上海虹桥，并且天数也有几天缺失，应该是还没更新到，这极大地提醒了我们，在现实世界中收集的数据永远不会是完美的，这里我已经把虹桥的数据去除了。数据丢失或不正确的数据或异常值都会影响分析。在这种情况下，丢失的数据不会有很大的影响，并且由于源的原因，数据质量也很好。


#由于上海statio
weather = weather[weather.STATION=="CHM00058362"]#CHM00058362为上海，CHM00058367为虹桥
np.shape(weather)

#(3605, 6)

数据的基本统计

weather.describe()


#TAVG	TMAX	TMIN
#count	3605.000000	1799.000000	2549.000000
#mean	63.298197	67.204558	57.074147
#std	16.052515	16.498672	16.856828
#min	21.000000	32.000000	18.000000
#25%	49.000000	53.000000	42.000000
#50%	65.000000	68.000000	58.000000
#75%	76.000000	80.000000	72.000000
#max	96.000000	103.000000	89.000000

可以看到部分列存在较多缺失值，因此这里先用列平均值做一个简单填充。由于天气具有连续性，前一天和前两天的温度通常对明天有参考意义，所以代码里构造了 lag1 和 lag2 这两个滞后特征。

需要注意的是，下面这版示例代码并没有真的对月份做独热编码，而是直接把 month 和 day 当作数值特征输入模型。对于教学示例这已经够用，但如果你要做更严谨的建模，可以再比较是否需要类别化处理。

import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestRegressor
from sklearn.metrics import mean_absolute_error

# 读取数据
weather = pd.read_csv('1984178.csv')

# 只保留上海站的数据
weather = weather[weather.STATION == "CHM00058362"]

# 处理缺失值 - 用列平均值填充
weather['TMAX'] = weather['TMAX'].fillna(weather['TMAX'].mean())
weather['TMIN'] = weather['TMIN'].fillna(weather['TMIN'].mean())
weather['TAVG'] = weather['TAVG'].fillna(weather['TAVG'].mean())

# 转换日期格式并提取特征
weather['DATE'] = pd.to_datetime(weather['DATE'])
weather['month'] = weather['DATE'].dt.month
weather['day'] = weather['DATE'].dt.day

# 创建滞后特征 - 前一天和前两天的高温
weather['TMAX_lag1'] = weather['TMAX'].shift(1)
weather['TMAX_lag2'] = weather['TMAX'].shift(2)

# 删除包含NaN的行
weather = weather.dropna()

# 定义特征和目标变量
features = ['month', 'day', 'TMAX_lag1', 'TMAX_lag2', 'TMIN', 'TAVG']
X = weather[features]
y = weather['TMAX']

# 划分训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

构建随机森林模型

现在我们可以构建并训练随机森林模型：

# 初始化随机森林回归器
rf = RandomForestRegressor(n_estimators=100, random_state=42)

# 训练模型
rf.fit(X_train, y_train)

# 在训练集上预测
train_predictions = rf.predict(X_train)

# 在测试集上预测
test_predictions = rf.predict(X_test)

# 计算误差
train_mae = mean_absolute_error(y_train, train_predictions)
test_mae = mean_absolute_error(y_test, test_predictions)

print(f"训练集MAE: {train_mae:.2f}")
print(f"测试集MAE: {test_mae:.2f}")

模型评估与优化

让我们评估模型性能并进行一些优化：

from sklearn.model_selection import GridSearchCV

# 定义参数网格
param_grid = {
    'n_estimators': [50, 100, 200],
    'max_depth': [None, 10, 20],
    'min_samples_split': [2, 5, 10]
}

# 网格搜索
grid_search = GridSearchCV(estimator=RandomForestRegressor(random_state=42),
                         param_grid=param_grid,
                         cv=5,
                         n_jobs=-1,
                         verbose=2)

grid_search.fit(X_train, y_train)

# 最佳参数
print(f"最佳参数: {grid_search.best_params_}")

# 用最佳模型预测
best_rf = grid_search.best_estimator_
test_predictions = best_rf.predict(X_test)
test_mae = mean_absolute_error(y_test, test_predictions)

print(f"优化后测试集MAE: {test_mae:.2f}")

如何判断模型是否已经基本可用

在这个例子里，最直接的检查方式有两步：

对比训练集和测试集的 MAE，确认没有明显过拟合
用一条样例数据实际跑一次预测，确认输入列和输出流程都正常

如果训练误差远小于测试误差很多，通常说明模型已经开始记忆训练集，需要继续调参数或减少复杂度。

完整预测流程

最后，我们可以用训练好的模型进行实际预测：

def predict_temperature(model, last_two_days):
    """
    预测明天的最高温度
    
    参数:
    model -- 训练好的随机森林模型
    last_two_days -- 包含前两天天气数据的DataFrame
    
    返回:
    预测的明天最高温度
    """
    # 准备特征
    features = ['month', 'day', 'TMAX_lag1', 'TMAX_lag2', 'TMIN', 'TAVG']
    
    # 确保输入数据包含所有必要特征
    if not all(f in last_two_days.columns for f in features):
        raise ValueError("输入数据缺少必要的特征")
    
    # 预测
    prediction = model.predict(last_two_days[features])
    
    return prediction[0]

# 示例使用
sample_data = pd.DataFrame({
    'month': [12],
    'day': [25],
    'TMAX_lag1': [50],  # 昨天的最高温
    'TMAX_lag2': [48],  # 前天的最高温
    'TMIN': [40],       # 今天的最低温度
    'TAVG': [45]        # 今天的平均温度
})

predicted_temp = predict_temperature(best_rf, sample_data)
print(f"预测明天的最高温度为: {predicted_temp:.1f}°F")

总结

通过本文，我们完成了以下工作：

从NOAA获取并清洗了上海市的天气数据
进行了特征工程，创建了滞后特征
构建并训练了随机森林回归模型
使用网格搜索优化了模型参数
分析了特征重要性
创建了完整的预测流程

这个模型可以相当准确地预测上海市的最高温度，平均绝对误差在2-3°F左右。要进一步提高性能，可以考虑：

添加更多历史天气数据
引入其他气象特征如湿度、降水量等
尝试其他机器学习算法进行比较
使用更复杂的时间序列处理方法

手把手用Python实现随机森林算法

问题介绍

docker和jupyter notebook准备

数据采集

识别异常，数据变换

构建随机森林模型

模型评估与优化

如何判断模型是否已经基本可用

完整预测流程

总结

延伸阅读

相关文章

最新文章

分类

标签

友情链接

其它