Pandas是 Python 中广泛使用的数据操作库，它提供了处理各种类型数据的广泛功能。它的显着特性之一是能够使用MultiIndexes，也称为分层索引。在这篇博文中，我们将深入研究多索引的概念，并探索如何利用它们来处理复杂的多维数据集。

了解 MultiIndexes：分析运动表现数据

MultiIndex 是一种 pandas 数据结构，允许跨多个维度或级别索引和访问数据。它支持为行和列创建层次结构，提供一种灵活的方式来组织和分析数据。为了说明这一点，让我们考虑一个场景，您是一名私人教练或教练，您在运动员的体育活动中监测他们的健康参数。您想要在特定时间间隔内跟踪各种参数，例如心率、跑步配速和节奏。

综合健康表现数据

要处理此类数据，让我们首先编写模拟健康表现数据的 Python 代码，特别是心率和跑步节奏：

from __future__ import annotations
from datetime import datetime, timedelta
import numpy as np
import pandas as pd

start = datetime(2023, 6, 8, 14)
end = start + timedelta(hours=1, minutes=40)
timestamps = pd.date_range(start, end, freq=timedelta(minutes=1), inclusive='left')

def get_heart_rate(begin_hr: int, end_hr: int, break_point: int) -> pd.Series[float]:
    noise = np.random.normal(loc=0.0, scale=3, size=100)
    heart_rate = np.concatenate((np.linspace(begin_hr, end_hr, num=break_point), [end_hr] * (100 - break_point))) + noise
    return pd.Series(data=heart_rate, index=timestamps)

def get_cadence(mean_cadence: int) -> pd.Series[float]:
    noise = np.random.normal(loc=0.0, scale=1, size=100)
    cadence = pd.Series(data=[mean_cadence] * 100 + noise, index=timestamps)
    cadence[::3] = np.NAN
    cadence[1::3] = np.NAN
    return cadence.ffill().fillna(mean_cadence)

提供的代码片段展示了体育活动期间心率和节奏的合成数据的生成。它首先导入必要的模块，例如 datetime、numpy 和 pandas。

体育活动的持续时间定义为 100 分钟，该 pd.date_range 函数用于以一分钟为间隔生成一系列时间戳以覆盖该时间段。

该 get_heart_rate 函数生成合成心率数据，假设心率线性增加到一定水平，然后在活动的剩余时间保持恒定水平。引入高斯噪声以增加心率数据的可变性，使其更加真实。

类似地，该 get_cadence 函数会生成合成节奏数据，假设在整个活动中节奏相对恒定。添加高斯噪声以创建步频值的可变性，噪声值每三分钟而不是每分钟更新一次，反映步频相对于心率的稳定性。

有了数据生成功能，现在可以为两个运动员 Bob 和 Alice 创建综合数据：

bob_hr = get_heart_rate(begin_hr=110, end_hr=160, break_point=20)
alice_hr = get_heart_rate(begin_hr=90, end_hr=140, break_point=50)
bob_cadence = get_cadence(mean_cadence=175)
alice_cadence = get_cadence(mean_cadence=165)

此时，我们有 Bob 和 Alice 的心率和节奏。让我们使用 matplotlib 绘制它们以更深入地了解数据：

from __future__ import annotations
import matplotlib.dates as mdates
import matplotlib.pyplot as plt

date_formatter = mdates.DateFormatter('%H:%M:%S')  # Customize the date format as needed

fig = plt.figure(figsize=(12, 6))
ax = fig.add_subplot(111)
ax.xaxis.set_major_formatter(date_formatter)
ax.plot(bob_hr, color="red", label="Heart Rate Bob", marker=".")
ax.plot(alice_hr, color="red", label="Heart Rate Alice", marker="v")
ax.grid()
ax.legend()
ax.set_ylabel("Heart Rate [BPM]")
ax.set_xlabel("Time")

ax_cadence = ax.twinx()
ax_cadence.plot(bob_cadence, color="purple", label="Cadence Bob", marker=".", alpha=0.5)
ax_cadence.plot(alice_cadence, color="purple", label="Cadence Alice", marker="v", alpha=0.5)
ax_cadence.legend()
ax_cadence.set_ylabel("Cadence [SPM]")
ax_cadence.set_ylim(158, 180)

pandas数字索引和标签索引,pandas分层索引如何聚合操作

伟大的！对数据的初步分析提供了有趣的观察结果。我们可以很容易地区分 Bob 和 Alice 在最大心率和增加速率方面的差异。此外，Bob 的节奏似乎明显高于 Alice 的。

使用 Dataframes 实现可扩展性

bob_hr 但是，正如您可能已经注意到的那样，当前为每个健康参数和运动员使用单独变量（、 alice_hr 、 bob_cadence 和）的方法 alice_cadence 不可扩展。在具有大量运动员和健康参数的现实场景中，这种方法很快变得不切实际且麻烦。

为了解决这个问题，我们可以通过使用 pandas DataFrame 来表示多个运动员和健康参数的数据，从而利用 pandas 的强大功能。通过以表格格式组织数据，我们可以轻松地同时管理和分析多个变量。

DataFrame 的每一行都可以对应一个特定的时间戳，每一列都可以代表特定运动员的健康参数。这种结构允许高效存储和操作多维数据。

通过使用 DataFrame，我们可以消除对单独变量的需要，并将所有数据存储在一个对象中。这增强了代码清晰度，简化了数据处理，并提供了整个数据集的更直观表示。

bob_df = pd.concat([bob_hr.rename("heart_rate"), bob_cadence.rename("cadence")], axis="columns")

这是 Bob 健康数据的 Dataframe 的样子：

心率

节奏

2026-03-16T19:57:44+00:00

112.359

175

2026-03-16T19:57:44+00:00

107.204

175

2026-03-16T19:57:44+00:00

116.617

175.513

2026-03-16T19:57:44+00:00

121.151

175.513

2026-03-16T19:57:44+00:00

123.27

175.513

2026-03-16T19:57:44+00:00

120.901

174.995

2026-03-16T19:57:44+00:00

130.24

174.995

2026-03-16T19:57:44+00:00

131.15

174.995

2026-03-16T19:57:44+00:00

131.402

174.669

引入分层数据框

最后一个数据框看起来已经更好了！但是现在我们仍然需要为每个运动员创建一个新的数据框。这是 pandas MultiIndex 可以提供帮助的地方。让我们来看看我们如何优雅地将多个运动员和健康参数的数据合并到一个数据框中：

from itertools import product
bob_df = bob_hr.to_frame("value")
bob_df["athlete"] = "Bob"
bob_df["parameter"] = "heart_rate"

values = {
    "Bob": {
        "heart_rate": bob_hr,
        "cadence": bob_cadence,
    },
    "Alice": {
        "heart_rate": alice_hr,
        "cadence": alice_cadence
    }
}

sub_dataframes: list[pd.DataFrame] = []
for athlete, parameter in product(["Bob", "Alice"], ["heart_rate", "cadence"]):
    sub_df = values[athlete][parameter].to_frame("values")
    sub_df["athlete"] = athlete
    sub_df["parameter"] = parameter
    sub_dataframes.append(sub_df)

df = pd.concat(sub_dataframes).set_index(["athlete", "parameter"], append=True)
df.index = df.index.set_names(["timestamps", "athlete", "parameter"])

此代码处理运动员 Bob 和 Alice 的心率和踏频数据。它执行以下步骤：

为 Bob 的心率数据创建一个 DataFrame，并为运动员和参数添加元数据列。
定义一个字典，用于存储 Bob 和 Alice 的心率和节奏数据。
生成运动员和参数的组合（Bob/Alice 和 heart_rate/cadence）。
对于每个组合，创建一个具有相应数据和元数据列的子数据框。
将所有子数据帧连接成一个数据帧。
设置索引以包括时间戳、运动员和参数的级别。这是创建实际 MultiIndex 的地方

这是分层数据框df的样子：

价值观