相关文章推荐
聪明伶俐的勺子  ·  hyukoh - 24: How to ...·  8 月前    · 
失眠的沙滩裤  ·  资料:电视剧《汉武大帝》分集介绍(36-40 ...·  1 年前    · 
玩篮球的煎鸡蛋  ·  2022年最火的十大抖音歌曲抖音最火歌曲排行 ...·  1 年前    · 
拉风的凳子  ·  这是一部有关文学、青春、以及难以启齿的青春剧 ...·  1 年前    · 
很酷的乌冬面  ·  镇江高校志愿服务文化节启动仪式暨镇江高校志愿 ...·  1 年前    · 
小百科  ›  python-for-data-尽早抽样和频率转换-腾讯云开发者社区-腾讯云
dataframe
淡定的熊猫
1 年前
皮大大
0 篇文章

python-for-data-重新采样和频率转换

前往专栏
腾讯云
开发者社区
文档 意见反馈 控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
发布
首页
学习
活动
专区
工具
TVP 最新优惠活动
返回腾讯云官网
皮大大
首页
学习
活动
专区
工具
TVP 最新优惠活动
返回腾讯云官网
社区首页 > 专栏 > 机器学习/数据可视化 > python-for-data-重新采样和频率转换

python-for-data-重新采样和频率转换

作者头像
皮大大
发布 于 2021-03-01 14:44:32
854 0
发布 于 2021-03-01 14:44:32
举报

Python-for-data-重新采样和频率转换

什么是重新采样

重新采样指的是将时间序列从一个频率转换到另一个频率的过程。

  • 向下采样:高频率—>低频率
  • 向上采样:低频率—>高频率

但是也并不是所有的采样方式都是属于上面的两种

pandas中使用resample方法来实现频率转换

import pandas as pd
import numpy as np
rng = pd.date_range("2020-05-10",periods=100,freq="D")
ts = pd.Series(np.random.randn(len(rng)),index=rng)
ts
2020-05-10    0.239122
2020-05-11    0.847263
2020-05-12    0.394896
2020-05-13    1.556826
2020-05-14   -0.612460
2020-08-13    0.246714
2020-08-14    1.890153
2020-08-15   -2.090757
2020-08-16   -1.076017
2020-08-17    1.139343
Freq: D, Length: 100, dtype: float64
ts.resample("M").mean()  # 相当于是先根据M月份进行分组,再求平均值
2020-05-31    0.147573
2020-06-30   -0.194357
2020-07-31   -0.027795
2020-08-31   -0.030770
Freq: M, dtype: float64
ts.resample("M",kind="period").mean()
2020-05    0.147573
2020-06   -0.194357
2020-07   -0.027795
2020-08   -0.030770
Freq: M, dtype: float64

向下采样

将数据聚合到一个规则的低频上,例如将时间转换为每个月,“M"或者"BM”,将数据分成一个月的时间间隔。

每个间隔是半闭合的,一个数据只能属于一个时间间隔。时间间隔的并集必须是整个时间帧

一分钟的数据栗子
rng = pd.date_range("2020-01-01", periods=12,freq="T")  # T 表示的是分钟
ts = pd.Series(np.arange(12),index=rng)
ts
2020-01-01 00:00:00     0
2020-01-01 00:01:00     1
2020-01-01 00:02:00     2
2020-01-01 00:03:00     3
2020-01-01 00:04:00     4
2020-01-01 00:05:00     5
2020-01-01 00:06:00     6
2020-01-01 00:07:00     7
2020-01-01 00:08:00     8
2020-01-01 00:09:00     9
2020-01-01 00:10:00    10
2020-01-01 00:11:00    11
Freq: T, dtype: int64
箱体边界问题

默认情况下,左箱体边界是包含的。00:00的值是00:00到00:05间隔内的值

# 通过计算每一组的加和将这些数据聚合到五分钟的块或者柱内
ts.resample("5min",closed="right").sum()
2019-12-31 23:55:00     0
2020-01-01 00:00:00    15
2020-01-01 00:05:00    40
2020-01-01 00:10:00    11
Freq: 5T, dtype: int64

产生的时间序列按照每个箱体左边的时间戳被标记。

传递label="right"可以使用右箱体边界标记时间序列

ts.resample("5min",closed="right",label="right").sum()
2020-01-01 00:00:00     0
2020-01-01 00:05:00    15
2020-01-01 00:10:00    40
2020-01-01 00:15:00    11
Freq: 5T, dtype: int64
索引移动

向loffset参数传递字符串或者日期偏置

ts.resample("5min",closed="right",
           label="right",loffset="-2s").sum()
2019-12-31 23:59:58     0
2020-01-01 00:04:58    15
2020-01-01 00:09:58    40
2020-01-01 00:14:58    11
Freq: 5T, dtype: int64
ts.resample("5min",closed="right",label="right").sum().index
DatetimeIndex(['2020-01-01 00:00:00', '2020-01-01 00:05:00',
               '2020-01-01 00:10:00', '2020-01-01 00:15:00'],
              dtype='datetime64[ns]', freq='5T')

开端-峰值-谷值-结束(OHLC)

在金融数据中,为每个数据桶计算4个值是常见的问题:

  • 开端:第一个值
  • 结束:最后一个值
  • 峰值:最大的一个值
  • 谷值:最小的一个值

通过ohlc聚合函数能够得到四种聚合值列的DF数据

ts.resample("5min").ohlc()

.dataframe tbody tr th:only-of-type { vertical-align: middle; } <pre><code>.dataframe tbody tr th { vertical-align: top; } .dataframe thead th { text-align: right; } </code></pre>

open

high

low

close

2020-01-01 00:00:00

0

4

0

4

2020-01-01 00:05:00

5

9

5

9

2020-01-01 00:10:00

10

11

10

11

向上采样和填充值问题

frame = pd.DataFrame(np.random.randn(2,4),
                   index=pd.date_range("5/1/2020",periods=2,freq="W-WED"),
                   columns=["Colorado","Texas","New York","Ohio"])
frame

.dataframe tbody tr th:only-of-type { vertical-align: middle; } <pre><code>.dataframe tbody tr th { vertical-align: top; } .dataframe thead th { text-align: right; } </code></pre>

Colorado

Texas

New York

Ohio

2020-05-06

0.639827

0.306684

0.458653

0.461327

2020-05-13

1.056361

0.815583

1.627846

0.326976

从每个礼拜转到每天:asfreq()

低频转到高频的时候会形成缺失值

# 采用asfreq方法在不聚合的情况下,转换到高频率
df_daily = frame.resample("D").asfreq()  #
 
推荐文章
聪明伶俐的勺子  ·  hyukoh - 24: How to Find True Love and Happiness &gt; TAIYOU
8 月前
失眠的沙滩裤  ·  资料:电视剧《汉武大帝》分集介绍(36-40)_影音娱乐_新浪网
1 年前
玩篮球的煎鸡蛋  ·  2022年最火的十大抖音歌曲抖音最火歌曲排行榜前十名
1 年前
拉风的凳子  ·  这是一部有关文学、青春、以及难以启齿的青春剧:《骚动时节的 ...
1 年前
很酷的乌冬面  ·  镇江高校志愿服务文化节启动仪式暨镇江高校志愿服务展示交流会在 ...
1 年前
Link管理   ·   51好读   ·   Sov5搜索   ·   小百科
小百科 - 百科知识指南