解锁 Polars 的强大功能,这是一个为速度、可扩展性和效率而设计的下一代 DataFrame 库。无论您是数据科学家、分析师还是工程师,本课程将教您如何利用 Polars 更快地处理和分析大数据集,超越传统工具如 Pandas。通过实践项目和真实世界的数据集,您将深入了解 Polars 的能力,从基本操作到高级数据转换。课程结束时,您将能够用 Polars 替代 Pandas,以实现高性能的数据工作流。

在本课程中,您将从零开始精通 Polars,学习如何高效地操作、分析和转换大数据集。无论您处理的是数百万行数据还是复杂查询,Polars 的多线程和惰性执行将为您的工作流提供强大支持。

MP4 | 视频:h264、1920×1080 | 音频:AAC,44.1 KHz
语言:英语 | 大小:2.04 GB | 时长:5 小时 42 分钟

您将学习到的内容

  • 处理超出内存的数据
  • Pandas 与 Polars 在处理超过十亿数据时的对比
  • 利用 Polars 的并行和优化分析
  • 使用 Polars 表达式进行易读易写的分析
  • 学习在处理大规模数据集时优化内存使用和处理速度的策略
  • 使用快速连接操作合并来自不同数据集的数据
  • 从多种来源加载数据,包括基于网页的文件、CSV、JSON 和 Parquet 文件

课程要求

本课程不需要任何先前经验!该课程专为初学者设计,基本的 Python 知识会有所帮助,我将逐步指导您。您只需要一台可以连接互联网的计算机和学习的意愿。

您将学习的内容

  • Polars 与 Pandas 的比较:为什么 Polars 更快,以及它的底层工作原理
  • Polars DataFrames 和 LazyFrames:理解高效的数据结构
  • 过滤、排序和聚合:以惊人的速度执行操作
  • 分组和连接:无缝处理复杂的数据转换
  • 时间序列和字符串操作:处理日期、时间戳和文本数据
  • 输入/输出操作:读取和写入 CSV、Parquet、JSON 等格式
  • Polars 表达式和类 SQL 查询:解锁强大的数据处理技术
  • 并行处理和惰性评估:优化大数据集的性能

适合人群

  • 处理大数据集的 Python 用户
  • 寻找比 Pandas 更快替代方案的数据分析师和科学家
  • 从事大数据或 ETL 管道的工程师
  • 希望用高性能库为自己的数据技能未来做准备的任何人

为什么学习 Polars?

  • 超快的性能:在许多情况下,速度比 Pandas 快 10-100 倍
  • 为现代 CPU 设计:使用多线程和基于 Rust 的优化
  • 内存高效:即使在有限的 RAM 下也能良好工作
  • 理想的大数据和 ETL 解决方案:非常适合处理大规模数据集

到课程结束时,您将自信地使用 Polars 进行真实世界的数据分析,优化您的工作流,像专业人士一样处理海量数据集。


通过学习 Polars,您将能够在数据分析的旅程中迈出重要的一步。无论您是希望提升职业技能,还是希望在数据科学领域找到更高效的工具,Polars 都将为您提供强大的支持。立即加入我们,开始您的学习之旅吧!

课程目录:

概述
第 1 部分:简介

第 1 讲课程概述

第 2 讲 极坐标的介绍

讲座 3 熊猫与北极熊

第 4 讲课程材料

第 2 部分:Polars 快速入门

讲座 5 Mac:Python 和 Polars 库的安装

第 6 讲 Apache Arrow 和 Polars:概述

第 3 节:数据帧

讲座 7 使用多种方法创建数据框

第 8 讲系列和数据框对象

第 9 讲 从 Pandas 或 Numpy 转换

第 4 节:玩转文件

讲座 10 使用极坐标读取文件

讲座 11 使用 Polars 读取 JSON 文件

讲座 12 使用极坐标写入文件

第 5 部分:选择列

第 13 讲 选择列

讲座 14 选择 2 列

第 15 讲 选择多列

第 6 节:列转换

第 16 讲 添加列:使用常数值

第 17 讲 添加列:一次添加多列

第 18 讲 变换数据框

第 19 讲 迭代数据框

第 7 节:聚合函数和 Distinct

第 20 讲 聚合函数

第 21 讲 不同查询

第 8 节:过滤器或 Where 子句

第 22 讲 Python 之道:方括号

第 23 讲 整数列

讲座 24 弦列

第 25 讲 日期列

讲座 26 布尔列

第 9 节:分组、大小写和排序

第 27 讲 Group By 示例

讲座 28 Group By 与 Having

第 29 讲 按对象分组迭代

讲义 30 案例条件

讲座 31 分位数和直方图

讲义 32 排序

第 10 节:处理缺失值

讲座 33 查找缺失值

讲座 34 替换缺失值

第 11 节:连接与联接

讲座 35 垂直和水平连接数据帧

讲座 36 连接示例

第 12 节:数据库

讲座 37 Polars 与 Sqlite 和 Postgres

第 13 节:10 亿条以上记录测试

讲座 38 纽约出租车数据概览

讲座 39 十亿条记录测试:选择

讲座 400 亿条记录测试:聚合函数

讲座 41 十亿条记录测试:不同查询

讲座 42 十亿条记录测试:案例、时间及其他

讲座 43 十亿条记录测试:过滤器

讲座 44 十亿条记录测试:分组依据

讲座 450 亿条记录测试:处理缺失数据

讲座 46 十亿记录测试:极坐标切片

第 14 节:熊猫与北极熊:超过 10 亿条记录

讲座 47 熊猫与北极熊:选择

讲座 48 Pandas 与 Polars:聚合函数

讲座 49 熊猫与北极熊:不同之处

讲座 50 熊猫与极地:滤镜

讲座 51 熊猫与极地:分组依据

下载说明:用户需登录后获取相关资源
1、登录后,打赏30元成为VIP会员,全站资源免费获取!
2、资源默认为百度网盘链接,请用浏览器打开输入提取码不要有多余空格,如无法获取 请联系微信 yunqiaonet 补发。
3、分卷压缩包资源 需全部下载后解压第一个压缩包即可,下载过程不要强制中断 建议用winrar解压或360解压缩软件解压!
4、云桥网络平台所发布资源仅供用户自学自用,用户需以学习为目的,按需下载,严禁批量采集搬运共享资源等行为,望知悉!!!
5、云桥网络-CG数字艺术学习与资源分享平台,感谢您的赞赏与支持!平台所收取打赏费用仅作为平台服务器租赁及人员维护资金 费用不为素材本身费用,望理解知悉!