解锁 Polars 的强大功能,这是一个为速度、可扩展性和效率而设计的下一代 DataFrame 库。无论您是数据科学家、分析师还是工程师,本课程将教您如何利用 Polars 更快地处理和分析大数据集,超越传统工具如 Pandas。通过实践项目和真实世界的数据集,您将深入了解 Polars 的能力,从基本操作到高级数据转换。课程结束时,您将能够用 Polars 替代 Pandas,以实现高性能的数据工作流。
在本课程中,您将从零开始精通 Polars,学习如何高效地操作、分析和转换大数据集。无论您处理的是数百万行数据还是复杂查询,Polars 的多线程和惰性执行将为您的工作流提供强大支持。
MP4 | 视频:h264、1920×1080 | 音频:AAC,44.1 KHz
语言:英语 | 大小:2.04 GB | 时长:5 小时 42 分钟
您将学习到的内容
- 处理超出内存的数据
- Pandas 与 Polars 在处理超过十亿数据时的对比
- 利用 Polars 的并行和优化分析
- 使用 Polars 表达式进行易读易写的分析
- 学习在处理大规模数据集时优化内存使用和处理速度的策略
- 使用快速连接操作合并来自不同数据集的数据
- 从多种来源加载数据,包括基于网页的文件、CSV、JSON 和 Parquet 文件
课程要求
本课程不需要任何先前经验!该课程专为初学者设计,基本的 Python 知识会有所帮助,我将逐步指导您。您只需要一台可以连接互联网的计算机和学习的意愿。
您将学习的内容
- Polars 与 Pandas 的比较:为什么 Polars 更快,以及它的底层工作原理
- Polars DataFrames 和 LazyFrames:理解高效的数据结构
- 过滤、排序和聚合:以惊人的速度执行操作
- 分组和连接:无缝处理复杂的数据转换
- 时间序列和字符串操作:处理日期、时间戳和文本数据
- 输入/输出操作:读取和写入 CSV、Parquet、JSON 等格式
- Polars 表达式和类 SQL 查询:解锁强大的数据处理技术
- 并行处理和惰性评估:优化大数据集的性能
适合人群
- 处理大数据集的 Python 用户
- 寻找比 Pandas 更快替代方案的数据分析师和科学家
- 从事大数据或 ETL 管道的工程师
- 希望用高性能库为自己的数据技能未来做准备的任何人
为什么学习 Polars?
- 超快的性能:在许多情况下,速度比 Pandas 快 10-100 倍
- 为现代 CPU 设计:使用多线程和基于 Rust 的优化
- 内存高效:即使在有限的 RAM 下也能良好工作
- 理想的大数据和 ETL 解决方案:非常适合处理大规模数据集
到课程结束时,您将自信地使用 Polars 进行真实世界的数据分析,优化您的工作流,像专业人士一样处理海量数据集。
通过学习 Polars,您将能够在数据分析的旅程中迈出重要的一步。无论您是希望提升职业技能,还是希望在数据科学领域找到更高效的工具,Polars 都将为您提供强大的支持。立即加入我们,开始您的学习之旅吧!
课程目录:
概述
第 1 部分:简介
第 1 讲课程概述
第 2 讲 极坐标的介绍
讲座 3 熊猫与北极熊
第 4 讲课程材料
第 2 部分:Polars 快速入门
讲座 5 Mac:Python 和 Polars 库的安装
第 6 讲 Apache Arrow 和 Polars:概述
第 3 节:数据帧
讲座 7 使用多种方法创建数据框
第 8 讲系列和数据框对象
第 9 讲 从 Pandas 或 Numpy 转换
第 4 节:玩转文件
讲座 10 使用极坐标读取文件
讲座 11 使用 Polars 读取 JSON 文件
讲座 12 使用极坐标写入文件
第 5 部分:选择列
第 13 讲 选择列
讲座 14 选择 2 列
第 15 讲 选择多列
第 6 节:列转换
第 16 讲 添加列:使用常数值
第 17 讲 添加列:一次添加多列
第 18 讲 变换数据框
第 19 讲 迭代数据框
第 7 节:聚合函数和 Distinct
第 20 讲 聚合函数
第 21 讲 不同查询
第 8 节:过滤器或 Where 子句
第 22 讲 Python 之道:方括号
第 23 讲 整数列
讲座 24 弦列
第 25 讲 日期列
讲座 26 布尔列
第 9 节:分组、大小写和排序
第 27 讲 Group By 示例
讲座 28 Group By 与 Having
第 29 讲 按对象分组迭代
讲义 30 案例条件
讲座 31 分位数和直方图
讲义 32 排序
第 10 节:处理缺失值
讲座 33 查找缺失值
讲座 34 替换缺失值
第 11 节:连接与联接
讲座 35 垂直和水平连接数据帧
讲座 36 连接示例
第 12 节:数据库
讲座 37 Polars 与 Sqlite 和 Postgres
第 13 节:10 亿条以上记录测试
讲座 38 纽约出租车数据概览
讲座 39 十亿条记录测试:选择
讲座 400 亿条记录测试:聚合函数
讲座 41 十亿条记录测试:不同查询
讲座 42 十亿条记录测试:案例、时间及其他
讲座 43 十亿条记录测试:过滤器
讲座 44 十亿条记录测试:分组依据
讲座 450 亿条记录测试:处理缺失数据
讲座 46 十亿记录测试:极坐标切片
第 14 节:熊猫与北极熊:超过 10 亿条记录
讲座 47 熊猫与北极熊:选择
讲座 48 Pandas 与 Polars:聚合函数
讲座 49 熊猫与北极熊:不同之处
讲座 50 熊猫与极地:滤镜
讲座 51 熊猫与极地:分组依据
1、登录后,打赏30元成为VIP会员,全站资源免费获取!
2、资源默认为百度网盘链接,请用浏览器打开输入提取码不要有多余空格,如无法获取 请联系微信 yunqiaonet 补发。
3、分卷压缩包资源 需全部下载后解压第一个压缩包即可,下载过程不要强制中断 建议用winrar解压或360解压缩软件解压!
4、云桥网络平台所发布资源仅供用户自学自用,用户需以学习为目的,按需下载,严禁批量采集搬运共享资源等行为,望知悉!!!
5、云桥网络-CG数字艺术学习与资源分享平台,感谢您的赞赏与支持!平台所收取打赏费用仅作为平台服务器租赁及人员维护资金 费用不为素材本身费用,望理解知悉!
评论(0)