数据科学与分析

全屏查看

1 第一部分 Python 基础与数据科学环境 #

mindmap
    id1[第一部分 Python 基础与数据科学环境]
        id1-1[Python 编程基础]
        id1-2[Python 语言特性与优势]
        id1-3[变量、数据类型与运算符]
        id1-4[控制结构:条件语句与循环]
        id1-5[函数定义与参数传递]
        id1-6[模块导入与包管理]
        id1-7[异常处理与调试技巧]
        id1-8[面向对象编程基础]
        id1-9[数据科学环境配置]
        id1-10[Anaconda 发行版安装与配置]
        id1-11[Jupyter Notebook 使用指南]
        id1-12[虚拟环境管理]
        id1-13[常用 IDE 配置 PyCharm、VS Code]
        id1-14[包管理工具 pip 与 conda]
Python 编程基础
Python 语言特性与优势
变量、数据类型与运算符
控制结构:条件语句与循环
函数定义与参数传递
模块导入与包管理
异常处理与调试技巧
面向对象编程基础
数据科学环境配置
Anaconda 发行版安装与配置
Jupyter Notebook 使用指南
虚拟环境管理
常用 IDE 配置 PyCharm、VS Code
包管理工具 pip 与 conda

2 第二部分 数据处理与分析库 #

NumPy 数值计算
数组创建与基本操作
数组索引与切片
数组形状操作与重塑
通用函数与广播机制
线性代数运算
随机数生成与统计函数
数组文件输入输出
Pandas 数据分析
Series 与 DataFrame 数据结构
数据读取与写入 CSV、Excel、JSON
数据清洗与预处理
数据筛选与查询
分组聚合操作
数据合并与连接
时间序列数据处理
透视表与交叉表
数据可视化
Matplotlib 基础绘图
Seaborn 统计可视化
Plotly 交互式可视化
散点图、柱状图与箱线图
热力图与分布图
地理数据可视化
自定义图表样式与布局
mindmap
    id2[第二部分 数据处理与分析库]
        id2-1[NumPy 数值计算]
        id2-2[数组创建与基本操作]
        id2-3[数组索引与切片]
        id2-4[数组形状操作与重塑]
        id2-5[通用函数与广播机制]
        id2-6[线性代数运算]
        id2-7[随机数生成与统计函数]
        id2-8[数组文件输入输出]
        id2-9[Pandas 数据分析]
        id2-10[Series 与 DataFrame 数据结构]
        id2-11[数据读取与写入 CSV、Excel、JSON]
        id2-12[数据清洗与预处理]
        id2-13[数据筛选与查询]
        id2-14[分组聚合操作]
        id2-15[数据合并与连接]
        id2-16[时间序列数据处理]
        id2-17[透视表与交叉表]
        id2-18[数据可视化]
        id2-19[Matplotlib 基础绘图]
        id2-20[Seaborn 统计可视化]
        id2-21[Plotly 交互式可视化]
        id2-22[散点图、柱状图与箱线图]
        id2-23[热力图与分布图]
        id2-24[地理数据可视化]
        id2-25[自定义图表样式与布局]

3 第三部分 数据获取与预处理 #

mindmap
    id3[第三部分 数据获取与预处理]
        id3-1[数据获取方法]
        id3-2[文件数据读取 CSV、Excel、JSON]
        id3-3[数据库连接与查询 SQLite、MySQL]
        id3-4[Web 数据抓取 Requests、BeautifulSoup]
        id3-5[API 数据接口调用]
        id3-6[公开数据集获取]
        id3-7[数据清洗技术]
        id3-8[缺失值检测与处理]
        id3-9[异常值识别与处理]
        id3-10[数据类型转换]
        id3-11[字符串处理与正则表达式]
        id3-12[数据去重与重复值处理]
        id3-13[数据标准化与归一化]
        id3-14[特征工程]
        id3-15[特征选择方法]
        id3-16[特征编码 独热编码、标签编码]
        id3-17[特征缩放技术]
        id3-18[特征构造与变换]
        id3-19[降维技术 PCA、t-SNE]
数据获取方法
文件数据读取 CSV、Excel、JSON
数据库连接与查询 SQLite、MySQL
Web 数据抓取 Requests、BeautifulSoup
API 数据接口调用
公开数据集获取
数据清洗技术
缺失值检测与处理
异常值识别与处理
数据类型转换
字符串处理与正则表达式
数据去重与重复值处理
数据标准化与归一化
特征工程
特征选择方法
特征编码 独热编码、标签编码
特征缩放技术
特征构造与变换
降维技术 PCA、t-SNE

4 第四部分 统计分析基础 #

描述性统计
集中趋势度量
离散程度度量
分布形态分析
相关性分析
统计图表解读
推断统计
概率分布与假设检验
参数估计与置信区间
方差分析
卡方检验
非参数检验方法
探索性数据分析
单变量分析
双变量分析
多变量分析
数据分布探索
异常模式识别
mindmap
    id4[第四部分 统计分析基础]
        id4-1[描述性统计]
        id4-2[集中趋势度量]
        id4-3[离散程度度量]
        id4-4[分布形态分析]
        id4-5[相关性分析]
        id4-6[统计图表解读]
        id4-7[推断统计]
        id4-8[概率分布与假设检验]
        id4-9[参数估计与置信区间]
        id4-10[方差分析]
        id4-11[卡方检验]
        id4-12[非参数检验方法]
        id4-13[探索性数据分析]
        id4-14[单变量分析]
        id4-15[双变量分析]
        id4-16[多变量分析]
        id4-17[数据分布探索]
        id4-18[异常模式识别]

5 第五部分 机器学习算法 #

mindmap
    id5[第五部分 机器学习算法]
        id5-1[监督学习]
        id5-2[线性回归与逻辑回归]
        id5-3[决策树与随机森林]
        id5-4[支持向量机]
        id5-5[K 近邻算法]
        id5-6[朴素贝叶斯分类器]
        id5-7[模型评估指标]
        id5-8[无监督学习]
        id5-9[K 均值聚类]
        id5-10[层次聚类]
        id5-11[DBSCAN 密度聚类]
        id5-12[主成分分析]
        id5-13[关联规则挖掘]
        id5-14[模型优化与验证]
        id5-15[训练集与测试集划分]
        id5-16[交叉验证技术]
        id5-17[超参数调优]
        id5-18[模型性能评估]
        id5-19[过拟合与欠拟合处理]
监督学习
线性回归与逻辑回归
决策树与随机森林
支持向量机
K 近邻算法
朴素贝叶斯分类器
模型评估指标
无监督学习
K 均值聚类
层次聚类
DBSCAN 密度聚类
主成分分析
关联规则挖掘
模型优化与验证
训练集与测试集划分
交叉验证技术
超参数调优
模型性能评估
过拟合与欠拟合处理

6 第六部分 高级数据分析技术 #

时间序列分析
时间序列数据特性
平稳性检验
自相关与偏自相关
ARIMA 模型
季节性分解
时间序列预测
文本数据分析
文本预处理技术
词袋模型与 TF-IDF
词嵌入与 Word2Vec
情感分析
主题建模
文本分类
网络数据分析
网络图基础概念
网络指标计算
社区检测算法
网络可视化
社交网络分析
mindmap
    id6[第六部分 高级数据分析技术]
        id6-1[时间序列分析]
        id6-2[时间序列数据特性]
        id6-3[平稳性检验]
        id6-4[自相关与偏自相关]
        id6-5[ARIMA 模型]
        id6-6[季节性分解]
        id6-7[时间序列预测]
        id6-8[文本数据分析]
        id6-9[文本预处理技术]
        id6-10[词袋模型与 TF-IDF]
        id6-11[词嵌入与 Word2Vec]
        id6-12[情感分析]
        id6-13[主题建模]
        id6-14[文本分类]
        id6-15[网络数据分析]
        id6-16[网络图基础概念]
        id6-17[网络指标计算]
        id6-18[社区检测算法]
        id6-19[网络可视化]
        id6-20[社交网络分析]

7 第七部分 大数据与分布式计算 #

mindmap
    id7[第七部分 大数据与分布式计算]
        id7-1[大数据处理工具]
        id7-2[PySpark 基础]
        id7-3[Dask 并行计算]
        id7-4[内存优化技术]
        id7-5[大数据存储格式]
        id7-6[数据管道构建]
        id7-7[ETL 流程设计]
        id7-8[工作流调度]
        id7-9[数据质量监控]
        id7-10[自动化数据处理]
大数据处理工具
PySpark 基础
Dask 并行计算
内存优化技术
大数据存储格式
数据管道构建
ETL 流程设计
工作流调度
数据质量监控
自动化数据处理

8 第八部分 项目实战与最佳实践 #

完整数据分析项目
问题定义与数据理解
数据探索与可视化
特征工程与模型构建
结果解释与报告撰写
最佳实践与优化
代码性能优化
内存管理技巧
可复现性保证
文档编写规范
部署与维护
模型部署策略
监控与更新机制
生产环境注意事项
mindmap
    id8[第八部分 项目实战与最佳实践]
        id8-1[完整数据分析项目]
        id8-2[问题定义与数据理解]
        id8-3[数据探索与可视化]
        id8-4[特征工程与模型构建]
        id8-5[结果解释与报告撰写]
        id8-6[最佳实践与优化]
        id8-7[代码性能优化]
        id8-8[内存管理技巧]
        id8-9[可复现性保证]
        id8-10[文档编写规范]
        id8-11[部署与维护]
        id8-12[模型部署策略]
        id8-13[监控与更新机制]
        id8-14[生产环境注意事项]