课程简介¶
本站是作者在数字经济与数据科学领域学习的一些笔记和思路,依据课程形式,分门别类进行规整,为不同方向划定范围,补充细节,扩展思路。内容有原创,有摘要,也有尝试,力求通过完善本站,为数字经济和数据科学领域的学习者提供学习路线。
数据科学工具¶
预先善其事,必先利其器。数据科学领域中常用的工具体系多种多样,既有商业软件工具如SAS、SPSS、Stata、MatLab等,也有开源工具如Python、R,还有通用型编程语言如JAVA、C++等。每种工具都有各自应用范围与场景,也有使用中的优劣。综合来看,基于Python的体系在范围、深度、可组合性等角度更加中庸,虽然学习曲线有一点陡峭,但性价比高。因此,本站以Python语言及其生态作为核心工具,为学科发展提供支撑。内容包括但不限于如下内容:
Python环境与基础
Python数值计算基础——Numpy
Python数据框——Pandas 和 Polars
Python可视化:matplotlib、Seaborn、Bokeh、ploty
Scipy和sympy——科学计算与符号数学引擎
机器学习基础:Scikit-learn、Pytorch与Tensorflow
依附于Python的功能库体系
概率统计分析¶
目前统计学与数据科学的关系正在松动。在以前,统计学基于数学基础的发展方向和数据科学基于计算机的发展方向出现明显割裂。目前随着数据科学应用范围和密集计算优势越来越明显,而统计学也似乎放下身段,逐步接受了传统统计学作为贝叶斯统计的一种静态和基础形式。本部分试图从应用层面将这种变化和融合统一起来,形成统计学(数据科学)应用范式。
数据与统计概论
描述性统计
探索性数据挖掘
概率、条件概率
概率分布:离散型
概率分布:连续型
数据抽样
传统估计与概率估计
假设检验与统计推断
检验方法体系与构建
指数方法与综合分析
聚类分析
回归分析
分类与判别分析
主成分与因子分析
时序分析与分解
典型相关分析与多方程分析
方法:参数与非参数
计量经济方法¶
早在上世纪90年代,当克莱因在颐和园开培训班,计量经济学引入国内,配合经济学的数学化和数据化,计量经济学开始成为经济类专业的核心课程。但无论从名称(计量)与数量经济学的差异,到计量经济学的内容体系,一直存在较大差异和争论。我曾经听过李子奈、李元生、朱家祥、沈燕、袁强等多位老师的课程,差异更是巨大。从当下视角来看,用数据科学方法进行经济理论实证研究也许更能够反映计量经济学的本质。然而,学科经营断然不会让传统方法坐以待毙,陡峭的Python编程也不会让经济学实证拥抱编程。在这里,使用计量经济学框架,将所有方法通过Python代码进行重构,为处理大数据和实时数据提供一些启示。
从黑马到大佬——计量经济学在经济理论中变迁
回归分析——计量经济学的内核
相关性与一元回归方法
矩阵与多元回归方法
条件约束与球形扰动
条件放松与渐近
不同视角的数据与模型:截面、时序与面板数据模型
双重差分与合成控制
广义线性模型
再论因果推断
异质性与个性化
其他统计方法在经济领域中的应用
经济数据的机器学习时代
基于经济模拟的未来
机器学习与概率机器学习¶
机器学习已经从一个新鲜的名词即将变成过时的方法。幸好,AI迅速发展让这个子集继续不断吸引眼球。
分类、聚类、回归:历史场景
机器学习方法概论——反馈与迭代
朴素贝叶斯方法
决策树(DS)
随机森林(RM)
其他集成算法
支持向量机(SVM)
感知机与多层感知模型
人工神经网络模型:CNN\RNN
自注意力机制与Transformer
文本分析与大语言模型训练:新的场景
多臂老虎机
元胞自动机
强化学习与最优化
Agent 与 Multi—Agent
生成模型与仿真:未来场景