设为首页 收藏本站
查看: 1686|回复: 0

[经验分享] PRML读书笔记——3 Linear Models for Regression

[复制链接]

尚未签到

发表于 2017-6-21 16:35:54 | 显示全部楼层 |阅读模式
Linear Basis Function Models
  线性模型的一个关键属性是它是参数的一个线性函数,形式如下:
DSC0000.png

  w是参数,x可以是原始的数据,也可以是关于原始数据的一个函数值,这个函数就叫basis function,记作φ(x),于是线性模型可以表示成:
DSC0001.png

  w0看着难受,定义一个函数φ0(x) = 1, 模型的形式再一次简化成:

   DSC0002.png
  以上就是线性模型的一般形式。basis function有很多选择,例如Gaussian、sigmoid、tanh (tanh(x) = 2 * sigmoid(a) − 1)。
Maximum likelihood and least squares
  训练线性模型的时候,假设cost function为sum-of-squares error function,那么minimize cost function 和 maximize likelihood function是等价的。
DSC0003.png

  另外一个发现就是,w0最终解出来为target values的均值 和 各个特征的basis function values均值的加权和 的差,如下:
DSC0004.png

DSC0005.png

Regularized least squares
  一般的正则化形式如下:
DSC0006.png

DSC0007.png

  q = 1, 为lasso(least absolute shrinkage and selection operator) 正则化,其特点是,当λ足够大的时候,某些参数会趋向0,看下图。
  q = 2, 二次正则化,使得一些参数足够小。
DSC0008.png


Bias-Variance trade-off
  假设y(x, D)代表基于数据集D训练出来的regression function, h(x)代表数据集D中,给定x条件下target value的期望
DSC0009.png

  squared loss function可以写成:
DSC00010.png

  后一项与y(x)无关,考虑前一项积分里面的部分:
  {y(x; D) − h(x)}2 =  {y(x; D) − ED[y(x; D)] + ED[y(x; D)] − h(x)}2
  = {y(x; D) − ED[y(x; D)]}2 + {ED[y(x; D)] − h(x)}2
            +2{y(x; D) − ED[y(x; D)]}{ED[y(x; D)] − h(x)}
  这样积分取期望后为:
DSC00011.png

  前一项为bias,后一项为variance。
  于是loss function的总体希望就为,(bias)2 + variance + noise
DSC00012.png

  于是就产生了bias-variance trade-off问题, flexible models低bias,高variance;rigid models 高bias,低variance。
  在实际应用中,为了观察bias和variance,计算如下:
DSC00013.png

  其中:
DSC00014.png

  y(l)(x)是prediction function。
Bayesian Linear Regression(该段摘自Jian Xiao(iamxiaojian@gmail.com)的笔记Notes on Pattern Recognition and Machine Learning (Bishop))
  Bayesian 方法能够避免 over-fitting 的原因是: Marginalizing over the model parameters instead of making point estimates of their values.
  假设有多个 model;观察到的 data set 是 D。 Bayesian 的 model comparison 方法是,比较各个模型的后验概率,即:
DSC00015.png

  先验概率 p(Mi) allows us to express a preference for different model。可以假设每个模型的先验概率相等,那么剩下要比较的关键是: p(D|Mi) ——model evidence 或 marginal likelihood。
  Model averaging V.S. model selection
  Model averaging:把多个模型,用各自模型的后验概率加权平均,得到 predictive distribution为
   DSC00016.png
  Model selection: 只选择一个模型,即其中后验概率最大的模型。这是一种 approximation to model averaging。以上分析可以看出,各个 model 的后验概率是关键,而计算后验概率的关键又是 model evidence。
  从 sampling 的角度看, Mi 相当于 hyper-parameter,而 w 则是 parameter。 一个 model 不同于另一个 model,是因为 hyper-parameter。
The Evidence Approximation
  full Bayesian需要marginalize with respect to hyper-parameters as well as parameters,例如hyperparameter是alpha和beta,w是parameter,那么predictive distribution为:
DSC00017.png

  就比较难,这里就考虑一种approximation,给hyperparameters设置一个特定的数值,这个数值由maximizing the marginal likelihood function 来确定。这个方法叫empirical Bayes、 type 2 maximum likelihood、generalized maximum likelihood、evidence approximation(in machine learning)
  Previous Chapter | Next Chapter

运维网声明 1、欢迎大家加入本站运维交流群:群②:261659950 群⑤:202807635 群⑦870801961 群⑧679858003
2、本站所有主题由该帖子作者发表,该帖子作者与运维网享有帖子相关版权
3、所有作品的著作权均归原作者享有,请您和我们一样尊重他人的著作权等合法权益。如果您对作品感到满意,请购买正版
4、禁止制作、复制、发布和传播具有反动、淫秽、色情、暴力、凶杀等内容的信息,一经发现立即删除。若您因此触犯法律,一切后果自负,我们对此不承担任何责任
5、所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其内容的准确性、可靠性、正当性、安全性、合法性等负责,亦不承担任何法律责任
6、所有作品仅供您个人学习、研究或欣赏,不得用于商业或者其他用途,否则,一切后果均由您自己承担,我们对此不承担任何法律责任
7、如涉及侵犯版权等问题,请您及时通知我们,我们将立即采取措施予以解决
8、联系人Email:admin@iyunv.com 网址:www.yunweiku.com

所有资源均系网友上传或者通过网络收集,我们仅提供一个展示、介绍、观摩学习的平台,我们不对其承担任何法律责任,如涉及侵犯版权等问题,请您及时通知我们,我们将立即处理,联系人Email:kefu@iyunv.com,QQ:1061981298 本贴地址:https://www.yunweiku.com/thread-386303-1-1.html 上篇帖子: Windows 2012R2远程桌面服务部署环境简介 下篇帖子: Single Vendor Project in OpenStack
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

扫码加入运维网微信交流群X

扫码加入运维网微信交流群

扫描二维码加入运维网微信交流群,最新一手资源尽在官方微信交流群!快快加入我们吧...

扫描微信二维码查看详情

客服E-mail:kefu@iyunv.com 客服QQ:1061981298


QQ群⑦:运维网交流群⑦ QQ群⑧:运维网交流群⑧ k8s群:运维网kubernetes交流群


提醒:禁止发布任何违反国家法律、法规的言论与图片等内容;本站内容均来自个人观点与网络等信息,非本站认同之观点.


本站大部分资源是网友从网上搜集分享而来,其版权均归原作者及其网站所有,我们尊重他人的合法权益,如有内容侵犯您的合法权益,请及时与我们联系进行核实删除!



合作伙伴: 青云cloud

快速回复 返回顶部 返回列表