统计学习杂谈

关于ERM和SRM:简单的美才是真的美
 
什么是统计学习?看起来高深莫测,其实就是在这干这么一件事情:就是给你看一堆东西,你想办法给一个解释,然后拿着这个解释去判断其它的东西。不过,和物理学不一样,在那里,解释是人想出来的,在统计学习里,解释是机器构造出来的。
 
在许多问题里面,对象是非常复杂的,要用成百上千,甚至更多的数字去表示一个东西。当统计学家们遇到了这些问题,他们终于从对在一维和二维空间建立起来的基于概率密度的完美的数学体系的沉迷中惊醒了——经典的统计体系在“维数灾难”的洪水猛兽面前竟然不堪一击。统计学的定理告诉我们,当样本足够多的时候,估计可以足够准确,可是对于高维空间,无情的现实用两个理由断然拒绝了统计学家们的渴求——不可能有那么多的样本,也不可能在这么多的样本上面进行计算。
 
有限的样本意味着什么呢?很多本来能很好地建模的问题变成不适定的了(ill-posed)。通俗地说,就是给你的这么些样本,你可以用这个模型解释,也可以用那个模型解释,大家都解释得非常完美。那么究竟哪个是真的解释呢?令人沮丧的是,无论是这些样本还是那些美妙的统计学理论都无法给出答案——我们只能被告知,这些模型是不可被识别出谁对谁错的(unidentifiable)——在哲学上,有个深奥的名词,叫做不可证伪性。

数据挖掘工具


 
噢,既然都很完美,那么我们都接受好了。可是,别忘了,我们的目标不是守着这些解释度过余生,而是用它们帮我们干后面的事情——要是一个东西干不好事情的,就算再完美,还是呆在一边凉快去吧。想象一个也许很多大学生,乃至中学生都会的例子——曲线拟合。我们看到100个点,在一个抛物线附近震荡。我们首先拿一根直线去拟,怎么都不好;于是我们用二次曲线,嗯,看起来不错,好多了。于是我们开始兴奋起来——看起来,增加曲线的次数是个好主意。次数在一点点的加,到了100的时候,大家欢呼起来——太完美了,没有一点误差!于是大家拿着这个100次曲线模型信心十足地去套别的点,傻眼了,错的一塌糊涂!那个差强人意的二次曲线反而在这里工作的不错。
 
这个深刻的教训告诉我们:一个在已有数据中很完美的模型,在新的数据面前不一定最好的。Perfect很可能只是由于over-fitting产生的illusion。后来统计学家研究了这个问题,告诫我们除了有追求perfect的热情,还要锻造一把Occam的剃刀:除了让模型在已知的例子中很好的工作,还要把模型“剃”得简单一点——简单的美才是真的美。
 
在这个原理的基础上,令人敬仰的数学家Vapnik通过严密的数学推理建立了Structure Risk Minimization的理论,把模型复杂性融入到优化目标当中,以取代单纯追求在已知数据上的令人陶醉的完美的Empirical Risk Minimization,并且提出了现在风靡全球的Support Vector Machine。
 
其实,统计学家在这个事情上是落后了,从古希腊的哲学家和数学家,到近代的物理学家,所孜孜以求的不就是对这个世界的一个简单而完美的解释吗?对于许多伟大的科学家来说,支持其科学探索的并不是建立一套复杂得令人望而生畏的体系来描述我们的世界,相反,他们穷毕生精力所探索的正是存在于宇宙中的简单和和谐。回到刚才那个两个模型的抉择问题,简单性的信念支持着我们做这样的决定:选简单的那个。
 
反思我过去的处事方式,确实感到惭愧:在干很多事情的时候,总是试图通过建立复杂的东西来获得成就感,并且向别人炫耀自己的多才多艺的实力——文章越长越好,程序越复杂越好,公式越深奥越好。可是,回想起来,这些当时在班级和同伴里轰动一时的东西——上百页的实验报告,上万行的程序,以及长篇小说一样的文章,最后给自己留下了什么。很多时候我们在创造复杂的东西,往往代表着我们还缺乏足够的能力去找出深藏于complexity和diversity背后的core simplicity——这才是在历史长河中亘古不衰的。
 
现代的社会是复杂的和多姿多彩的,但这是“简单”在变化中孕育的,在这个复杂的世界中游刃有余的最好方法就是把握根本的简单性。这就是简单和复杂的矛盾。 数据挖掘实验室
 
宇宙很美——因为它很简单。
  数据挖掘论坛


Learning vs. Applying, Subject vs. Object: 融会自然

记得高中时学过,人有两种活动:认识世界和改造世界,它们是辨证统一的。教科书上说“认识世界是为了改造世界,改造世界有助于认识世界”,似乎是这么个道理,哲学老师举了无数例子,加上考试前的反复背诵,我也许是认同了这句话吧。

在高中和大学学了多少学科之后,我发现,这句貌似简单的话包含了多少深刻的道理——当时的理解只能用两个字形容——“肤浅”。

在量子力学里面,著名的海森堡测不准原理这么说:共轭变量是不能同时被精确测定的。抛开有关波动力学的复杂的偏微分方程的讨论,这个原理体现的不仅仅是几个物理量的关系,而是一种认识世界和改造世界的互动:认识世界的过程必须通过一定的方式作用于客观世界来获得相关的知识,当我们对一个变量获得精确认识的同时,测量的过程已经让另一个共轭变量发生了改变。这里,认识和改造已经不具有先后的次序,也不仅仅是单纯的目标和手段的关系,而是在同一过程中高度地结合起来,不可分离。

如果说,认识的过程和改造的过程构成了一对基本的矛盾,那么这对矛盾的背后事实上还隐含着一种更深层次的矛盾:主体和客体的矛盾。可以这么理解,认识其实就是从客体向主体的内化的过程;而改造就是主体向客体的外化的过程。通过这两种活动,主体和客体联系在一起,并构成了一对矛盾。



这两对基本矛盾广泛存在于我们的生活的世界里面:人类在与这个世界不断接触和尝试对它进行改造的过程中,观察这个世界,并形成理性的认识,这种认识反过来影响着我们后续的行动方式。这个循环,有时是迭代进行的,有时是同时进行的。几千年的文明史,让我们生活的地球在人类的活动中发生了沧海桑田,翻天覆地的巨大变迁,人类的思想文化也经历了巨大的进步和变化。我们看到,这种矛盾不但时时刻刻体现在我们的每个具体活动中,同时也反映于跨越万年的自然生态和人类社会的宏大运动。

当哲学家们用深邃的眼光审察着宇宙背后的规律的时候,数学家和统计学家已经着手把一切用数学公式来表达。而统计学习就是数学里面直接描述认识世界和改造世界的关系的学科——不过在这里,换了个术语——学习和应用。这是一个奇妙的世界,没有蓝天白云,没有人和动物,也没有粒子和星云,在数学家的天地里,这些多姿多彩的东西被抽象为数字和符号——在抽象的数学空间里存在并相互联系着——数学家用他们伟大的抽象能力建立了很多不同特性的空间,比如Hilbert Space和Banach Space。具体的物理特性和物理规律被剥离了,但是主体和客体的统一不但没有消逝,反而在数学家去芜存精的妙手中变得更加突出,更加鲜明。

数据挖掘论坛



在统计学习开创的时候,数学家们逐步建立起了用严密的现代分析体系支撑的学习理论,他们成功地把“学习指导应用”的哲学思想用数学公式重新说了一遍,并且严格证明了学习对于应用的意义,让那些只相信数学的唯机械论者心悦诚服。但是,在这套体系里面,学习和应用是两个先后分离的过程。后来,一些具有开拓精神的学者也提出了关于Active Learning和Reinforcement Learning的方法论——Recurrent Neural Network,Adaptive Boosting,乃至最近的Performance Driven Learning都通过一定的反馈通道完成从一个交互形式的联合。无数的实验充分表明了主观参与的优越性——当主观和客观实现了双向的沟通,学习的效率被显著地提高。

在西方的传统的科学体系中,认识世界是一个有先有后的分离过程,主体和客体被至于一个支配和被支配的对立地位。客观世界是可以被无限支配和改造的——基于对主观能力的无比信心和改造客观世界的雄心壮志,人们开始了对我们生活的世界的征伐的进程。可是环境污染,生物灭绝,生态恶化,以及从此导致的灾难性后果让人们醒悟过来——主体和客体之间的互动不是零和游戏,而是一种荣辱与共,休戚相关的依赖关系。当主体和客体互动的终极目标不应该是征服自然——而是融会自然——主客体的和谐统一。让我们引以为豪的是,我们的先贤早在老子的时代就提出过这样的理念。当然了,这里的统一是运动中的和谐,和谐中的运动——而不是一潭死水。 数据挖掘研究院

我们生存的世界是伟大的,它创造了主体——人类,并且让人类在和自然界的博弈中最终理解融会自然的重要意义——这其实也是认识和实践的矛盾的体现。回想到牛顿的划时代著作《自然哲学的数学原理》——这位伟大的科学家,做出其伟大贡献的思想根源,实际上是对自然的哲学信念——数学只是一种用于描述这种理念的工具;爱因斯坦的广义相对论和协变原理也深深地根源于他对宇宙和谐的信奉。如果我们再溯本穷原,那么他们的哲学思想其实也是根源于对生活和世界的深刻体察。当我们惊叹于物理学给我们的世界带来的变化的时候,当我们对这些科学巨人的洞察力无比敬仰的时候,我们是不是看到了这背后还是一对主体(哲学认识)和客体(世界)的矛盾,不过这对矛盾的内涵更为深远而已。

其实,不但是大科学家,我们每个人每天都在贯彻着这样的矛盾,只是大小不一样而已。当我们只是关注于一个具体小问题的时候,我们获得的知识只能解决这个小问题;当我们放眼于广袤寰宇,那么获得的体察将推动整个世界。

人和世界交融——这是我们以及我们的世界共同在追求的最美好的境界。
 

数据挖掘论坛


模型的社会 数据挖掘工具

在机器学习的世界里,主体就是被人赋予了某种智慧形式的“模型”,既然人们能够让模型具有智慧进行自主的学习,那么人们同样能够让这些模型结成某种群体结构——乃至更高级的社会结构,让模型群在一定的交互环境中成长。这里对模型群体的演变和社会发展的关系进行一些肤浅的探讨。

1. 共同决策

在人类的社会活动中,最简单的莫过于基于“少数服从多数”原则的“投票决策”了:当一群人为干什么事情争论不休的时候,一种简单又最能被大家所接受的形式就是大家进行投票,然后选择干最多人支持的事情。在统计学习中,Multi-model voting就是这种简单原则的体现。可是,最多人支持的东西就是最好的吗?不要忘了一句很著名的谚语“真理往往掌握在少数人手中”。基于这个原理,又出现了另外一种决策方式“精英决策”——通过一定的评比,选出最好的人,让他代表大家做出决策,对于统计学习,相应的典型的策略就是Cross Validation。这两种极端的方式,都有着很明显的优缺点:投票机制,要广泛发动群众投票,费时费力,效率不高,而且往往多方掣肘,导致决策有明显惰性,裹足不前,但是投票的决策稳定,能反映大多数需求,不容易出轨;精英决策,高效果断,进取性强,但是完全依赖一个人,导致决策随心所欲,欠缺稳定,风险很大。为了克服这两种决策方式的弊端,有两种折中的方式:第一种,就是给不同的人不相等的投票权,一方面多倾听专家见解,又照顾群众的需要,这就是现在统计学习里面用的很多的weighted voting。第二种,就是不同需要的群体分别选出自己的精英,由一群精英共同决策,以达到平等和效率的平衡。在政治学术语中,叫做“代议民主”,统计学习里面叫做hierarchical decision。

数据挖掘论坛



决策是推动社会发展的重要活动,但是,我们想过没有?每个人在投票时的决策是怎么形成的,是受什么影响的呢?这些每个参与投票的人是怎么培养出来的呢?每个社会成员的平时的观察和实践,以及社会成员之间的关系和互动,对于每个成员的成长有什么影响呢?因此,要真正研究一个社会,我们不能只把眼睛盯着决策时刻,更重要的是关心决策背后的社会构成,社会关系以及社会运动形式。在人类社会如此,在模型的社会,对于模型之间的联系,模型的相互作用,和模型群的联合演变等等论题的关怀,同样对于我们营造一个和谐而强大的模型集体有着重要的意义。后面会逐步探讨这些问题。 数据挖掘论坛

2. 模型社会如何运动

在讨论之前,先提出一个几个大前提。嗯,听起来有点像著名的科幻小说中的“机器人三定律”:-D

第一前提,模型的社会“绝对听命”于控制他的人。他们依据人的指令去执行各自的学习和工作计划,并且是尽自己最大的能力去执行。绝对不会因为报酬不足而怠工,或者耍小性子不听话。而且在它们身处的机器的寿命以内,能够连续不断不知疲倦地工作。由于人和模型之间的这种“单向支配”关系,因此模型和人之间不存在nontrivial的互动,所以模型和人的关系在下面的讨论中就忽略了。

第二前提,模型的社会是一个“守法”的社会。在一个系统中,所有的模型都是为了一个共同的目标运行的,虽然它们的知识背景,对世界的观察方式,以及身处的样本环境各不一样,但是他们不会做出诸如“故意攻击其它模型”或者“故意破坏社会秩序”之类的罪行。人可以给他们设置一些规范来约束和指导他们的行为,但是不必担心他们去“违反法律”。不过,这里只是假定他们不会有“主观恶意”,但是由于能力和知识局限,他们可能犯错误,并且他们的错误认识可能沿着他们直接的交流渠道扩散,因此对于错误的辨别和抑止将是一个重要的问题。关于这个问题,我们的改革开放的总设计师给我们指出了一个重要的法宝“实践是检验真理的唯一标准”,因此我们虽然允许模型之间把各自学到的知识通过“非实践性”的途径传播(比如我们在书本上学知识),但是这些知识必须最终通过“实践”的方法进行检验。这一点需要通过一定的“法律制度”加以实现。

数据挖掘交友



第三前提,模型的社会是一个“积极而善良”的社会。模型社会的运动有一个终极目标,整个体系的发展将朝向它发展。但是,对于一个困难的目标,是需要分阶段实现,每个局部都有一个“局部目标”,这个前提指出,在给定目标的指引下,模型群体的运动将朝着接近目标的方向发展,而不是背道而驰,开历史的倒车。
需要说明的是,每个局部的目标往往需要两部分共同组成——“功利目标”和“道德目标”。功利目标引导“模型”们去为实现最大利益而学习和工作,道德目标则是着力维护模型之间的良性关系以及使得模型的走向不至于因为过分最求眼前利益而偏离主方向。这就是媒体中常常宣传的“物质文明和精神文明两手抓”的问题。由于精神建设不足导致社会问题丛生,对于这点,其实我们在现实生活中是有着很深刻的教训,因此当我们营造模型社会的时候对此要非常注意。
回到数学上来,这就是一个optimization问题的formulation和implementation,事实上任何一个恰当的优化算法都能保证第三前提的满足,对于模型社会的设计者来说,关键是formulation的问题。许多研究中,人们已经发现在formulation中加入regularization是一项保证不致过早陷入local optima的重要手段,这个regularization term从社会运动的角度说就是一种软性的道德约束,因此某些literature中对加入regularization的做法叫做"learning with conscience"(有良心的学习)。

数据挖掘工具



这三个前提总体上说并不矛盾,但是在某些地方有可能出现矛盾的情况,这个时候,第三前提服从第二前提,第二和第三前提服从第一前提。

模型毕竟不是真正有生命的东西,模型社会要运动起来,需要人的“第一推动力”:人通过设置一些规则和发展目标,然后在某个初始状态下让模型社会系统开始运作。在不破坏前面说的大前提的条件下,模型的运动其实是“高度自治”的。至于模型社会最后是成功到达“世界大同”还是遭遇“万世之劫”,就和人设置的规则和目标是否合理有很大关系了。对于允许随机性存在的体系,偶然因素也可能扮演重要角色。

早期的时候,人们希望模型按照确定性的道路向前走,但是,在统计学习的最近发展中,人们开始认识到随机性的重要意义。因为人类事实上是在一个未知的世界探索,固定的走向未必是最好的,通过对模型的随机构造,和对前进路线的随机化干扰,模型将能在运动过程中接触到并且积累丰富的知识。并且在一个多样化的探索氛围中,更有可能发现更优异的状态。对于一个模型社会来说,随机构造更是产生多个不同个性的模型的重要源泉,也是社会多样化的根基所系。在数值优化领域,stochastic annealing和genetic algorithm已经显示出对比于传统非随机方法在搜寻全局最优上的优势,而在统计学习来说,随机化的方法还在非常初级的萌芽状态,而且备受争议。但是我相信,通过随机化构造一个具有多样性的模型群体,并且通过合理的引导,共同努力去探索目标是一个非常有promising的approach,而这种信念根植于这样的观察:在多样化的社会中创造的巨大的社会进步。 数据挖掘论坛
  数据挖掘论坛

 

[数据挖掘专家] [数据挖掘研究院] [数据挖掘论坛] [数据挖掘实验室]
上一篇:一段求极值的matlab代码 SGA
下一篇:个体学习与经济行为:学习模型的研究进展及其解读
最新评论共有 0 位网友发表了评论 , 查看所有评论
发表评论( 不能超过250字,需审核,请自觉遵守互联网相关政策法规。 )
匿名?
数据挖掘网站导航 数据挖掘论坛导航
  • 数据挖掘工具
  • 数据挖掘论坛
  • DataCruncher - Cognos
  • MineSet - MathSoft
  • Intelligent Miner - GainSmarts
  • Sqlserver - SAS - Clementine
  • CART - Weka - WizSoft
  • NeuroShell - ModelQuest
  • data mining tools - Darwin
  • 数据挖掘交友
  • 数据挖掘博客
  • 数据挖掘工具
  • 数据挖掘资源
  • 数据挖掘技术算法
  • 数据挖掘相关期刊、会议
  • 研究院联盟合作专区
  • 数据挖掘基础与相关技术
  • 数据挖掘厂商与就业
  • 数据挖掘研究者乐园
  • 知名厂商数据挖掘工具资料
  • 国内数据挖掘实验室
  • Foreign Data Mining Lab
  • 热点关注
  • 方差分析软件下载
  • 因子分析
  • 第七章 主成分与因子分析
  • 第五章 相关与回归分析
  • 第八章 聚类分析与判别分析
  • 一段求极值的matlab代码 SGA
  • 第十三章 时间序列分析
  • 利用Excel进行医学统计t检验分析
  • 第六章 试验设计与方差分析 (1)
  • 第九章 典型相关分析
  • 论坛最新话题
  • Foundations of Statistical Natural Langu
  • Game Theory meet Data Mining: A Recent P
  • System Building: How does it help or hin
  • 数据挖掘与Clementine培训
  • 新手报到
  • 求 SASEM 客户流失预测分析
  • 数据挖掘工程师/搜索研究院—北京——无线
  • 数据挖掘入门介绍(如何着手数据挖掘)
  • Information Overload Survey Results
  • The INEX 2005 Workshop on Element Retrie
  • 相关资讯
  • JASA中一组经典的统计学文章
  • 中国文化与中国的统计科学
  • “显著性”的关系和这种关系中的陷阱
  • 有关标准化回归系数的误用
  • 描述性回归与预测性回归
  • 论文撰写中常见的统计学问题及其处理
  • 医学论文中常见的统计学处理问题
  • 心理统计学(Psychological Statistics)
  • 统计学习笔记——因素分析
  • 统计学习笔记-判别分析
  • 数据挖掘实验室资料
  • 数据挖掘博客地址
  • 数据挖掘实验室网站地址
  • Prepare for Medicare audits by using dat
  • 注册成为SAS用户与爱好者俱乐部会员
  • 水南梅
  • 明日烟
  • 新人报道
  • 下载
  • 厦门服务器托管,450元/月—0592-5177319 高
  • 买空间送域名--0592-5177319 高静