注册 English

你现在的位置:首页 > 专栏 > 我院研究人员专栏 > 人大重阳

文继荣讲座实录:大数据与AI如何用于社会科学?
字号:
2018-06-29
  大数据方法有很多成功的应用。但是这种方法不能处理数据覆盖不到的情况,即对于一个给定的X,当样本数据里其对应的Y时,我们就无法知道Y是什么。在这种情况下,我们仍然需要去探寻模型F。但与传统的模型方法不同的是,我们希望将大数据和模型方法结合,从海量的自变量和因变量对(X,Y)中学习一个复杂的模型F,这就是人们通常说的深度学习。

编者按:对话人大名教授讲座6月7日晚在中国人民大学重阳金融研究院举行。本次邀请的主讲嘉宾是中国人民大学信息学院院长文继荣教授,他演讲的主题是“当机器人知道你在想什么,揭秘AI读心术与未来社会发展”。本次讲座围绕自然科学和社会科学的解决问题的基本原理谈起,提出解决问题的三种方法,并就大数据与人工智能技术与人文社会科学如何结合做了精彩解答。本文由讲座速录整理而成(有删减),已由作者本人审阅,人大重阳官网与微信公众号(ID:rdcy2013)本期独家推出,以飨读者。


当前大数据、人工智能、深度学习这些词比较热,今天借此机会与大家分享一下。不会讲太多理论,尽可能通俗。



一、科学的核心问题


无论是自然科学还是社会科学,解决问题的基本原理可以用一个简单的函数表示:“Y=F(X)”。对于一个输入X,需要找到一个模型(函数)F,然后产生一个输出Y。其实我们在学习、研究、工作、日常生活中都在找类似的模型——换句话说就是事物的一般运行规律和法则。


模型有着重要的作用。我们找到合适的函数(模型)F,你给出什么自变量,就能得到相应的因变量。


二、解决问题的三种方法


1. 传统模型方法


通过观察少量的事物,通过少量的自变量和因变量对(X,Y),抽象得到一个一般化的模型Y=F(X)。例如牛顿通过对少量事物的实验、分析和观察,就能抽象出重要的物理规律。模型最重要作用的是缓解了样本的不足,可以通过少量的样本推断到一般情况,我们把这叫泛化。


2. 大数据方法


我们一直在各个领域探寻简单优美的模型F。但是这个方法不是万能的。尤其在一些复杂的像社会科学领域,比如股市预测等。不只是Y=F(X)这两个变量。股市里有成千上万人在里面博弈,每个人都有自己的想法,买进卖出。所以要寻找到合适的模型存在很大的挑战,尤其在社会科学研究方面。我自己的深刻体会是,其实社会科学的很多问题比自然科学要复杂。包括经济、金融等的问题都很复杂,相关模型构建很有挑战性。


大数据时代给我们提供了解决上述问题的新途径。当数据多到一定程度,我们对一些以前需要依赖模型解决的方法,可以做到不用模型了,可以直接用数据解决。



如上图,Y=F(X)。传统方法要找到通用的X到Y的函数F。但是如果这个F特别难找,比如里面有几万个变量,函数的形式会特别复杂。我们可以绕过模型F去搜集大量的X和Y的对应。搜集到足够多的时候,你就可以直接拿X去匹配相应的Y(见下图)。



F(X)就像一个黑箱,我们原来想搞清楚黑箱里面是什么,但如果实在搞不清楚里面是什么的时候怎么办?我们可以搜集海量的输入输出数据,到一定程度可能所有的X和Y我都有了。这个时候我就不用知道黑箱里面是什么,因为我只关心一个X它对应的Y是什么,我不关心Y是怎么产生的。这是大数据方法的本质。所谓的大数据方法是充分利用了计算机最强的两个能力:记忆力和计算力。计算机在记忆力和计算力上远远超过人类,人与它是完全没有办法比的。


3. 深度学习方法


大数据方法有很多成功的应用。但是这种方法不能处理数据覆盖不到的情况,即对于一个给定的X,当样本数据里其对应的Y时,我们就无法知道Y是什么。在这种情况下,我们仍然需要去探寻模型F。但与传统的模型方法不同的是,我们希望将大数据和模型方法结合,从海量的自变量和因变量对(X,Y)中学习一个复杂的模型F,这就是人们通常说的深度学习。


三、大数据与人工智能在社会科学中的应用


在中国人民大学,我们正在探索如何将大数据与人工智能技术与人文社会科学结合。这里举几个例子简单谈一下。


(一)与金融经济领域的结合。这些领域的结合是非常广泛的,而且越来越发挥着重要的作用。比如我们和经济学家们进行合作,他们想研究某个经济现象时,经常会遇到一个棘手的问题:很难找到研究数据。但基于大数据技术和自然语言处理技术等,我们能提取和解析出海量相关数据和信息,而且可以通过数据可视化技术等动态展示出来。这对金融经济领域的研究帮助是非常大的。研究方法的突破能帮助你发现很多以前难以发现的问题。


(二)与新闻传播学的结合。数字化传播过程中的大数据和人工智能技术应用已经非常普遍了,大家估计也接触过不少。举一个例子,在舆情监测方面。比如我们现在想了解 “雾霾”的舆情。对“雾霾”进行网络搜索,结果显示有500多万条,人工读完是不可能的。但是通过智能的大数据和自然语言处理技术,500多万条,瞬间机器就可以全部读完并给出分析报告。


(三)与历史学的结合。历史研究要面对大量的史料。历史学家每次要研究一个东西,比如研究税收,研究灾害,要看很多史料,费时费力。但我们可以用计算机对史料进行分析。比如灾害史,就可以通过人工智能技术从各个史料当中分析出历史上发生灾害的时间、地点、当时经济社会情况、是否引发暴动等相关各项要素等。基于此,我们可以把复杂的历史问题转换成数据分析问题,并且可以通过可视化直观展现出来。


(四)与法学的结合。法学也可以转变成基于大数据和人工智能的学问。例如我们通过学习近千万份的法律文书,可以让机器学会自动量刑、判案。也可以通过让机器学习海量案例,分析各类案件的发生规律、演变情况等。这对社会治理有着很重要的意义。


总的来说,社会科学中的研究对象是非常复杂的,大数据和人工智能技术在社会科学中的应用还处于比较基础的阶段。随着人工智能技术的进一步发展,特别是在自然语言处理等认知智能方面的突破,会对社会科学发展和人类整个社会带来深刻的影响。(欢迎关注人大重阳新浪微博:@人大重阳 ,微信公众号:rdcy2013)



    关键词: 文继荣  人大重阳    中国智库  大数据  

人大重阳推荐
  • 1  董希淼:让货币基金脱虚向实回归本位
    去年以来,监管部门先后出台了公募基金流动性管理新规等,对基金...
  • 2  罗思义:数据显示中国对世贸组织贡献巨...
    西方著名的咨询公司牛津经济研究院近期的一份报告显示,购买进口...
  • 3  董少鹏:中国股市做好三件事就能走强
    中国股市对贸易战的利空因素过度反应,与自身市场结构缺陷有关,...
  • 4  郑志刚:阿里现代合伙人制度的历史痕迹...
    无论几百年前大盛魁的“万金账”制度还是如今阿里实行的合伙人制...
  • 5  刘志勤:要防止危机的“涟漪”效应
    我们要特别重视经济发展中的“涟漪效应”。这种“涟漪效应”无处...
  • 6  刘英:保持定力,应对中美贸易摩擦升级
    6月15日,美国单方面撕毁5月中美经贸磋商的联合声明,提出对...
  • 7  董少鹏:贸易战对中美股市的冲击有什么...
    中美贸易争端自3月22日爆发以来至今,A股市场投资者遭遇了不...
  • 8  赵锡军:征收方式由“扣”变“报” 投...
    伴随着税制的改革,接下来非常重要的变化就是在征收方式上可能出...
  • 9  刘戈:本届世界杯 中国赞助商是接盘侠...
    本届世界杯场地广告牌上中国品牌出现爆发性增长,从前两届的一家...
  • 10  王义桅:各种陷阱说的潜在逻辑 中国不...
    西方看中国,总是从需要、期待出发,意图将中国纳入其轨道,让中...
研究员专栏
 王 文  贾晋京  文佳筠  寇志伟
 董希淼  万 喆  赵昌会  张燕玲
 张颐武  王元龙  王衍行  朱伟一
 何伟文  刘 戈  魏本华  庚 欣
 宋荣华  刘志勤  罗思义  郑志刚
 陈甬军  吴晓球  周晓晶  王 遥
 梅德文  刘 戈  彭晓光  刘 英
 何亚非  程 诚  杨凡欣  陈晓晨
 曹明弟  赵明昊  刘宗义  陈定定
 卞永祖  文 扬  王义桅  华黎明
 黄 震  戴 旭  马国书  赵宏伟
 黄剑辉  吴思科  翟永平  安国俊
 李 巍  陈雨露  阎庆民  汤 珂
 陈 心  辛本健  金海腾  庞中英
 王 勇  周 戎  王 庆  裘国根
 柯伟林  章 星  黄红元  王利明
 林民旺  徐以升  黄金老  黄仁伟
 何茂春  丁 刚  张敬伟  赵锡军
 马 勇  陈晨晨  李 戎  马光荣
 张胜军  关照宇  陈治衡  姚 乐
 刘 典  刘玉书  董少鹏  王 鹏