注册 English 报告下载

你现在的位置:首页 > 专栏 > 我院研究人员专栏 > 人大重阳

文继荣讲座实录:大数据与AI如何用于社会科学?
字号:
2018-06-29
  大数据方法有很多成功的应用。但是这种方法不能处理数据覆盖不到的情况,即对于一个给定的X,当样本数据里其对应的Y时,我们就无法知道Y是什么。在这种情况下,我们仍然需要去探寻模型F。但与传统的模型方法不同的是,我们希望将大数据和模型方法结合,从海量的自变量和因变量对(X,Y)中学习一个复杂的模型F,这就是人们通常说的深度学习。

编者按:对话人大名教授讲座6月7日晚在中国人民大学重阳金融研究院举行。本次邀请的主讲嘉宾是中国人民大学信息学院院长文继荣教授,他演讲的主题是“当机器人知道你在想什么,揭秘AI读心术与未来社会发展”。本次讲座围绕自然科学和社会科学的解决问题的基本原理谈起,提出解决问题的三种方法,并就大数据与人工智能技术与人文社会科学如何结合做了精彩解答。本文由讲座速录整理而成(有删减),已由作者本人审阅,人大重阳官网与微信公众号(ID:rdcy2013)本期独家推出,以飨读者。


当前大数据、人工智能、深度学习这些词比较热,今天借此机会与大家分享一下。不会讲太多理论,尽可能通俗。



一、科学的核心问题


无论是自然科学还是社会科学,解决问题的基本原理可以用一个简单的函数表示:“Y=F(X)”。对于一个输入X,需要找到一个模型(函数)F,然后产生一个输出Y。其实我们在学习、研究、工作、日常生活中都在找类似的模型——换句话说就是事物的一般运行规律和法则。


模型有着重要的作用。我们找到合适的函数(模型)F,你给出什么自变量,就能得到相应的因变量。


二、解决问题的三种方法


1. 传统模型方法


通过观察少量的事物,通过少量的自变量和因变量对(X,Y),抽象得到一个一般化的模型Y=F(X)。例如牛顿通过对少量事物的实验、分析和观察,就能抽象出重要的物理规律。模型最重要作用的是缓解了样本的不足,可以通过少量的样本推断到一般情况,我们把这叫泛化。


2. 大数据方法


我们一直在各个领域探寻简单优美的模型F。但是这个方法不是万能的。尤其在一些复杂的像社会科学领域,比如股市预测等。不只是Y=F(X)这两个变量。股市里有成千上万人在里面博弈,每个人都有自己的想法,买进卖出。所以要寻找到合适的模型存在很大的挑战,尤其在社会科学研究方面。我自己的深刻体会是,其实社会科学的很多问题比自然科学要复杂。包括经济、金融等的问题都很复杂,相关模型构建很有挑战性。


大数据时代给我们提供了解决上述问题的新途径。当数据多到一定程度,我们对一些以前需要依赖模型解决的方法,可以做到不用模型了,可以直接用数据解决。



如上图,Y=F(X)。传统方法要找到通用的X到Y的函数F。但是如果这个F特别难找,比如里面有几万个变量,函数的形式会特别复杂。我们可以绕过模型F去搜集大量的X和Y的对应。搜集到足够多的时候,你就可以直接拿X去匹配相应的Y(见下图)。



F(X)就像一个黑箱,我们原来想搞清楚黑箱里面是什么,但如果实在搞不清楚里面是什么的时候怎么办?我们可以搜集海量的输入输出数据,到一定程度可能所有的X和Y我都有了。这个时候我就不用知道黑箱里面是什么,因为我只关心一个X它对应的Y是什么,我不关心Y是怎么产生的。这是大数据方法的本质。所谓的大数据方法是充分利用了计算机最强的两个能力:记忆力和计算力。计算机在记忆力和计算力上远远超过人类,人与它是完全没有办法比的。


3. 深度学习方法


大数据方法有很多成功的应用。但是这种方法不能处理数据覆盖不到的情况,即对于一个给定的X,当样本数据里其对应的Y时,我们就无法知道Y是什么。在这种情况下,我们仍然需要去探寻模型F。但与传统的模型方法不同的是,我们希望将大数据和模型方法结合,从海量的自变量和因变量对(X,Y)中学习一个复杂的模型F,这就是人们通常说的深度学习。


三、大数据与人工智能在社会科学中的应用


在中国人民大学,我们正在探索如何将大数据与人工智能技术与人文社会科学结合。这里举几个例子简单谈一下。


(一)与金融经济领域的结合。这些领域的结合是非常广泛的,而且越来越发挥着重要的作用。比如我们和经济学家们进行合作,他们想研究某个经济现象时,经常会遇到一个棘手的问题:很难找到研究数据。但基于大数据技术和自然语言处理技术等,我们能提取和解析出海量相关数据和信息,而且可以通过数据可视化技术等动态展示出来。这对金融经济领域的研究帮助是非常大的。研究方法的突破能帮助你发现很多以前难以发现的问题。


(二)与新闻传播学的结合。数字化传播过程中的大数据和人工智能技术应用已经非常普遍了,大家估计也接触过不少。举一个例子,在舆情监测方面。比如我们现在想了解 “雾霾”的舆情。对“雾霾”进行网络搜索,结果显示有500多万条,人工读完是不可能的。但是通过智能的大数据和自然语言处理技术,500多万条,瞬间机器就可以全部读完并给出分析报告。


(三)与历史学的结合。历史研究要面对大量的史料。历史学家每次要研究一个东西,比如研究税收,研究灾害,要看很多史料,费时费力。但我们可以用计算机对史料进行分析。比如灾害史,就可以通过人工智能技术从各个史料当中分析出历史上发生灾害的时间、地点、当时经济社会情况、是否引发暴动等相关各项要素等。基于此,我们可以把复杂的历史问题转换成数据分析问题,并且可以通过可视化直观展现出来。


(四)与法学的结合。法学也可以转变成基于大数据和人工智能的学问。例如我们通过学习近千万份的法律文书,可以让机器学会自动量刑、判案。也可以通过让机器学习海量案例,分析各类案件的发生规律、演变情况等。这对社会治理有着很重要的意义。


总的来说,社会科学中的研究对象是非常复杂的,大数据和人工智能技术在社会科学中的应用还处于比较基础的阶段。随着人工智能技术的进一步发展,特别是在自然语言处理等认知智能方面的突破,会对社会科学发展和人类整个社会带来深刻的影响。(欢迎关注人大重阳新浪微博:@人大重阳 ,微信公众号:rdcy2013)



    关键词: 文继荣  人大重阳    中国智库  大数据  

人大重阳推荐
  • 1  关照宇:安倍无悬念当选日本首相, 日...
    过去几年中安倍经济学所采取的强货币刺激政策已经过了效能释放的...
  • 2  王鹏:半岛局势向好,无核化推进还需“...
    朝韩的首脑为本国国家利益计,从可操作性、可行性的角度出发,在...
  • 3  陈治衡:美国升级贸易战的背后不乏“心...
    根据经济学的原理,在没有超额需求的情况下,由于供给方面成本的...
  • 4  董希淼:不做货币政策“万能论”的信徒
    今年上半年,在内外部环境发生明显变化的情况下,我国金融市场总...
  • 5  俄罗斯总统经济顾问:美国重拳霸凌之下...
    格拉兹耶夫顾问从中俄时政、国际形势转入他本人的研究领域,从经...
  • 6  郑水泉:“一带一路”五周岁 未来稳字...
    郑水泉总结说,“志行万里者,不中道而辍足”。建设“一带一路”...
  • 7  朱伟一:全球最大破产重组案的两大悬念
    克罗地亚最大的集团企业Agrokor因扩展过快,资金链断裂,...
  • 8  关照宇 张婷婷:中俄为世界和平背书
    光阴飞逝,还有一年,中国和俄罗斯就将迎来建交70周年。回首往...
  • 9  万喆:小产权房难以禁绝背后的纠缠和博...
    9月17日,深圳市规土委正式发布《深圳市人民政府关于农村城市...
  • 10  张燕玲:从亲历的四国案例说起,弄清“...
    9月17日,由“一带一路”智库合作联盟秘书处主办,中国人民大...
研究员专栏
 王 文  贾晋京  陈晓晨  曹明弟
 刘 英  杨凡欣  程 诚  陈晨晨
 卞永祖  王利明  裘国根  罗思义
 王永利  刘志勤  张燕玲  刘 戈
 董希淼  刘宗义  赵明昊  王衍行
 朱伟一  龙兴春  王 鹏  董少鹏
 刘玉书  刘 典  姚 乐  陈治衡
 关照宇  张胜军  马光荣  李 戎
 彭晓光  刘 戈  梅德文  王 遥
 何亚非  周晓晶  吴晓球  陈甬军
 郑志刚  马 勇  赵锡军  张敬伟
 丁 刚  何茂春  黄仁伟  黄金老
 徐以升  林民旺  黄红元  章 星
 柯伟林  王 庆  周 戎  王 勇
 庞中英  金海腾  辛本健  陈 心
 汤 珂  阎庆民  陈雨露  李 巍
 安国俊  翟永平  吴思科  黄剑辉
 赵宏伟  马国书  戴 旭  黄 震
 华黎明  王义桅  文 扬  陈定定
 万 喆  文佳筠  宋荣华  庚 欣
 魏本华  何伟文  王元龙  张颐武
 赵昌会  寇志伟