一、引言
信息、计算以及通信技术的飞速进展持续渗透至人类社会生活的方方面面,逐渐成为越来越多日常活动的基础,引发人类学习、沟通、协调、生产及消费方式的转变,这样的转变被Rifkin称为第三次工业革命。[1]在物联网技术突破数据采集瓶颈,宽带泛在突破数据传输与交换瓶颈,云计算突破数据存储与大规模运算瓶颈时,数据的爆炸式增长成为这个时代的重要特征,引发近年全球范围的“大数据”(Big Data)热潮。[2][3][4]与大数据的关注热度相比,它的概念界定一直未在学术界和实践界形成共识,无论美国国家科学基金会(NSF)从数据规模、形态角度的定义,还是Gartner公司从数据处理方式角度的定义,亦或维基百科从数据处理复杂性角度的定义,在初步勾勒了大数据基本特征的同时,仍有管中窥豹之感。某种意义上说,对大数据的关注反映了当人类掌握的基础数据管理技术(如采集、存储与传输)发展快于高级数据管理技术(如分析、知识挖掘与决策支持)时,公众面对大量可见而不可知数据的焦虑。大数据的“大”是相对于信息认知能力而言的,与海量数据相比,对人类真正有意义的是其背后蕴含的知识。[5]因此“大数据”绝不仅是计算机科学中的极端数据处理问题,相关研究的突破和进展离不开数据分析方法与特定管理问题背景的深度融合。[6]
几乎所有展望大数据应用前景的研究都非常重视政府或公共部门相关数据的价值。[7][8]这很大程度上是因为这些数据关乎国计民生,有可能得到那些可能解决重大问题的重要分析结果。但实际上,基于大数据解决大问题并不那么容易。无论在国外还是国内,真正意义上的系统性大数据分析探索均率先出现在电子商务领域。[9][10][11]如果说商业领域的大数据分析大多附着在体现企业核心价值的交易数据上是因为这是客户行为的记录,公共领域的大数据分析也同样关注“客户反馈”,例如社交媒体上更易获得的网络公众舆情。[12]当然,面对通常被认为是多目标决策的公共管理复杂问题,单一的网络舆情分析往往得到的知识是有限的,分析对象的边界亟待拓展。[13][14]
在此背景下,本文的讨论围绕公共衍生大数据(Public Generated Big Data)的概念,指围绕公共话题和公共事务衍生的复杂、多样、低价值密度的海量数据。公共衍生大数据通常主要包含以下三类:互联网公共话题相关的用户创造内容(User Generated Content,UGC);政府部门业务运作过程中产生的大量政策、法规及其相关的文件与文档数据;政府信息化过程中建设的包括物联网系统在内的各类信息系统在运行中生成的大量数据(如交通、环境监测、网上办事数据)。本文将基于过往研究及未来挑战,尝试初步构建上述大量有价值但却未得到充分利用的公共衍生大数据与政府科学决策间的可能联系。
之所以要将公共衍生大数据作为一个概念提出,并视为政府决策过程中一种可依赖资源,很大程度上基于近年来数据挖掘与社会计算方面取得的若干研究进展,这为我们更好的实现对公共衍生大数据的分析及后续的政府决策过程模拟与评估提供了可能。这些方法进展涉及的主要领域包括文本挖掘、社会网络分析、社会计算与多智能体仿真等。
在文本挖掘方面,无法利用计算机理解海量文本中的语义信息是长期以来文本形式的非结构化数据无法像结构化数据一样被政策分析者充分利用的根本原因。概率主题建模一类方法即试图从大量文本信息中发现并提取主题信息,从而实现面对非结构化数据的辅助决策。[15]该方法起初应用于信息检索领域,随后概率潜在语义分析方法(pLSA)被提出用以在概率框架下生成信息主题集合。[16]通过间接对文档中包含的主题信息的处理,TF-IDF模式以及向量空间模型提供了一种粗略的描述和建模文档内容和主题相似度的解决方案。[17][18]为了解决此类模型和方法无法区分字面意思不相同而主题意义相同或相似情形的弱点,研究者引入了奇异值分解(Singular Value Decomposition)并提出了潜在语义分析方法(Latent Semantic Analysis,LSA),将高维的文档词语空间转化映射成了低维的主题向量空间。[19]潜在狄利克雷分配(Latent Dirichlet Allocation,LDA)使用贝叶斯概率框架进一步改进了pLSA模型和方法,取得了更好的建模效果,并已在网络舆情分析中得到了一些应用。[20]相关应用能够帮助管理者快速理解海量文本中涉及的讨论主题,从而把握公众关切重点,形成有效决策。[21]在主题提取的基础上,近年来相关研究者陆续将研究重点转向对语义中情感表达的分析,也取得了一定进展。[22][23]情感分析有助于管理者判断不同主题下公众态度的烈度和极性,有利于进一步科学量化公众关切。
在社会网络分析方面,尽管公共管理研究者和实践者很早即认同社会的网群关系,但近年来社会网络分析在大规模计算和工具化、可视化方面的进展才逐渐奠定了其在公共管理与公共政策分析领域的应用基础。社会网络分析相关方法主要针对社会科学里对社会结构和社会关系的研究需求,其源头可追溯到数学家Euler的图论工作,其基本思路是以结点和结点间联系分别代表行动者与行动者关系,在此框架下测度与分析各行动主体间由于资源、信息的流动形成的动态关系,引入小世界(The Small World)、结构洞(Structural Holes)等理论后使社会网络分析有能力描述和解释更为复杂的社会现象和问题。[24]目前,社会网络分析由于其结论可视化强等方面的优势在文献关系及网络舆情分析中得到了广泛的应用,[25][26][27]社会网络分析与文本挖掘的叠加有助于发现公众关切的集聚与扩散规律,从而更准确地判断政府决策与网络舆情间的互动关系。
在社会计算与多智能体仿真方面,大数据同样为传统的建模、仿真领域带来新的生机。王飞跃等人在融合多种建模、仿真方法进展后提出了社会计算(Social Computing)的概念,其中涉及的若干方法通常被认为有助于更好的研究社会选择。[28]近年来的社会选择研究主要集中在两个方面:引入人工智能领域的概念和方法解决社会选择问题,而反之另一条思路则是将社会选择理论引入人工智能领域,其中多智能协商的相关研究属于两种思路的融合。[29]在公共管理与公共政策领域,互动的行为体、结构、过程出现不可控的混乱。通过社会选择模拟辅助研究,界定范围来限制模型中政策议题的复杂度显得尤为重要。[30]多智能体仿真可以模拟凸显性、不确定性、多态均衡和非现象条件下的对多利益群体、多阶层在复杂政策环境下的行为反应,从而实现对政策效果的评估,该方法已经在模拟和评估联合国决策方面得到初步应用。[31]与其他大数据分析方法的有机结合可望赋予多智能体仿真更广阔的发展空间。
结合上述大数据分析方法的进展,面向公共衍生大数据的分析需求将进一步推动研究方法论的整合与创新。通过大数据分析方法的引入,公共政策分析相关学科有望突破原有边界,应对更为复杂的科学问题。将数据挖掘、社会计算与传统公共政策过程中经济学、社会学方法融合,将极大地丰富相关领域研究方法论,从而更好地应对不断发展和变化的复杂公共政策问题。这是大数据分析可能为公共政策分析领域带来的贡献。
三、信息时代政府决策过程的嬗变
随着上述研究方法的日益发展,在大数据热潮之初,甚至更早的时间,我们已经能够见到围绕某一公共话题的数据分析研究,如用数据表征公共卫生、公共交通以及非传统安全较量中的若干实例。[32][33][34][35][36]上述工作开拓了研究视野,但更多体现的是特定数据分析方法在特殊场合的应用,尚未触及公共管理与公共政策过程的本质,所得结论也多为现象描述,仅能视为公共衍生大数据分析的起步。在公共政策过程嬗变的过程中,信息技术演进的影响从未被研究者忽视,这既包括技术环境的直接影响,和技术环境通过对公众观念带来转变引发的间接影响。
从政府决策相关理论的视角来看,公共政策过程是政策问题从议程设置、实施到评估反馈和修正等一系列政策循环周期的总和。[37]国内外学者对其进行了大量的研究,其视角包括强调权利结构下的利益博弈,强调公共目标的理性学习及强调社会理念作用等。[38]其中应用最为广泛的是多源流理论和触发机制理论。[39][40][41]中国的公共政策议程有其内在的特点,基于多种理论视角与观点的融合。王绍光在分析了中国公共政策议程设置的六种模式后,也指出在当今的议程设置过程中,精英专家、传媒、利益相关群体和人民大众发挥的影响力越来越大。[42]推广到政府的决策模式,鄢一龙等人提出“十五”以来决策过程的集思广益模式,体现在普通公众参与日益增多,决策过程日益开放。而网络的兴起与普及应用无疑加剧了这一趋势。[43]国内外均有学者指出了信息时代的诸多特点将对公共政策过程和政府决策过程带来影响。相关研究主要体现在初步定性分析了网络舆情热点及网民政策态度的形成过程; [44][45][46]在政策议程设置环节,尝试探索信息时代政府、媒介和公众三者关系的变化;[47][48][49]部分学者结合案例试图描述网络影响政府决策的过程。[50][51]然而上述研究考虑网络能技术环境影响时仍主要采取事件触发的视角;由于方法论所限也尚未涉及对网络公众表达大数据进行真正分析和利用的问题。
一方面大数据带来的冲击会加剧信息时代对政府决策过程的影响,另一方面,政府能否完善决策过程以适应时代和利用大数据带来的机遇也决定了影响的正负的极性。基于多源流理论等经典框架来分析和解构大数据带来的影响有助于我们在相关理论基础上探索政府决策过程的重构策略和数据驱动机制。这也是公共政策研究可能反作用于大数据发展的贡献。
四、政策信息学:融合与演进
在大数据与政策科学两方面理论、方法的进展的基础上,不难发现在二者交汇的研究领域仍存在真空地带,许多关键科学问题亟待解决,包括:如何整合现有数据挖掘方法,实现更好的分析公共衍生大数据的目的?从公共衍生大数据中获取的知识如何影响政府决策,需要何种模式与过程的改进?如何基于公共衍生大数据评估政府决策过程与决策本身的效果,尤其是前瞻性预测关键决策的中长期效果?回答这些问题,可能需要有面向公共衍生大数据分析与政府决策过程重构的新学科出现。
国际学者已开展探索中引人注意的是美国亚利桑那州立大学提出了政策信息学研究方向。政策信息学可以看作一个以面向如何利用公共政策相关海量信息,更好地理解和解决复杂的公共政策和管理问题,从而实现治理流程和制度创新为目标的若干跨学科研究组成的崭新领域。[52]因为有可能为政策制定者与利益相关者提供前所未有的知识和决策依据,政策信息学有可能成为未来公共政策过程分析的一个重要学科基础。目前,相关学者以开展了若干政策信息学研究工作,例如Kim等学者利用空间分析方法来监测公共产品欺诈,并用类似的方法研究了俄亥俄州的医疗补助支出变化的案例。[53][54]贝叶斯模型也被用于分析公共环境政策问题。[55]2015年,国际公共政策分析领域的顶级期刊Journal of Policy Analysis and Management(JPAM)集中发表了三篇在政策信息学方向上的最新探索,即包括利用大数据分析和仿真建模方法对教育、医疗领域政策的研究,[56][57]也包括如何利用社交网络优化政策过程的探索。[58]
当然,政策信息学仅是一个刚刚勾勒出框架的新方向,针对其重方法轻理论、重描述轻分析、重制定过程轻评估过程等现状和不足,笔者认为其未来亟待研究的科学问题主要分为以下四类:
公共衍生大数据的基础分析方法研究。公共衍生大数据的复杂特性要求相关分析必须在现有分析方法基础上进行创新与整合。此类研究目标即以政府处理公共事务时面对的多来源、不同结构化程度的网络舆情、政策文本及系统生成数据为主要对象,探索对其具有较好分析与解释效果的文本挖掘方法与多方法、工具组合,为后续研究中特定政策议题的分析挖掘、决策效果模拟与评估中的关键指标计算奠定方法基础。其中主要研究问题可能包括探索以关键主题提取与多维度情感分析为重点的海量文本数据挖掘方法、探索与相关开源分析算法或工具的对接与整合技术、探索与传统定性研究方法的整合技术等。
围绕特定政策场景的知识发现研究。从公共衍生大数据中发现对政府决策真正有价值的关键知识是政策信息学试图探索的核心。此类研究目标即通过对多来源数据的综合分析,围绕特定的公共管理与公共政策问题,寻找那些对公共管理者至关重要的知识,从而揭示由大数据分析驱动政府决策优化的可行路径。其中主要研究问题可能包括针对公共政策过程分析各环节相关的公众态度与趋势变化、针对政府日常管理决策与突发事件应急处置等场景分析公众舆论热点与决策反馈等。
面向大数据的政府决策模式与决策过程重构策略研究。大数据时代赋予公共管理者的机遇与挑战不仅来自特定案例中的挖掘出的管理知识,而更将催生管理模式和决策过程的深刻变革。此类研究目标即基于前述模块围绕公共衍生大数据的研究发现,结合公共政策过程与公共管理行为的研究积累,探索并重构政府决策过程,提出有效的重构策略并重点探讨若干重要问题。其中主要研究问题可能包括探索公共衍生大数据分析对公共政策过程各环节的影响以及相应的重构策略、探索公共衍生大数据分析中发现的舆情热点进入政府决策流程的模式及处置机制等。
公共选择模拟与决策效果评估研究。政府决策与公共衍生大数据分析的深度融合需要经历复杂的互动过程,此类研究的目标在于探索这样的互动模式,即通过基于多智能体仿真等社会计算基础方法尝试进行公共重大议题共选择模拟及中决策效果的中长期评估,据此将数据分析驱动决策的过程模块化和工具化,切实提升政府决策过程的科学性。其中主要研究问题可能将围绕探索大数据驱动的多智能体群决策仿真与公共选择模拟,并形成若干基于公共衍生大数据计算的决策评估指标并探索期应用机制展开。
如图1所示,在政策信息学框架下四类研究问题密切相关,彼此分割,中间包含着三个有机结合的研究循环:
图1 公共衍生大数据分析与政府决策过程重构(政策信息学)研究框架
围绕技术方法与应用场景的第一研究循环。在正向维度,方法研究服务于特定场景下的知识发现;在逆向维度,根据公共政策与政府决策特定应用场景下产生的更为聚焦的分析需求又能推动分析方法的改进。在循环互动中才可能逐渐凝练具有普遍适用性的大数据分析方法集。
围绕知识发现与重构策略的第二研究循环。在正向维度,基于第一循环的分析结果将被总结提炼为与政策相关的舆情规律;在逆向维度,根据政府部门多渠道获取的公众反馈将校正决策过程策略。在循环互动中才可能逐渐探索出大数据知识作用与政府决策过程的长效机制。
围绕机制设计与效果评估的第三研究循环。在前两重循环的基础上,引入行动研究(Action Research)的思维范式,在正向维度,设置观测大数据知识为特定政府部门采纳后的决策效果指标;在逆向维度,根据一些政策可能面临的阶段性反弹,以实际政策效果数据为基点模拟公众选择变化,从而修正政府决策,进而构建分析→决策→评估→再决策的迭代机制。
五、结语
大数据浪潮给公共管理与公共政策分析研究领域带来全新的机遇和挑战。通过对大数据分析方法的探索、修正及扩展;围绕特定公共议题相关的公共衍生大数据展开分析,从分析结果中提炼关键知识规律;重构政府决策范式与过程;并探索与之相配套的政策过程评估方法与社会选择模拟方法。这一系列研究挑战构成了面向公共衍生大数据分析和政府决策过程重构的崭新领域——政策信息学。在在方法论层面,方法融合与学科交叉是未来科学研究的总体趋势,相关研究进行的方法论探索对基于大数据丰富公共管理与公共政策研究的范式具有前瞻意义;在实践层面:面对政府与社会共同关注的诸多实际公共问题,尝试各种分析方法、设计的过程机制、构建的评估体系均为实际影响和应用效果导向,可望对切实提升当前政府决策过程的科学性和有效性有所裨益。
本文从对公共衍生大数据概念界定入手,通过梳理公共衍生大数据分析方法发展和信息时代政府决策过程嬗变两方面研究视域下的理论演进,初步探讨了公共衍生大数据分析与政府决策过程重构所面临的主要科学问题及宏观研究思路。以期抛砖引玉,对致力和关注相关问题的研究者与实践者有所借鉴。
参考文献:
[1]Rifkin,J.The Third Industrial Revolution:How Lateral Power is Transforming Energy,the Economy,and the World.Macmillan,2011.
[2]Chen,H.,Chiang,R.H.,& Storey,V.C.Business Intelligence and Analytics:From Big Data to Big Impact.MIS Quarterly,2012,36(4).
[3][9]McAfee,A.,& Brynjolfsson,E.Big Data:The Management Revolution.(cover story).Harvard Business Review,2012,90(10):60-68.
[4][10]冯芷艳,郭迅华,曾大军,陈煜波,陈国青.大数据背景下商务管理研究若干前沿课题[J].管理科学学报,2013(1).
[5]Ross,J.W.,Beath,C.M.,& Quaadgras,A.You May Not Need Big Data After All.Harvard Business Review,2013,1(12):90-98.
[6]Boyd,D.,& Crawford,K.Critical Questions for Big Data:Provocations for a Cultural,Technological,and Scholarly Phenomenon. Information,Communication & Society,2012,15(5):662-679.
[7][13]Joseph,R.C.,& Johnson,N.A.Big Data and Transformational Government.IT Professional Magazine,2013,15(6):53.
[8]王新才,丁家友.大数据知识图谱:概念、特征、应用与影响[J].情报科学,2013(9).
[11]蔚赵春,凌鸿.商业银行大数据应用的理论、实践与影响[J].上海金融,2013(9).
[12]Davenport,T.H.Analytics 3.0.Harvard Business Review,2013,91(12):64-72.
[14][46]喻国明.大数据分析下的中国社会舆情:总体态势与结构性特征——基于百度热搜词(2009—2012)的舆情模型构建[J].中国人民大学学报,2013(5).
[15]Blei D M.Probabilistic Topic Models.Communications of the ACM,2012.55(4):77-84.
[16]Hofmann T.Probabilistic Latent Semantic Analysis.Proceedings of the Fifteenth Conference on Uncertainty in Artificial Intelligence,Morgan Kaufmann Publishers Inc,1999:289-296.
[17]Jones K S.A statistical interpretation of term specificity and its application in retrieval.Journal of Documentation,1972,28(1):11-21.
[18]Salton G,Wong A,Yang C S.A Vector Space Model for Automatic Indexing.Communication of the ACM,1975,18(11):613-620.
[19]Deerwester S,Dumais S T,Furnas G W,Landauer T K,Harshman R..Indexing by Latent Semantic Analysis.Journal of the American Society for Information Science,1990,41(6):391-407.
[20]Blei D M,Ng A Y,Jordan M I.Latent Dirichlet Allocation.The Journal of Machine Learning Research,2003,3:993-1022.
[21]马宝君,张楠,孙涛.智慧城市背景下公众反馈大数据分析:概率主题建模的视角[J].电子政务,2013(12).
[22]Pang,B.and L.Lee.Opinion Mining and Sentiment Analysis.Foundations and Trends in Information Retrieval.2008,2(1-2):1–135.
[23]赵妍妍,秦兵,刘挺.文本情感分析[J].软件学报,2010(8).
[24][28][36]王飞跃,李晓晨,毛文吉,王涛.社会计算的基本方法与应用[M].浙江大学出版社,2013.
[25]Angus,D.,Rintel,S.,& Wiles,J.Making Sense of Big Text:a Visual-First Approach for Analysing Text Data Using Leximancer and Discursis.International Journal of Social Research Methodology,2013,16(3):261-267.
[26][34]Wonodi,C.B.,Privor-Dumm,L.,Aina,M.,Pate,A.M.,Reis,R.,Gadhoke,P.,& Levine,O.S..Using Social Network Analysis to Examine The Decision-Making Process on New Vaccine Introduction in Nigeria.Health policy and planning,2012,27(suppl 2):27-38.
[27]康伟.突发事件舆情传播的社会网络结构测度与分析——基于“11·16校车事故”的实证研究[J].中国软科学,2012(7).
[29][31]罗杭,孟庆国.安理会改革与大国博弈的多智能体模拟[J],世界经济与政治,2013(6).
[30]Desai.A.Simulation for Policy Inquiry.Springer,2012.
[32]Gillespie,M.BBC Arabic,Social Media and Citizen Production:An Experiment in Digital Democracy before the Arab Spring.Theory,Culture & Society,2013,30(4):92-130.
[33][50]Procter,R.,Vis,F.,& Voss,A.Reading the Riots on Twitter:Methodological Innovation for the Analysis of Big Data. International Journal of Social Research Methodology,2013,16(3):197-214.
[35]陈美.大数据在公共交通中的应用[J].图书与情报,2012(6).
[37]薛澜,陈玲.中国公共政策过程的研究:西方学者的视角及其启示[J].中国行政管理,2005(7).
[38]薛澜,林泽梁.公共政策过程的三种视角及其对中国政策研究的启示[J].中国行政管理,2013(5).
[39]Kingdon,John W.Agendas,Alternatives,and Public Policy.Addison-Wesley Educational Publisher Inc.1995.
[40]Gerston L N.Public PolicyMaking:Process and Principles.Armonk,New York:M.E.Sharpe Inc.2004.
[41]于永达,药宁.政策议程设置的分析框架探索——兼论本轮国务院机构改革的动因[J].中国行政管理,2013(7).
[42]王绍光.中国公共政策议程设置的模式[J].中国社会科学,2006(5).
[43]鄢一龙,王绍光,胡鞍钢.中国中央政府决策模式演变——以五年计划编制为例[J].清华大学学报(哲学社会科学版),2013(3).
[44]陈姣娥,王国华.网民政策态度形成机制研究——从“网议宁波”说起[J].中国软科学,2010(5).
[45]李彪.微博中热点话题的内容特质及传播机制研究——基于新浪微博6025条高转发微博的数据挖掘分析[J].中国人民大学学报,2013(5).
[47]Shanahan,E.A.,McBeth,M.K.,Hathaway,P.L.,& Arnell,R.J.Conduit or Contributor?The Role of Media in Policy Change Theory. Policy Sciences,2008(2).
[48]陈姣娥,王国华.网络时代政策议程设置机制研究[J].中国行政管理,2013(1).
[49]王金水.网络舆论与政府决策的内在逻辑[J].中国人民大学学报,2013(3).
[51]Zhu,Y.,& Cheng,J.The Emergence of Cyber Society and the Transformation of the Public Policy Agenda-Building Process in China.China Review:An Interdisciplinary Journal on Greater China,2011.11(2).
[52]Johnston E,Kim Y.Introduction to the Special Issue on Policy Informatics.The Innovation Journal:The Public Sector Innovation Journal,2011,16(1):1-4.
[53]Kim,Y.Using Spatial Analysis for Monitoring Fraud in a Public Delivery Program.Social Science Computer Review,2007,25(3):287-301.
[54]Desai,A.,Greenbaum,R.T.,& Kim,Y.Incorporating Policy Criteria in Spatial Analysis.The American Review of Public Administration,2009, 39(1):23-42.
[55]Chun,Y.,Kim,Y.,& Campbell,H.Using Bayesian Methods to Control for Spatial Autocorrelation in Environmental Justice Research:an Illustration Using Toxics Release Inventory Data for a Sunbelt County.Journal of Urban Affairs,2012,34(4):419-439.
[56]Martin E G,MacDonald R H,Smith L C,et al.Policy Modeling To Support Administrative Decisionmaking On The New York State Hiv Testing Law.Journal of Policy Analysis and Management,2015,34(2):403-423.
[57]Sirer M I,Maroulis S,Guimera R,et al.The Currents Beneath The “Rising Tide” Of School Choice:An Analysis Of Student Enrollment Flows In The Chicago Public Schools.Journal of Policy Analysis and Management,2015,34(2):358-377.
[58]Frank K A,Penuel W R,Krause A.What Is A “Good” Social Network For Policy Implementation?The Flow Of Know‐How For Organizational Change.Journal of Policy Analysis and Management,2015,34(2):378-402.