党的十八大以来,创新社会治安防控体系是“创新社会治理体制、提高社会治理水平”在治安及综治领域的具体体现,也是当前社会建设的重要着力点。正所谓“没有信息化就没有现代化”[1],2015年4月,中共中央办公厅、国务院办公厅印发的《关于加强社会治安防控体系建设的意见》将“以信息化为引领”作为加强治安防控工作的指导思想。“数据是信息的载体,信息是有背景的数据;进入信息时代,数据成为信息的代名词,两者可以交替使用。”[2]“在信息化时代,数据随时随地与我们相伴而行,‘用数据说话’已成为认知世界的一种方法。”[3]因此,数据治理构成创新治安防控的有益尝试。
黄仁宇先生提出过一个非常著名的论断,即近代中国动荡局势的原因是“因为中国未能像西方那样实行数目字管理的现代治国手段”。[4]本文无意对近代中国衰落原因做历史考据,但上述观点映射出掌握及运用数据对治国理政具有重要价值的道理却不容忽视。
数据(data)一词出现于13世纪,源自拉丁语,有寄予的含义。数据的概念是在量的基础上建立起来的,量成为数据的基本单位。[5]数据不仅代表“真正的事实”,经由统计工作、系统化收集的成片数据,除代表事实,还蕴藏着事物的发展规律。这种规律支配着整个社会的发展,一旦掌握,就可把握社会的脉搏甚至预测未来。[6]“作为社会管理和公共服务的提供部门,收集数据、使用数据,是自古以来各国政府普遍采用的做法。”[7]
所谓数据治理,是指运用数据科学的技术手段,采集、清洗、整理、利用数据,用数据说话、用数据决策的问题分析及解决机制。数据治理具有如下特征:第一,数据治理以量化分析减少不确定性和降低风险,弥补个体经验、直觉及智慧的不足。随着世界的数据化,“我们不再将世界看作是一连串或是自然或是社会现象的事件,我们会意识到本质上世界是由信息构成的,量化一切成为可能。”[8]第二,数据治理主张相关比因果更重要,通过量化不同事物之间的数理关系,以相关关系捕捉现在和预测未来。第三,数据治理以数据科学为基础,以统计软件和数学模型为分析工具。第四,数据治理认为政府处于数据化的环境中,政府的治理活动应以数据为依据,数据化决策,即采集及整理数据——量化分析——相关性测算——预测或决策。第五,数据治理尊重事实、推崇理性、强调数据创新,倡导一种数据治国的数据文化。
当前,针对治安防控的创新问题,研讨较为活跃、视角颇为丰富。有的从地域出发,关注中心城市、老城区、城乡结合部、边境城市、农村等地的防控创新;有的从防控主体出发,关注公安机关、社区、民间组织、志愿者的工作机制创新;有的从防控手段出发,关注人防、技防、物防等手段的改进;有的从系统论出发,研讨治安防控各模块之间的体系创新。实际上,上述研讨基于社会控制、社会失范、系统论、社会冲突、社会结构、科际整合等理论学说进行了充分的逻辑推演、理论思辨、经验归纳及比较分析;但仅凭这些理论及方法还远远不够,各类防控创新举措最终能否成功还离不开数据治理。
首先,各类防控创新均需根植于犯罪数据与社会事实,用数据说话、用数据创新。针对不同地域、防控主体、防控手段及防控体系的创新举措,均离不开对特定空间中的特定因素及犯罪大数据的精确测量。
其次,各类防控创新离不开数据科学中量化方法的运用。如针对城乡结合部的治安防控问题,需根据历史数据、运用数学模型评估出城乡结合部空间中哪些因素存在较强的犯罪吸引力。BBC纪录片《地平线:大数据时代》讲述了数据治理及数学方法、数据分析技术改进犯罪防控的实例,即数学家帮助洛杉矶警察局建立犯罪时空预测模型,以数学模型设计犯罪预测软件,以预测软件规划警察每天的巡逻路线,从而大大降低犯罪率且被美国多个警察机构予以采用。
最后,防控创新举措是否成功离不开数据的检验与评估。声名显赫的破窗理论、情景预防及防卫空间学说、犯罪制图方案均通过了各种实验性项目的严格检测,在实践中取得了显著效果。各类治安防控创新举措如未经现实检验,则仍处于理论设想和方案计划阶段。
正如孟建柱同志2015年1月在中央政法工作会议上强调政法机关要“善于抓住关键的具体”[9];作为关键性基础环节,数据治理就是创新社会治安防控体系的“关键的具体”。此外,虽然数据治理描绘出非常美好的未来,但要想在治安防控中实现数据治理难度可想而知,系统反思开展数据治理的现实困境构成了创新治安防控的起点。
“伴随新一轮信息技术革命浪潮的出现,信息技术在静悄悄的革命中重塑了国家治理的生态,大数据时代的中国国家治理面临一系列全新的机遇和挑战,国家治理能力建设的路径优化成为迫在眉睫的时代命题。”[10]数据治理已成为国家治理各个领域均要面对的机遇和挑战。依靠数据的犯罪治理源自犯罪统计,但又汲取了犯罪社会学、犯罪地理学、犯罪心理学、犯罪经济学等犯罪学分支学科中的量化分析、犯罪制图、心理评估、数学建模等科学方法。对于治安防控来说,数据治理并非新问题,但在理论上却相当薄弱,在实践中亦困难重重。具体来说,数据治理在治安防控中的困境如下:
在多年的综治工作中,政法委、公安、监狱、法院等防控机构的案卷、档案、报表、文件中积累了大量的犯罪和治安数据。随着办公信息化进程的加速,在公安机关等机构的局域网中,形成了所在辖区的全样本、长时段、标准化、实时性、交互式的刑事案件、治安案件、人口户籍、城市管理等数据。因此,在治安防控中并不缺数据,但缺乏重视数据的意识和观念。正如胡适在《差不多先生传》中指出国人具有“凡事差不多”的习惯,“回望历史,中国是个数据文化匮乏的国家;就现状而言,有些数据的公信力弱、质量低,数据定义的一致性差也是不争的事实。过去深入群众、实地考察的工作方法虽仍然有效,但对决策而言,系统采集的数据、科学分析的结果更重要。”[11]防控部门对习惯和经验过于依赖、犯罪数据深层分析有限、对犯罪风险评估不够精确、各项防控决策的量化支持不足、重视犯罪原因忽视犯罪影响条件、重视犯罪预防忽视犯罪预测等现状,均反映出数据文化尚未落地生根。
第二,在机制上,缺乏标准化的犯罪数据分析及应用模式。
当前,犯罪数据获取不是问题,问题在于如何分析和应用。在分析环节上,以往对犯罪数据的分析多限于宏观层面的描述性统计,犯罪与周边环境、人口、空间特征、经济社会因素的相关性分析匮乏,基于相关性分析的数学建模及犯罪预测鲜见;针对微观地理单位及较长历史周期的犯罪时空风险分析有限;基于地理信息系统的犯罪数据可视化分析仍处于探索阶段;关于犯罪原因的分析很多情况下还处于经验描述层面。在应用环节上,由于常态化的犯罪风险评估匮乏,犯罪数据的针对性、实用性、可操作性较为有限,尤其是基于犯罪数据的犯罪预测落后。实际上,基于统计建模、具有数往知来功效的犯罪预测对防控资源的调配和防控布局优化具有重大价值。在操作环节上,各地各级防控部门的犯罪数据分析及应用在目标界定、分析策略、数据标准、数据库建设、分析工具选择、分析报告设计、报表自动化、数据分析师培训等领域尚无统一、规范且经过实践检验的标准模式。
第三,在结构上,“数据孤岛”问题凸显,各部门的数据缺乏共享与整合。
2015年5月,全国多家媒体报道了河南信阳市发生的一起儿童走失案,父母在一个派出所报案后,儿童被同属一个分局的另一个派出所接走后送当地福利院,而后走失儿童病逝于福利院。[12]该案反映出各个公安机关之间在数据联网共享与信息管理方面存在一定问题。尽管公安机关等机构掌握所在辖区内的犯罪及治安数据,但各级各地公安机关之间、公安机关与其他防控机构之间的数据缺乏有效兼容与整合。这种现象又称为“数据孤岛”或“信息孤岛”。“信息孤岛在我国当前政府部门的信息化系统之间是一种普遍现象,这从国际上公认衡量各国信息化发展水平的全球电子政务发展指数上也能体现。近十年,我国该指数排名先升后降,从2003年第74位升至2005年第57位,2012年跌至第78位。”[13]准确地说,“数据孤岛”不是技术性问题,而是体制性问题。该问题导致治安防控体系难以形成全国一盘棋,阻碍着上下互通、左右互动、情报共享、实时更新的数据治理的实现。
第四,在开放性上,犯罪数据对社会开放的水平和程度有限。
开放犯罪数据不仅是为了保障公民知情权,更重要的是通过数据公开实现用数据制衡政府公权力运用。以往我国犯罪数据公开仅限于《中国法律年鉴》、《中国统计年鉴》对全国公安机关每年刑事案件立案总数和主要几类案件立案数进行公布,以及“两高”报告、个别省份公安年鉴的总体数据公布。随着包括刑事判决书在内的裁判文书网上公开,全样本的刑事案件信息(未成年人犯罪等案件除外)已实现全国公开;但基于此的刑事司法统计未获同步公布。毕竟,每份判决书本身不能管中窥豹,只有基于全部判决书的刑事司法统计才能准确反映犯罪态势。由于刑事判决书并未被进一步数据化整理,基于判决书的数据抽取仅能靠人工筛选,即通过人工阅读每份判决书,将Web文本中如罪名、犯罪时间、犯罪地点、刑期等信息进行抽取并转成Excel或SPSS格式表格;而依靠机器的智能数据抽取与清洗尚无法真正落实。同时,二审判决书并未与一审判决书形成有效链接,这给人工刑事司法统计带来数据源重复的障碍。此外,治安案件未能纳入公开范围,鉴于犯罪黑数的漏斗效应,比犯罪数据更为庞大的治安案件数据更有参考价值。犯罪数据开放性的上述局限致使独立第三方的专业犯罪风险评估难以出现,普通民众难以根据犯罪数据有针对性的开展被害预防。
针对数据治理遭遇的问题,当前流行的应对思路是从大数据的运用上寻找突破口和改进路径,甚至某些治理对策研究已到了言必称大数据的地步。实际上,“1998 年《科学》杂志刊登论文《大数据的处理程序》才第一次使用大数据(big data)一词;2008年《自然》杂志刊登“big data”专刊,使“大数据”在学术界得到认可和广泛使用。”[14]在中国,信息产业界公认的“大数据元年”是2013年[15];欧美等国的大数据发展计划是近五年内陆续出现的。理论界建议政府借大数据东风,利用后发优势实现“弯道超车”固然正确;但切不可忽视人类长久以来利用小数据所积淀的治理传统,忽视小数据与大数据之间的内在关联。
从数据可用性上看,大数据的价值主要体现在传统的小数据和结构化数据上。当前人类的数据约75%是非结构化数据,大记录的表现形式就是非结构化数据,而大记录、非结构化数据要体现出价值,当前主要的处理方法还是把它们转化为有严整结构的数据,即传统的小数据。[16]源自记录的非结构化大数据只有转换为能够测量的结构化小数据才有数据治理意义。对于治安防控来说,多数情况下使用的犯罪信息仍系小数据,数据量尚达不到“太字节”(240)这一大数据量级。
从治理传统上看,东西方国家依靠复杂的文官治理系统拥有丰富的小数据治国经验。在我国历史上有商鞅提出“强国知十三数”,《孙子兵法》中“算则胜、不算则不胜,多算胜、少算则不胜”等传统。循数治理在欧美国家更是大放异彩,20世纪八九十年代,源自美国纽约的“Comp Stat”警务模式构成了将数据分析引入治安防控的标志性创举。“从20世纪九十年代起,全美有1/3的警察机构陆续复制了这种基于犯罪地图和数据的警务模式。”[17]随着地理信息系统(GIS)的大发展和桌面GIS的普及,“Comp Stat”模式的数据可视化分析水平获得跨越性提升,基于犯罪制图的地点警务成为美国21世纪的主流防控模式。“Comp Stat”模式及地点警务主要运用的仍是911报警信息、犯罪及越轨行为时空信息、警力配置信息等小数据。
在迈入大数据时代的当口,数据治理不仅要向前看,沐浴大数据的阳光;还要向后看,重视小数据与大数据的联系,从小数据治理传统中汲取智慧、挖掘资源。在某种程度上,只有向后看,重视小数据传统,才能更好地向前看,真正把握大数据带来的历史机遇。具体来说,下述小数据治理传统对防控创新甚为重要:
第一,基于相关性的犯罪风险评估。
因过于专注因果关系,在传统的“现象—原因—对策”犯罪学研究模式中,注重犯罪与各因素相关性的犯罪风险理论几乎无立足之地。如何科学评估不同区域、不同犯罪类型、不同罪犯群体、不同时空层级的犯罪风险,离不开始于小数据时代的相关性分析。“在日常生活中,我们习惯性地用因果关系来考虑事情,所以会认为因果关系浅显易寻,但事实却并非如此。因果关系被完全证实的可能性几乎没有。不像因果关系,证明相关关系的实验耗资少,费时也少。与之相比,分析相关关系,我们既有数学方法,也有统计学方法。”[18]在此意义上,“相关比因果更重要”[19]。实际上,只要能将特定因素予以数据化,就可运用统计分析方法和数学模型测算犯罪数量与特定因素的相关关系。这种相关性分析揭示出哪些因素的犯罪吸引力更大、哪些因素的增减与犯罪的增减关系紧密,因而构成研判犯罪风险的主要思路。
第二,基于数理逻辑和科学实验的犯罪量化分析。
自小数据时代,量化分析就备受重视。对于各类防控举措受何种因素影响、是否有效、在多大程度上有效等问题,只有量化分析才能找到答案。如针对地点警务的有效性问题,美国学者威斯伯德(2010年斯德哥尔摩犯罪学奖获得者)研究团队联合警察部门设计实验组(实验区)和对照组(不实施地点警务的毗邻对照区)开展实验性研究,将地点警务实施效果在实验组和对照组中对比分析,从而发现犯罪溢出效应和犯罪转移效应两种犯罪分布规律。[20]数理逻辑和科学实验构成了数据治理的基础性量化方案,以往常见的描述性统计不过是量化分析的“皮毛”。基于个人经验的防控方案或创新理念,必须被数据实证所检验,而不是仅在价值或主观上“认为应该是对的”,数理逻辑和科学实验完全能超越基于个人经历的智慧。这种量化分析对创新社会治安防控体系,尤其是各地开展防控创新实验具有特别的启示价值。
第三,基于地理信息系统的犯罪数据可视化分析。
“数据可视化技术是利用计算机图形学和图像处理技术,将数据转换成图形或图像在屏幕上显示出来,并进行交互处理的理论、方法和技术。”[21]在治安防控领域,数据可视化的典范就是犯罪制图。正所谓“一图胜千言”,利用地理信息系统对违法犯罪时空信息及相关警务问题进行空间分析的犯罪制图在欧美国家开展的如火如荼;随着我国“金盾工程”二期的建设,警用地理信息系统平台(PGIS)投入使用。
这种寓数于图的犯罪时空数据分析方式不仅能直观展示特定犯罪的空间分布状况,探测犯罪热点,诠释犯罪与空间环境诸因素的相关性,前瞻犯罪在未来的空间分布趋势,还能为防控资源的优化配置(如调整警察巡逻的频度和密度、防卫空间策略如何设计等)提供针对性方案。
数据治理最终要为决策服务,前述量化分析、相关性分析及可视化分析构成数据决策的基础。耶鲁大学法学院丹尼尔•埃斯蒂教授指出,“数据驱动的决策方法,政府将更有效率、更加开放、更加负责,引导政府前进的将是‘基于实证的事实’。”[22]对治安防控决策来说,经验和智慧不能代替科学,直觉和习惯不能取代事实;各种犯罪专项治理和日常治理的科学开展更离不开犯罪数据的精准支持。如基于犯罪制图探测犯罪热点,针对热点布置高清摄像头和警务室,针对热点路段安排警察定时巡逻等。如在特大型犯罪团伙的侦破中,将已知信息输入社会网络分析软件,破解团伙中众多成员的真实关系,寻找集团首脑和关键性主犯。
“大数据是指那些大小已经超出了传统意义上的尺度,一般的软件工具难以捕捉、存储、管理和分析的数据。”[23]大数据包括自然环境数据、商务过程数据、人的行为数据、物理实体的数据,还可分为结构化、半结构化、非结构化数据。从数据产生上看,传统的小数据源于测量,现代的大数据源于记录;不同于小数据的结构化数据,大数据更多的是非结构化数据。摩尔定律奠定了大数据的物理基础,社交媒体使每个人都变成潜在的数据生成器,数据挖掘技术增强了人类使用数据的能力,大数据时代就是大计算的时代,大数据时代标志着计算型社会的兴起。[24]“大数据的出现为危机或风险信息的全面掌握提供了充分的可能。通过收集、处理海量的数据信息,能提升危机决策者的认知与判断能力,并以过去根本不可能的方式做出决策。”[25]大数据对治安防控创新形成了强大的推动力,为数据治理遭受的困境提供解决思路。
第一,大数据浪潮催生计算型社会的兴起,为数据文化在治安防控中生根发芽提供契机,防控创新的文化基础逐渐形成。
大数据的出现使各种社会问题变得可以被计算,数据治国、循数管理、数据决策的呼声日益高涨且深入人心。如果说之前数据文化对治安防控的影响还是涓涓细流滋润人心的话,那么大数据浪潮下的数据文化俨然成为震耳欲聋的时代强音。以往凭借经验、直觉、传统知识进行防控决策的做法愈发受到质疑,凭借数据治理改进治安防控、实施平安建设开始受重视。数据治理逐渐成为决策者、执行者在进行治安防控管理中无法忽视的“前理解”。
第二,大数据技术为犯罪数据库的准备和共享提供支持,防控创新的数据基础日臻完善。
运用大数据技术分析犯罪问题首先要加强数据库建设,没有数据库就无从开展数据分析。数据库建设不仅要在各部门局域网中实现既有数据的结构化整理及数据集建设,更要打通“数据孤岛”实现各部门犯罪防控基础数据的对接和共享,外接各类行政管理数据库,并在互联网及物联网层面有效延伸和覆盖(即与超级数据对接),从而实现全方位、实时性、系统化、多角度、互动式的数据抓取。
第三,大数据技术为犯罪数据分析提供了工业化控制模式,治安防控决策支持系统的技术基础逐渐成熟。
犯罪数据分析是数据治理的关键环节,也是当前治安防控信息化建设中的瓶颈所在。对此,大数据技术提供了两种不同层次的工业化技术路线。其一,将犯罪大数据与防控者的先验知识相结合,人工建模分析数据。如以空间滞后模型分析犯罪空间分布规律,以时间序列模型分析犯罪时间规律等。此种模式的优点是数据分析的目的性和针对性强,分析思路可检验、分析过程可复制;缺点是因数学模型的选择不同,可能导致分析结果不一致。其二,设计人工智能系统,用大量数据对计算机智能系统进行喂养和训练,使计算机获得从数据中自动提取知识的能力,从而实现机器学习。“机器学习主要研究如何使用计算机模拟和实现人类获取知识过程,创新、重构已有的知识,提升自身处理问题的能力。机器学习的最终目的是从数据中获取知识,实现人工智能。”[26]此种模式代表了未来智能型社会的发展方向,通过不断调试的参数及不断优化的设计方案,计算机智能分析犯罪数据将极大提升犯罪分析的计算能力、扩展犯罪分析的应用范围。当前,美国很多警察局使用的警务自动简报生成系统就是机器学习在治安防控中的初级应用。实际上,上述两种技术路线均是通过标准化的数学模型挖掘犯罪与其他因素之间的相关关系,揭示隐藏于纷繁芜杂表象下的犯罪规律,为防控决策提供隐性知识和预测方案。上述技术路线与推崇智能制造的“工业4.0”有异曲同工之处,即基于海量犯罪数据,输入拟解决的问题,依靠标准化的智能制造程序,获得相关结论。因此,在本质上,大数据分析是一种工业化的犯罪分析及决策支持模式。
第四,大数据的兴起并不意味着“理论的终结”,大数据技术要求不断提升治安防控的理论基础。
《连线》杂志主编克里斯•安德森指出:数据爆炸使得科学的研究方法都落伍了。大量的数据从某种程度上意味着“理论的终结”,用一系列的因果关系来验证各种猜想的传统研究范式已不实用,如今它已被无需理论指导的相关性研究所取代。[27]这种观点反映了当前对数据过于迷信的心态。实际上,大数据只能告知与治安防控有关的信息和提供参考答案,但如何解释及正确使用信息离不开犯罪分析师。相反,随着犯罪大数据的刺激和冲击,如何梳理、解读、分析、反思大数据对治安防控的影响,如何将数据治理理论、数据挖掘技术和数学建模方法引入犯罪学,如何量化犯罪现象以揭示犯罪规律等问题,均要求治安防控理论推陈出新。
总之,在小数据传统与大数据技术的滋养下,以数据治理创新社会治安防控体系适逢其会。预测未来最好的办法就是创造未来,当前迫切期待通过数据治理的实验性项目做出更多的探索。