马国洋：论刑事诉讼中人工智能证据的审查重大疑难复杂案件资深大律师网

马国洋：论刑事诉讼中人工智能证据的审查

信息来源:证据理论研思文章编辑:majiali 发布时间:2021-12-06 15:36:30

人工智能证据是基于人工智能分析形成的可用于证明案件事实的机器意见。作为一种新型的科学证据，人工智能证据是由机器而非人类作出的实质判断，其审查内容主要包括相关性和可靠性两个方面。相关性由技术相关性、数据相关性和结论相关性三个层面构成，对相关性进行审查时应遵循 “适当” 标准。可靠性同样包括三个层面，分别是技术可靠性、数据可靠性和结论可解释性。其中，对技术可靠性的审查应重点关注错误率；对数据可靠性的审查应着眼于数据收集阶段的可靠性和数据标注阶段的可靠性；对结论可解释性的审查应判断人类能否理解和解释具有黑箱性和复杂性的人工智能所作出的结论。为有效构建人工智能证据的审查体系，应明确人工智能证据证据种类 “两步走” 策略，创建人工智能证据审查规则和方法，完善人工智能证据质证机制。

人工智能的不断发展正在对各行各业产生颠覆性影响。目前，我国行政法规和规章关于人工智能的规定已经涉及金融、交通、体育、文化等14个领域。在证据科学领域，这种影响的一个重要表现就是人工智能证据的出现。例如，在岳某诈骗案中，法院认为：“岳某提供杨某（吴某薇）的照片，侦查机关通过人脸识别技术，比对出与照片相似度95％的耿某，且耿某出庭作证证实其为照片上的女子，但不认识岳某且怀疑自己被偷拍。”这一表述说明了面部识别系统结论已经开始被法官所接受。

对于人工智能证据的出现，理论界与实务界似乎并没有做好相应的准备。一方面，我国尚未确立人工智能证据的审查规则，并且法官在实践中也并未对其进行重点审查；另一方面，现有研究对人工智能证据的认识和定位尚不统一，且并未提出针对性的证据审查方案，理论供给不足。有鉴于此，为了正确认识并科学地审查人工智能证据，本文试图对刑事诉讼中人工智能证据的审查标准进行深入分析，并以此为基础，构建科学的审查体系。

人工智能证据的基本问题

（一）人工智能证据的技术基础是机器学习技术

1956年，约翰·麦卡锡首次在达特茅斯会议上提出了人工智能的定义：使一部机器的反应方式像一个人在行动时所依据的智能。自此揭开了以模拟人的思维能力和智能行为为目标的人工智能技术的发展序幕。在此后的60多年间，人工智能技术有了长足的发展。纵观人工智能发展历程，可将其大致分为逻辑推理、知识工程和机器学习三个基本阶段。

20世纪50年代至70年代是人工智能的早期发展阶段，该阶段人们普遍认为人工智能实现的关键在于自动逻辑推理，即赋予机器逻辑推理能力，而实现该目标的技术主要是符号逻辑计算。然而，过度强调求解方法而忽略具体知识的做法使该模式很难真正实现。因此，以知识工程为核心技术的专家系统在 20世纪70至90年代成为人工智能研究的主流。专家系统强调针对具体问题的专业领域特点建立相应的专家知识库，并利用这些知识完成推理和决策。但专家系统主要依赖于将大量专业领域知识以及人类常识表示成计算机能识别利用的知识，这通常是较为困难和耗时的。并且这一方式可应用的领域十分有限，无法推广到规模更大知识更复杂的领域。为化解这一困境，自20世纪90年代中期以来，机器学习逐渐取代专家系统，成为人工智能研究的主流，人工智能开始步入机器学习时代。近年来，随着大数据技术的不断发展以及深度学习算法的出现，以机器学习为核心的人工智能技术取得了突破性发展。

机器学习是指机器通过大量的数据进行 “训练”，并从它观察到的模式中推断出规则，进而利用规则对未来数据或无法观测的数据进行预测的过程。机器学习可用于执行大量任务，最常见的包括分类、缺少输入的分类、回归、转录、机器翻译、结构化输出、异常检测、合成和采样、缺失值的插补和去噪等。

目前，该技术已经广泛应用于社会各个场景之中，具体包括：通过理解查询语言，帮助搜索人实现智能搜索；通过智能垃圾邮件过滤系统，帮助收件人排除垃圾邮件；通过面部识别，帮助警方发现犯罪嫌疑人；通过语音文字转录，帮助书记员完成庭审记录；通过智能图像分析，帮助放射学家在Ｘ光片中发现肿瘤等。

根据训练数据是否被标记，机器学习可以分为监督学习、无监督学习、强化学习和进化学习等。其中，监督学习提供了一个包含目标（正确回答）样本组成的训练集，并且以此训练集为基础，对算法进行泛化，直到对所有可能的输出都给出正确答案。无监督学习则没有提供正确回答，而是由算法对输入之间的相似性进行鉴别，并使有共同点的输入被归类为同一类。强化学习介于监督学习和无监督学习之间，可以在算法不正确时被告知，但无法提出改进建议。进化学习主要是将生物学的进化看成一个学习的过程，并通过计算机对这一过程进行探索。

一般而言，机器学习主要包括六个步骤：（1）数据搜集；（2）特征选择；（3）算法选择；（4）参数和模型选择；（5）训练；（6）评估。简而言之，机器学习的过程可以描述为机器从训练数据中推导出一定规则，然后不断测试改进性能，最后由程序员对其精度进行评估，当精度达到一定要求时，其便可以在现实世界中使用。以最为常见的监督学习为例，程序员将一组张三的照片（数据集）输入机器，并将这些照片与机器进行关联。机器通过分析这些照片，自行建立有关张三外貌的规则，进而对新图像进行识别。而程序员需要不断将新的照片输入到机器中，以测试机器建立规则的可靠性，直到达到其满意的精度。

（二）人工智能证据是一种新型的科学证据

人工智能证据是基于人工智能分析形成的可用于证明案件事实的机器意见。人工智能证据是一种科学证据，理由在于，科学证据是指 “存在于法律事务过程中的，具有科学技术含量、能够证明案件事实或者证据事实的各种信息。”人工智能证据显然满足这一要求，其所依赖的人工智能技术作为第四次科技革命的核心，已经成为一门极其富有挑战性的科学。该技术涉及计算机科学、神经科学、心理学、认知学、哲学和语言学等各种自然学科和社会学科，由计算机视觉、语音工程、自然语言处理等各种领域组成。

人工智能证据是一种新型证据，其与传统科学证据和电子证据之间均存在一定区别。一方面，人工智能证据与传统科学证据的区别在于机器决定性。传统科学证据最典型的存在方式就是专家证据、鉴定意见或专家辅助人意见。这类证据的特点是，专家依据相关程序，运用科学原理或方法（特殊技能或经验），对争议中的专门性问题进行检验、分析或鉴定后得出意见。尽管在检验、分析或鉴定的过程中，专家需要借助仪器的帮助，但这一过程是由专家主导的，最终也是由人类专家作出意见。而人工智能证据的得出基本不需要专家的参与，即人工智能证据是由机器算法给出的实质判断，不同于以往专家借助仪器设备作出判断。从另一个角度讲，对于传统科学证据形成过程中所使用的原理和方法，专家均可以控制并加以解释。但人工智能证据则有所不同，其在某种程度上已经超越了人类可以理解和认知的范围。人工智能已经可以在一定程度上突破人类的限制，使机器具有 “不断改进其性能，而无需人类精确地解释如何完成相应的任务”的能力。

另一方面，人工智能证据与电子证据的区别在于机器生成性。2016年最高人民法院、最高人民检察院、公安部印发《关于办理刑事案件收集提取和审查判断电子数据若干问题的规定》第1条规定：“电子数据是案件发生过程中形成的，以数字化形式存储、处理、传输的，能够证明案件事实的数据。” 电子证据的证明样态是 “除人为地伪造、变造，电子证据呈现出的往往是案件事实中的原始形态。”换言之，电子邮件、网上聊天记录等电子证据不需要进行加工，可以直接将信息直接传递给事实认定者。而人工智能证据则有所不同，机器需要对原始信息进行检验、鉴别和推论等 “二次开发” 活动，进而生成机器意见。

另外需要指出的是，由于现代人工智能技术与大数据技术的紧密结合，因此，本文所称人工智能证据与大数据证据有很大相似性。之所以采用人工智能证据这一说法，是因为大数据证据除了将 “通过对海量数据进行筛选、汇总、提炼，进而通过算法形成的结论”作为证据使用的情况外，还包括 “直接将大数据以等量复制的数据副本形式”作为证据使用的情况，在这一情况之下，大数据证据更接近于电子证据。故而，采用大数据证据的概念容易导致 “既承认大数据证据不同于电子证据和人工智能证据，又认为大数据证据包括电子证据和人工智能证据”的困境。而法官在审查大数据证据时，需要对证据是电子证据还是人工智能证据进行二次区分，这无疑增加了证据审查的复杂性。事实上，对于大数据的数据副本等，与电子证据存在形式相近的大数据证据，完全可以依据电子证据审查规则和方法进行审查，这部分内容无法体现此类证据的特殊性。而大数据证据的独特性就在于其通过机器分析得出结论的部分，即本文所言的人工智能证据，对该类证据的审查需要构建新的审查体系。

（三）人工智能证据的主要审查内容是相关性和可靠性

作为一种科学证据，人工智能证据证据能力和证明力的审查内容也遵循科学证据的一般要求和规律。具体而言，科学证据的证据能力审查一般受三个属性的影响：相关性（关联性）、可靠性（真实性）和合法性。例如，《最高人民法院关于适用〈中华人民共和国刑事诉讼法〉的解释》第98条关于鉴定意见证据能力的规定便主要围绕这三个属性所展开。故而，在证据能力问题上，人工智能证据同样应经受此检验。但由于人工智能证据的合法性审查涉及大数据侦查等相关活动的程序建构，而现阶段尚未形成相应的规则，因此，本文将人工智能证据的证据能力标准主要界定为相关性和可靠性两个方面。相较于证据能力，证明力审查主要是事实认定者自由心证的产物。因此，法律一般不设计严格的证据证明力审查标准。当然，从影响因素上看，事实认定者对于科学证据证明力的审查也受到相关性、可靠性和合法性的影响。但相对而言，合法性对证明力的影响较为有限。故而，人工智能证据证明力的主要审查内容同样是证据的相关性和可靠性。

需要进一步指出的是，在具体审查中，人工智能证据在证据能力审查环节需审查的相关性和可靠性与证明力审查环节需审查的相关性和可靠性并无太大差异，只是证据能力的审查主要解决 “有无”的问题，而证明力的审查主要解决程度的问题。换言之，在相关性问题上，人工智能证据的证据能力和证明力都考察的是证据与待证要件事实之间的关联，当证据与待证要件事实没有关联时，其就不具有相关性，也当然不具有证据能力；当证据具有了证据能力，我们再考虑证据与待证要件事实的关联程度， “当证据的真实性、合法性没有异议时，证明力就是证据与待证要件事实的关联程度，即相关性的大小”。在可靠性问题上，由于科学证据的特殊性，法官在对人工智能证据的证据能力进行审查时，不仅应依据辨认鉴真规则的要求，还应该对人工智能证据起到 “守门人” 的作用，确保其依赖可靠的基础。换言之，原本应在证明力审查环节考察的可靠性内容，被前置到证据能力问题上加以审查，在证明力审查环节，具体的审查内容也并没有太大差异。综上，人工智能证据主要的证据能力与证明力的审查内容实际上具有一致性，可以进一步转化为对相关性和可靠性的审查。

相关性是指证据与待证要件事实之间具有证明关系，有助于法官审查判断事实发生之可能性的属性，是证据的根本属性。对于人工智能证据等科学证据相关性的判断，我国尚未规定较为明确的判断方法。从现有研究看，该问题最为经典的规则便是美国《联邦证据规则》第702条的规定：“如果科学、技术或者其他专业知识将有助于事实裁判者理解证据或确定争议事实，凭其知识、技能、经验、训练或教育够格为专家的证人可以用意见或其他方式作证。” 该规则确立了以辅助性为主的科学证据相关性标准，这一相关性标准通常被表述为 “适当”标准，该标准要求提供科学证据的一方必须准确地表述该证据与待证要件事实之间的关系。对于人工智能证据而言，其相关性的判断同样需要评估证据是否有助于事实认定者解决实质性的争议问题。

可靠性是指一项证据或一个证据来源可被相信的程度，是证据的基本属性之一。相较于一般专家证言或鉴定意见，人工智能证据可靠性的判别难度要更高，需要判别的内容也更为复杂。这主要是由于，一方面，人类对于自身证言的可信性判断更为熟悉；另一方面，宣誓、质证等程序可以在很大程度上对人类证言的可信性加以审查判断。但对于人工智能证据而言，人类暂时还未完全掌握机器的运作方式，并且无法对机器进行直接质证，因此，其可靠性判断的错误风险将会更高，法庭势必需要投入更多的时间和精力对其可靠性进行审查。

人工智能证据的相关性

人工智能证据的相关性由技术相关性、数据相关性和结论相关性三个层面构成。

（一）人工智能证据的技术相关性

技术相关性是指人工智能证据所使用的技术与待证要件事实之间的相关性，即人工智能技术是否有助于解决争议要件事实。如前文所述，现阶段的人工智能技术已经融入各个领域，而不同的领域也需要不同的技术和算法。故而，针对特定领域的技术可能不适用于其他领域，也就无法帮助认定待证要件事实。例如，在确认被告人是否出现在某地时，面部识别系统、语音识别系统以及智能轨迹分析系统均可以就该问题予以证明，但文字识别系统可能就无法发挥作用。如果争议的问题转变为模糊文字识别，那么文字识别系统便可能具有相关性，而面部识别系统、语音识别系统以及智能轨迹分析系统便不再具有相关性。需要注意的是，一项人工智能技术可能提供的信息不仅仅限于其主要作用的领域。以面部识别系统为例，其可能提供的信息既包括人的相貌特征等与面部直接相关的信息，还包括可能反映人的位置等间接相关的信息。因此，在判断人工智能证据的技术相关性时，应充分分析相关技术可能提供的信息内容，只要该技术可能对于待证要件事实起到证明作用，就应认定其具有技术相关性。理由在于：一方面，相关性的审查虽然十分重要，但其标准往往不高。例如，美国《联邦证据规则》第401条对于证据相关性的判断，仅要求有该证据比没有该证据可以使待证要件事实更可能或更不可能，这种最低程度的相关性要求的目的在于让事实认定者更多地接触证据，从而促进理性决策。另一方面，技术相关性的审查仅仅是人工智能证据相关性审查的一道门槛，被审查证据能否提供相关信息，还要接受数据相关性以及结论相关性的审查，这足可以将不相关证据排除在外。故而，不宜对人工智能证据的技术相关性设置过高的限制。

（二）人工智能证据的数据相关性

数据相关性是指人工智能技术所依赖的数据与待证要件事实之间的相关性。以机器学习技术为核心的人工智能一般需要大量的数据，以从中抽取特征值来进行不同预测任务，从而获取到与真实值近似或相同的值。换言之，人们希望通过给定的训练集让计算机自动寻找相应的函数。因此，训练数据以及相应的数据标注将直接影响人工智能最终的分析结论。在不同领域和问题上，人工智能往往需要通过不同的数据加以训练。以人工智能辅助事实认定为例，在事实认定环节，一方面，法官需要根据证据规则对证据进行审查；另一方面，法官需要依靠自身的逻辑和一般经验形成 “概括” 以连接证据性事实、推断性事实和要件事实。人工智能技术若想要实现前者，需要用法律大数据进行训练，因为证据规则主要来源于《刑事诉讼法》等相关的法律法规；若欲实现后者，则应不限制数据来源的范围，因为 “概括” 的形成来源于一般人的社会 “知识库”。因此，在事实认定环节，至少需要两个不同的训练集才能保证人工智能辅助事实认定的有效性。

若未针对性使用相关的训练集，则最终得出的结论很可能与预期目标的关联较小，甚至不具有相关性。对于人工智能证据而言同样如此，如果未使用恰当的数据集，那么整个数据集与案件的待证要件事实之间便可能不具有关联性，进而这一人工智能证据也就不具有相关性。例如，若某面部识别系统的训练数据全部来源于男性案例，而争议事实主要围绕若出现一女性犯罪嫌疑人，那么该面部识别系统便很难帮助事实认定者准确认定事实，该证据也就因数据问题而不具有相关性。当然，很多情况下，数据集当中的数据可能并不都具有相关性，换言之，在审查数据相关性时可能会出现一些数据具有相关性，而一些数据不具有相关性的情况。对于该问题，同样可以遵循在技术相关性判断时所依据的最低程度的相关性标准，即只要有部分数据具有相关性，就应认定该人工智能证据具有数据相关性。

（三）人工智能证据的结论相关性

结论相关性是指人工智能最终得出的结论与待证要件事实之间的相关性，相较于技术相关性和数据相关性，结论相关性是人工智能证据相关性审查的重难点。关于结论相关性的审查方式主要有两种不同的观点。一种观点认为，人工智能结论与其他证据在相关性问题上的判断差异并不大，可以依据已有相关性规则进行判断。另一种观点则认为，由于人类经验与 “机器经验”的差异，人工智能分析的部分结论已超过人类经验范围，因此应探索基于 “机器经验”或 “数据经验” 的新型相关性规则。本文赞成第一种观点，事实上，第二种观点混淆了人工智能证据的相关性与可靠性。以图像识别系统为例，如果一张关于行凶者的模糊照片被机器判定为该照片上的行凶者就是张三，那么在判断该证据是否具有相关性时，应审查这一结论与待证要件事实（行凶者是张三）之间的关系。显然，该结论与待证要件事实之间的相关性分析，与传统科学证据的相关性分析并无实质差异，仅仅是作出结论的主体有所不同。至于图像识别系统基于何种经验产生的这一结论，则是之前的一个环节，即模糊照片与人工智能结论之间的关系，其并不直接影响人工智能证据相关性的判断，只可能因人类经验与 “机器经验” 的差异而影响该证据的可靠性判断。

因此，人工智能证据结论相关性的判断依然应使用 “适当” 标准。其主要包括两项要求：第一，人工智能所形成的结论与待证要件事实有关。例如，在一起故意杀人案中，某智能分析系统经过分析，发现被告人患有某种难以发现的皮肤病。这一结论虽然与被告人患有皮肤病这一事实相关，但却与该故意杀人案的待证要件事实无关，其无法帮助事实认定者对待证要件事实进行判断。因此，该人工智能证据并不具有相关性。第二，人工智能所形成的结论对于待证要件事实而言是有效结论。换言之，人工智能结论应确实可以在对待证要件事实的证明过程中发挥证明效果。例如，某人工智能系统经过分析，认为阴雨天将更容易导致目击证人作出非理性判断。但如果有确实的证据表明争议发生当日为晴天，那么该人工智能结论便不会辅助事实认定者判断目击证人是否可能作出非理性判断，而这一证据也便不再具有相关性。再如，某人工智能分析系统认为食用某种食物将在10日内提升某种疾病的发生率，但有确切证据表明，被害人发病时间是食用该种食物10日之后，那么该分析结论同样无法辅助事实认定者进行判断，该例子中的人工智能证据同样不具有相关性。以上两例子中的人工智能分析结论可能十分准确，但由于已无法达到特定的证明效果，因此便丧失了相关性。从这一意义上讲，人工智能证据不能因为与案情有关就逃避 “适当”标准的审查。

人工智能证据的可靠性

人工智能证据的可靠性同样涉及三个不同的层面，分别是技术可靠性、数据可靠性和结论可解释性。

（一）人工智能证据的技术可靠性

人工智能证据的技术可靠性主要是指人工智能证据所使用的理论、技术和方法的可靠性。对于人工智能证据而言，很多技术错误难以避免。以源代码为例，有关研究表明，“在源代码包含的所有表达式中，几乎1％是错误的”。为避免因此导致的证据可靠性问题，对技术可靠性的审查十分重要。在技术可靠性的审查标准上，我国现有规则主要集中于科学证据可靠性的外部因素，而较少涉及内部因素。由于人工智能证据的形成并不需要鉴定人或鉴定机构的参与，因此现有规则无法有效适应人工智能证据可靠性的审查。而较为有借鉴意义的是美国多伯特案所确立的四项审查规则：（1）理论或技术是否能够或已经被检验；（2）理论或技术是否经过同行评审发表；（3）是否存在错误率；（4）理论或技术是否在该领域或科学界得到普遍接受。以此为基础，人工智能证据技术可靠性的审查也可以从以上四个方面展开。

首先，人工智能技术是否可以被检验。可检验性是科学方法的基本要求，一般而言，科学方法意味着在一个可检验的假设中构造一个关于事物如何运行的想法，然后再检验该假设是否为真。而这种可检验性实际上也是一种可证伪性，如波普尔所说：“对一种理论任何的真正的检验，都是企图否证它或驳倒它。可检验性就是可证伪性：但是可检验性有程度上的不同。”从证据审查的角度上讲，法官对于人工智能技术可检验性的判断难度并不高，基于机器学习等技术所产生的结果完全可以实现证伪。例如，2018年，宁波 “行人非机动车闯红灯抓拍系统”误将公交车身上的广告头像识别为闯红灯的行人并进行了播报，这一事件便可以有效地检验该项技术是否存在问题。

其次，人工智能技术能否经过同行评议。这一标准也很容易在人工智能技术问题上进行审查判断。如前文所述，人工智能技术已经成为当下学术研究的热点，笔者在知网上以 “人工智能”为主题进行检索，相关文章数量已接近二十万篇，这证明了该技术是否经过同行评议易于被考察。

再次，人工智能技术是否被普遍接受。这一标准同样容易被审查，法官只需要考察相关技术在实践中的应用程度，就可以对该问题进行判断。目前一些相对成熟的人工智能技术已经受到了广泛欢迎，并在实践中大量应用，如面部识别技术、语音识别技术、无人驾驶技术、犯罪预测技术等。而还未成熟的方法则使用率不高，如智能同声传译技术等。

最后，人工智能技术是否存在错误率。错误率是指模型输出错误结果的样本比率，以机器学习为核心的人工智能技术通常包括两个重要的错误率，一是测试集测试结果的错误率，这是研究人员评估系统性能的重要方式；二是人工智能技术运用到真实案例中的错误率。在技术可靠性审查过程中，人工智能技术两个错误率的准确性将是法官判断的最大障碍。一方面，对于正确和错误的评价有时可能存在困难。例如，对于一个只做到 “信”而未做到 “达” 和 “雅” 的机器翻译，很难直接对其正确与否进行判断。即使是将其评价为部分正确，正确的程度也很难被准确衡量，而正确与否的评价，也很可能因不同的程序员或不同情况而有所差别。例如，美国危害风险评估工具对于假阴性的重视程度远远高于假阳性，这并非是设计策略，而是基于社会政策的选择。另一方面，当人工智能并未针对被告人的独有特征进行分类时，机器的总体错误率可能掩盖更高的错误率。例如，人工智能技术可以通过照片对人的性取向进行识别，但正确率（错误率）在判断不同性别时却存在差异。其根据五张照片判断男性性取向的正确率为91％，而判断女性性取向的正确率仅为83％。值得注意的是，一些算法并未对这种差异进行有效划分。例如，最新的面部识别系统的准确率已经达到97.35％，但这一识别系统并未考虑种族和性别问题。这就导致了无从确认该面部识别系统的高准确率是否适用于所有人员

（二）人工智能证据的数据可靠性

人工智能证据的数据可靠性是指人工智能证据所依赖的数据的准确性和真实性。如前文所述，数据是人工智能的基础，即使人工智能技术已经足够完善，如果没有准确的数据，人工智能证据的可靠性也就无法得到保障。就人工智能证据而言，其数据可靠性问题将主要发生在数据收集和数据标注两个阶段。

１．数据收集阶段的可靠性问题

在数据收集阶段，数据的来源和收集方式均可能影响人工智能证据的可靠性。从数据来源角度看，充足的数据样本量至关重要。一般而言，数据样本量是否充足主要是由机器学习算法训练数据对于给定的任务而言是否足够大决定的。换言之，根据任务的复杂程度，机器学习算法所需要的数据量也有所不同，越复杂的任务往往需要越多的数据。例如，人工智能击败国际象棋世界冠军比击败围棋世界冠军的时间要早二十年，这是因为国际象棋平均每回合约有35种可能，而围棋却约有250种可能。

除了数据的来源，数据的收集方式同样可以影响人工智能证据的可靠性。具体而言，数据应该是 “干净”的，即没有重大错误或缺漏。从数据收集方式的角度看，影响人工智能证据可靠性的因素主要有以下两个方面：

第一，输入数据自身可能带有某种偏见，即因输入数据偏离标准而导致的 “偏见进，偏见出”。一般而言，造成数据偏见的原因可能包括数据选择不当、数据完整度不足、选择性偏见和历史性偏见的无意扩大等。事实上，这种因数据问题导致的偏见在已有实践中并不罕见。例如在卢米斯案中，COMPAS风险评估工具的数据偏见性就受到了挑战，在面对专家证人对于该州使用风险评估工具的质疑时，法院无法保证COMPAS使用的数据是无偏见的：“法院不知道COMPAS到底如何将被告个人的历史与基础人群进行比较。法院甚至不知道对比人群是不是威斯康星州人、纽约人、加利福尼亚人。”而在审查人工智能证据可靠性时，这样的问题同样可能存在。例如，人工智能证据所依托的数据来源男女比例如何？其所分析的数据范围是在一个市、一个省还是一个国家？此类问题可能会因控辩双方立场不同而有不同的解释方式。

第二，数据本身的质量可能存在问题。如果数据的真实性本身就存在疑问，那么基于这样的数据所获取的人工智能证据的可靠性也势必存在问题。就我国而言，官方数据一般被认为是更具有权威且更真实的数据，但一些官方数据的真实性同样存在疑问。一方面，官方数据呈现出双轨制。以司法系统官方数据为例，外界所能掌握的信息是用以证明法律决策正确而按照一定标准制造出来的信息，其可能无法充分、真实地反映法院、法官在决策时所真正采用的 “实质信息”。另一方面，一些官方部门存在数据造假的情况。例如，2017年，辽宁省省长陈求发指出：“辽宁省所辖市、县财政普遍存在数据造假行为，且呈现持续时间长，涉及面广、手段多样等特点。虚增金额和比例从2011年至2014年，呈逐年上升趋势。”除此之外，内蒙古自治区、天津市等地也曾有官方数据造假的报道。

随着大数据时代的到来，官方数据真实性的问题可能会被进一步加剧。当前，建立大数据共享机制和共享平台，打破不同权力机关所形成的数据岛屿之间的割裂和封闭，同时建立起和众多社会公共部门、私营部门之间的数据连接机制已经成为智慧治理的重要要求。而实践中的数据合作也在逐渐加强。例如，北京、天津、河北、山西、内蒙古、辽宁、山东七省区市于2010年签署的《环首都七省区市区域警务合作机制框架协议》中就决定共同搭建高度共享的情报信息资源交流平台，随时通报预警信息、实现警务信息资源共享。但这种广泛的数据合作也提升了错误数据修改的难度，快速的数据流转将导致即使更正了一个数据库中的错误，如果这个数据库的初始错误被复制到另一个数据库中，那么这一初始错误仍可能被进一步延续。而这种风险并未引起足够的重视，正如有学者指出的那样：“今天，政府的时代精神是数据库扩展，而不是质量控制和问责，其并不关心数据错误和数据对个人带来的负面影响。

２．数据标注阶段的可靠性问题

数据标注是将未处理的初级数据进行加工处理，并转化为机器可识别信息的过程。数据标注的实质是由 “原始数据” 向 “训练数据” 转化，目前实践中主要采取的方式是自动标注与人工标注相结合的方式。在自动驾驶、智能医疗、智能安全等领域，数据标注技术已经得到了广泛的应用。目前，对数据标注可靠性的判断主要应考察以下内容：（1）数据标注任务专业化程度。当前数据标注行业的精细化程度不足，无法满足不同行业的需求。例如，现阶段法律领域的自然语言处理技术发展明显较为滞后，导致文书挖掘技术中自动抽取信息的精准性较低。而人工标注则需要极强的专业性，例如 “证据能力” “证明力” “采信” “采纳” 等用词，并非一般人基于常识就可以进行标注，这就可能引发数据标注的困境。因此，数据标注任务专业性程度越高，标注的可靠性程度往往就越低。（2）数据标注人员素质。目前的数据标注工作受标注人员影响较大，很多工作都需要通过人力完成。而不同人对待标注的不同态度可能会影响数据标注的准确性，进而导致人工智能证据可靠性的下降；（3）数据标注平台所采取的运营模式。数据标注平台常见的运营模式包括众包模式和外包模式，其中又以众包模式为主流。众包模式是指企业将创新或研发等核心价值的重任委托给外部大众处理，给予平台支持，让大众提出创意或解决问题。众包模式可以较为迅速地完成大量简单的任务，但其缺点也很明显，即数据标注质量无法得到有效保证，特别是目前数据标注平台的监管还不太严格，更加容易降低标注的合格率。相较于众包模式，将标注任务分配给外包公司的外包模式的数据标注质量要相对较高，但是由于该模式成本较高，因此并没有成为数据标注平台的主流运营模式。

（三）人工智能证据的结论可解释性

人工智能证据的结论可解释性是指可以对人工智能所产生的结论进行理解和解释。如前文所述，人工智能证据不同于一般的科学证据，其最终的结论判断由机器完成，这就可能引发人类对该结论的理解困境。造成这种困境的原因主要有两个方面：

一是人工智能算法的黑箱性。“在人工智能系统输入的数据和其输出的结果之间，存在着人们无法洞悉的 ‘隐层’，这就是算法 ‘黑箱’”。“黑箱” 掩盖了算法对于数据的利用，用户无从得知算法的目的和意图，无法掌握算法推演的相关逻辑，不可能获悉算法学习规则的相关信息，更谈不上对其进行评判和监督。例如，对于面部识别系统而言，其识别人物的依据既可能是双眼距离、眉毛长度等脸部特征，亦有可能是照片拍摄时的环境。而如果是后者，势必会引发人类的怀疑：一旦环境改变，人工智能算法可能将无法正确识别出人物。更为严峻的是，一些研发人员也因黑箱性的存在而无法了解人工智能算法结论的依据和原理。以前文所谈到的性取向识别系统为例，即使是研发人员也无法解释机器如何得出不同人性取向的差异。其提出了依据面部特征、衣服特征甚至是照片明暗度等各种猜测。因此，黑箱性导致人们根本无法了解，算法究竟是基于何种原因得出的结论，这些原因既有可能是人类较为熟悉且可以接受的，也有可能是人类无法接受的，还有可能是人类无法观察到的。

二是人工智能算法的复杂性。很多时候，即使算法试图向人类解释其作出决策的依据，人类也很可能无法理解。有关研究显示，人工智能往往能够开发出全新的观察方式，而这些方式对人类来说可能无法理解。造成这种理解困境的关键是，机器相关性的思维方式与人类因果性的思维方式存在一定程度的冲突。具体而言，人工智能系统的运作始于基础的数据模型，通过编码形成算法程序，对源源不断的新数据进行分析，其 “并不会将已经学到的内容存储在整齐的数字存储模块中，而是以一种极难解读的方式将信息散乱地存放着”。这些编码程序等内容专业性极强，突破了传统的线性逻辑思维，以神经网络的方式实现对物的认知和判断，这就使得对人工智能结论进行解释的难度骤然增加。如哥伦比亚大学的机器人学家霍德·利普森（Hod Lipson）所说，计算机在向我们解释事物上存在很大的困难，在某种程度上，这就像是向一只狗解释莎士比亚。可以说，复杂性是较黑箱性更为深入的问题，其意味着人类现有思维无法掌握人工智能到底在做什么。

因黑箱性和复杂性引发的人类对于人工智能结论的理解困境，将导致人工智能证据可靠性受到一定的影响。换言之，对于人工智能证据而言，即使其数据准确，技术完美，也有可能因人类无法理解基于 “机器经验”产生的结论而导致可靠性减损。一个医疗领域的案例可以佐证这点。在评估肺炎患者是否存在致命风险时，人工智能技术的准确性是最高的。但很多医生依然不敢依靠人工智能技术产生的结论，因为他们认为该技术无法解释作出决策的原因。反之，对于人工智能证据的合理解释将有效提升该证据的可靠性。据有关研究显示，人们会对更好理解的模型产生更多的信任，即使这种理解没有意义。从这一角度上讲，技术和数据的可靠性不足可以称为人工智能证据 “绝对的可靠性不足”，而可解释性问题则可以称为人工智能证据 “相对的可靠性不足”。即便如此，在人类无法解释人工智能结论时，其也不应具有可靠性。换言之，在人工智能结论难以被理解时，人工智能证据的出示方应基于人工智能结论，提出一种符合人类思维的解释，否则该证据就不具有可靠性。

人工智能证据审查体系的构建

根据 “证据之镜” 原理，证据是连接过去和现实的唯一桥梁，越多的证据进入法庭，越有利于提升事实认定的准确性。因此，允许人工智能证据进入法庭，较为符合证据法鼓励采纳证据的基本精神。此外，据有关研究显示，人工智能结论的准确性整体上要高于一般人类，这进一步提升了人工智能证据进入法庭的正当性。但由于此类证据的风险较高，故而合理的规制是发挥其作用的前提。

（一）明确人工智能证据证据种类 “两步走”策略

我国《刑事诉讼法》第50条第2款规定了八个种类的刑事证据，这一规定不仅构成了我国证据准入的第一道门槛，同时，证据的审查也主要以这一分类方式为基础展开的。然而，人工智能证据的审查方式与现有法定证据种类的审查方式均存在一定差异。以与人工智能证据有一定相似性的鉴定意见和电子证据为例，一方面，鉴定意见的审查规则不适用于人工智能证据。《最高人民法院关于适用〈中华人民共和国刑事诉讼法〉的解释》第97至99条规定了鉴定意见的审查内容，包括鉴定人是否存在应当回避的情形，检材的来源、取得、保管等规则均不适合人工智能证据。而人工智能证据的数据可靠性与结论可解释性等内容也无法依照相关标准进行检验。另一方面，电子证据的审查规则同样不适用于人工智能证据。《最高人民法院关于适用〈中华人民共和国刑事诉讼法〉的解释》第110条规定了电子证据可靠性（真实性）审查的五项内容，其中第一项是储存电子数据媒介的可靠性，这一般是指物理介质的可靠性，其与人工智能证据的技术可靠性在范围上存在一定差异；第二、三项所涉及的电子数据的可靠性是指以数据化形式储存的数据，该数据的含义与人工智能证据中训练数据的定义也全然不同；第四项所涉及的电子数据内容的可靠性，主要是考察电子证据所包含的信息是否真实，是否经过修改，而较少涉及可解释性，这也与人工智能证据的结论可解释性有一定差异。此外，现有规则也并未规定电子证据相关性的审查方法。因此，依靠目前电子证据的审查方法，同样无法有效审查人工智能证据。

综上，人工智能证据的审查方式具有独特性，为了更加准确地审查人工智能证据，应确立人工智能证据证据种类 “两步走”策略。

第一阶段，应将人工智能证据确立为独立的证据种类。由于我国以证据种类为第一道门槛的证据审查方式在短时间内无法彻底改变。因此，只有将人工智能证据确立为独立的证据种类，才可以保障对人工智能证据的有效审查。从实践角度出发，如果不对人工智能证据证据种类进行明确，将可能导致三种误区：第一是随意排除人工智能证据，这既不符合证据法鼓励采纳证据的精神，也不利于准确的事实认定。第二是对人工智能证据不加以审查便直接进行认定。如前文所述，人工智能证据的相关性和可靠性均较为复杂，如果不加以审查便进行认定则意味着法官未发挥科学证据 “守门人” 的作用，这将提升错误事实认定的风险。第三是参照其他规则对人工智能证据加以审查。由于人工智能证据与其他证据的审查方式有一定差异，参照其他证据的审查标准进行审查可能会造成 “应予审查的内容未进行审查，而不应审查的内容却加以审查” 的困境。基于以上三种可能的误区，应尽快将人工智能证据确立为独立的证据种类。

第二阶段，应逐渐放弃以证据种类为证据审查第一道门槛的做法。尽管以证据种类为第一道门槛的证据审查方式曾经在我国发挥过积极作用，但从证据法基本理论出发，这一方式颇具有 “法定证据主义”的色彩，在实践中有较大弊端。具体而言，这一规则使司法实践中存在大量游离于法定证据种类之外的证据，这便造成了封闭的证据种类规定与开放的证据种类实践之间的矛盾。在这一矛盾之下，法官若允许非法定证据种类证据进入法庭，则法律将形同虚设，不利于维护法律之权威，也可能导致法官权力膨胀；若法官不允许非法定证据种类进入法庭，则很多具有证明价值的证据将被排除在法庭之外，这不利于准确的事实认定。因此，各方需要将关注点从证据本身转移到各诉讼主体运用证据证明案件事实的行为之上。放弃以证据种类审查证据的方式，符合证据法的基本精神。而对于人工智能证据的审查，也不应再将焦点集中于证据种类的问题之上，而是应从相关性和可靠性着手。

（二）创建人工智能证据审查规则和方法

对于人工智能证据的审查应该根据不同的内容设计不同的规则和方法，而并非简单地将其作为一个整体看待，具体而言：

第一，根据人工智能证据相关性和可靠性的不同层次设计不同的审查方法，并以此为基础，制定证据能力规则，以及提供证明力评价指导。具体而言，在相关性问题上，对于人工智能证据技术和数据的相关性，应分别审查其是否有助于待证要件事实的认定；对于结论的相关性，在审查结论与待证要件事实关联的同时，还要注意审查结论对于待证要件事实证明的有效性。在可靠性问题上，对于人工智能证据的技术层面，应审查所运用的技术是否可以被检验；是否经过同行评议；是否被普遍接受以及错误率的准确性。对于人工智能证据的数据层面，应审查数据来源是否充分和真实，是否存在偏见；数据标注是否准确。对于人工智能证据的可解释性层面，应审查人工智能证据的结论是否可以用人类因果性思维理解和解释，或人工智能证据出示方提出的解释是否具有合理性。

第二，明确人工智能证据审查的顺序。首当其冲应审查人工智能证据的相关性。相较于可靠性，相关性的审查难度相对较小，且符合传统证据审查的顺序。具体来讲，根据人工智能证据的形成顺序以及审查难易程度，应依照技术相关性、数据相关性和结论相关性的顺序进行审查。

在确认人工智能证据具有相关性后，应审查其可靠性。在人工智能证据可靠性的审查顺序上，首先，应审查其技术可靠性。技术可靠性是人工智能证据可靠性的基础，也是该证据得以成立的前提，审查起来也有传统科学证据审查的经验加以参考；之后，应审查人工智能证据的数据可靠性。数据可靠性是人工智能证据 “绝对的可靠性” 的另一个判断因素，审查难度也低于可解释性；最后，应审查人工智能证据的可解释性，作为一个 “相对的可靠性”问题，人工智能证据可解释问题的危险性相对更小，但由于 “可解释的人工智能”领域研究尚处于起步阶段，该问题在人工智能证据可靠性审查中的难度最大。

第三，充分发挥专家诉讼参与人在人工智能证据审查中的作用。尽管人工智能证据与鉴定意见等证据具有本质区别，但人工智能证据的审查仍然需要专家的参与。换言之，专家的有效参与对于人工智能证据各个环节的审查具有重要意义。其一，在人工智能证据相关性审查阶段，专家可以就人工智能证据与待证要件事实之间的关系是否符合 “适当”标准进行分析，并给出是否具有相关性的建议。其二，在人工智能证据技术可靠性审查阶段，一方面，专家可以就技术是否可以被检验、是否经过同行评议、是否被普遍接受等内容给出意见。例如，专家可以对人工智能技术的源代码进行检验，以判断其所使用的代码是否符合行业标准。这一方法目前已经在域外机器证据可靠性检验的问题上加以使用。在关于丰田凯美瑞意外加速问题的诉讼中，一位软件专家审查了新泽西州使用的酒精呼吸机alcotest7110的源代码，发现该代码无法通过软件开发和测试的行业标准。而这一方法在人工智能证据的审查中也可能发挥同样的作用。另一方面，专家还可以对证据出示一方给出的错误率是否准确进行检验。例如，专家可以在机器中输入不同的假设和参数，进而验证既有的错误率是否准确。以前文所提到的面部识别系统为例，如果证据出示方只公布了单一的错误率而未公布针对性别、人种等分类的错误率，那么专家就可以对此进行检验，进而确认与案件事实相关的真正错误率。其三，在人工智能证据数据可靠性审查阶段，专家可以对数据的均衡度、公平性和代表性进行判断，分析所运用数据偏见的可能以及数据自身的质量。除此以外，专家还可以对数据标注进行检验，例如数据标注质检员就是对数据标注进行检验的人员。其四，在人工智能证据结论可解释性审查阶段，专家既可以对人工智能证据结论进行符合人类认知的解释，也可以就人工智能证据出示方提出的解释进行反驳，以避免法官遭受误导。如前文所述，目前， “可解释的人工智能” 已经成为新兴的研究领域，其目标是使机器以我们能够理解的方式解释它们所学的东西，即尝试机器的世界与人类的世界相匹配。而欧盟发布的《可信赖人工智能道德准则》（Ethics Guidelines for Trustworthy AI）草案，将可解释性原则作为人工智能五项伦理原则之一，该草案指出：“技术透明度意味着人工智能系统可以被人类在不同的理解和专业水平上审计和理解……可解释性是与人工智能系统交互的个体获得知情同意的先决条件。”“可解释的人工智能正试图解决这一问题，以便更好地理解其潜在机制并找到解决方案。其不仅要向开发者或用户解释人工智能的行为，而且要简单地部署可靠的人工智能系统。” 基于此，专家将在人工智能证据的可解释性问题上发挥重要作用。

（三）完善人工智能证据质证机制

对于人工智能证据而言，质证的复杂性要高于一般证据。理由在于，人工智能证据的本质是 “意见证据”，但相较于人类专家的意见，人工智能证据不仅更加复杂，而且不能像人类专家一样被直接质询。换言之，对于人工智能证据的质证，只能通过对相关人员的质证加以实现，这显然对质证的质量提出了更高的要求。为此，应从证据开示、证人出庭等多个环节入手，实现对人工智能证据的有效质证。

第一，应注重人工智能证据的证据开示。由于人工智能技术的黑箱性以及复杂性，普通人甚至是专家都可能无法在短时间内对其进行透彻的了解，这就需要通过有效的证据开示保证对方有足够的时间对人工智能证据进行分析。在证据开示环节中，人工智能证据出示方需要提供的信息包括：人工智能证据所依赖的理论和技术，例如有关的训练方法、算法的错误率等信息；相关数据来源和数据标注方式，例如数据收集使用的方式，数据选择的方式（是否应用了任何采纳或排除标准）等；算法结论和有关解释。

第二，应注重人工智能证据庭审的直接言词化。如前文所述，由于无法对机器直接进行质询，因此需要相关人员出庭保障证据审查的有效性。这些人员既包括人工智能证据生成的参与人员，如算法工程师、数据标注师等；也包括对人工智能证据进行检验的鉴定人、专家辅助人等。对于有关人员的质证应包括三个方面，一是就人工智能证据的相关性进行质证；二是就人工智能证据的可靠性进行质证；三是就有关人员的可信性进行质证。例如，若数据标注师曾多次进行错误标注，那么其可信性便存在一定问题，对方便可据此质疑该数据标注师的证言。

第三，应有效协调人工智能证据审查与商业秘密保护之间的关系。为了有效审查人工智能证据，一些时候，需要对人工智能证据的源代码和数据等信息进行检查。但很多情况下，此类信息是开发者所拥有的商业秘密，因此，人工智能证据审查与商业秘密保护之间存在着一定程度的紧张关系。而科技公司往往更加注重人工智能领域商业秘密的保护，这主要是由于该领域尚处于起步阶段，不同公司之间的地位尚未完全固化，优质的技术将在竞争中取得较大优势。除此之外，对于国家着力发展的领域，过度公开源代码等信息将在一定程度上打击技术创新的积极性，不利于社会发展。故而，法院应谨慎权衡证据审查与商业秘密保护之间的关系。具体措施包括：其一，注重商业秘密的判断，对可能涉及商业秘密的信息采取更加谨慎的态度；其二，坚持利益权衡原则，对人工智能证据的证明力和商业秘密的价值之间的关系进行分析，并以此决定人工智能证据的开示和出示方式；其三，对人工智能证据的开示与出示采取适当限制措施，在审查人工智能证据的同时，避免商业秘密的泄露。例如，依照《最高人民法院关于适用〈中华人民共和国刑事诉讼法〉的解释》的规定将案件转为不公开审理，或者对相关证据的法庭调查不公开进行等。

余论

整体而言，人工智能证据进入法庭对于更加准确的事实认定具有积极意义。但是，如果不能正确认识其审查方法，将引发事实认定活动的主体性危机，即由机器统治法庭的风险。考虑到我国法官对科学证据极高的信赖程度，这一问题的研究将更加具有现实意义。据学者统计，作为对证据进行把关的法院，对控方提交的DNA证据的采信率高达 99.65％。然而，DNA证据的准确性却并非如此之高，在遗传学家迈克尔·科布尔（Michael Coble）所进行的DNA检测实验中，竟有71％的实验室都出现了错误。因此，对DNA证据的宽松审查将有可能导致冤假错案的发生。不仅是DNA证据，任何科学证据的准确性都可能存在疑问。根据美国 “无辜者项目”2019年更新的数据显示，在通过DNA检测被证明无辜的350多起冤案中，有近一半的冤案（45％）竟然是由 “法庭科学的不当使用”造成的，这无疑要求法官应更加审慎地对待科学证据。目前，我国司法人工智能的实践正在不断深入，人工智能被广泛应用于裁判辅助、证据审查等工作。在这一背景之下，如果不对人工智能证据的审查标准有所认知，那么法官很可能会重蹈DNA证据审查的覆辙，这势必不利于保护当事人的权利。为此，应明确人工智能证据所存在的风险，理清人工智能证据审查的各项内容，保证法官在事实认定过程中发挥应有的作用。

注：本文转载目的在于传递更多信息，并不代表本网赞同其观点和对其真实性负责。如有侵权行为，请联系我们，我们会及时删除。