算法公平性的伦理问题

本文探讨了在刑事司法系统中对预测风险评估的伦理辩论,着重分析了使用机器学习预测犯罪行为的方式,讨论了预测与诊断的差异,以及如何通过因果推断更有效地理解和应对犯罪。文章指出,当前的伦理争议往往误导了我们,使我们忽视了犯罪干预和治疗的真正目标。

一旦应用于刑事司法系统的风险评估,我们是否在自欺欺人地走上了错误的轨道?

本文质疑关于刑事司法系统中的预测风险评估的伦理辩论的当前努力。在这个背景中,伦理辩论目前围绕如何通过机器学习以伦理方式进行犯罪行为预测展开,例如,如何在保持准确性的同时减少偏见。这远不能根本性地质疑我们希望将ML算法用于什么目的;我们是否应该使用它们来预测犯罪行为,或者更应该去诊断它,干预它,更重要的是,更好地理解它?每种方法都有不同的风险评估方式;预测使用回归,而诊断使用因果推断[ 2]。我认为,如果刑事司法系统的目的是对待犯罪而不是预测犯罪,并监控其自身干预对犯罪的影响——无论是增加还是减少犯罪——那么将我们的伦理辩论集中在预测上,就是在自欺欺人地走上了错误的轨道。让我们看看当前的情况。

https://www.technologyreview.com/s/607955/inspecting-algorithms-for-bias/

预测

算法公平性

在关于“伦理”犯罪行为预测的问题上,算法公平性这一领域最近发表了很多观点。算法公平性的倡导者们识别出许多统计驱动的方法如机器学习如何重复现有的个体偏见和制度化偏见[ 3]。一些人关注减少设计过程中的偏见,另一些人关注在结果中减少偏见。总体来说,他们强调预测平等作为一项明确的目标;也就是说,我们使用的系统不仅应该同样准确,而且在所有测试组(例如不同的种族群体或性别)中也要具有类似的准确率[ 4]。可悲的是,Kleinberg等人[ [5](http://Jon Kleinberg, Sendhil Mullainathan, and Manish Raghavan. 2017. Inherent Trade-Offs in the Fair Determination of Risk Scores. In Proceedings of the 8th Innovations in Theoretical Computer Science Conference (ITCS ’17).)]证明没有机制能够实现最优准确性最优预测平等,因此在两者之间需要权衡。其他人则提出了公平性的替代概念。然而,公平性概念往往不仅不同,而且相互矛盾。这一点在Berk等人的研究中得到了体现[ 6],他们识别出六种公平性,进而展示这些概念不仅与准确性存在冲突,还相互冲突。

在公平面前准确性的不可实现性是一个问题吗? 如果我们将算法的增值框定为预测准确性,那么确实是问题。然而,在刑事司法系统中,这难道是其增值所在,还是在于它们可以有效支持法官做出更好的释放决定,以及在何种条件下释放(即,刑事司法系统如何干预个体的生活以减轻特定、相关的风险)?在第一种情况下,我们承诺将算法作为预测工具效用进行衡量,而在第二种情况下则作为诊断工具

预测工具通常基于回归分析。回归使研究人员能够识别与感兴趣结果预测相关的变量,而不必一定理解该因素为何显著[ 7]。例如,考虑到犯罪再犯风险较高,回归分析会识别与之相关的变量,如反社会行为或犯罪历史。然而,它不会提供关于为什么这种关联会发生的任何见解。此外,它将这一“风险”视为世界上的一个统计事实,是静态的。面对某人因反社会行为而预计的统计高风险,回归分析只能建议我们应避免对付这一“既定”风险;即释放罪犯它预测犯罪循环,以便首先抵达那里,赶超时间,以及玩弄犯罪自身的游戏,而不是去对付它。 相反,诊断工具将风险呈现为一种动态现象,可以通过干预来减轻。下一段将对此做更好的解释。

https://medium.com/@gamesetmax/person-of-interest-chicagos-predictive-policing-how-does-it-work-f3ec382fa3b1

干预

因果推断

当我们谈论使用统计工具进行诊断时,我们指的是因果推断。通过因果推断,我们可以假设并检验协变量与感兴趣的结果变量之间的因果关系[ 8]。在这里,某人再犯犯罪的风险被框定为一种结果,可以测试不同协变量——例如反社会行为、失业等——的因果重要性。在这里,“风险”呈现为一种动态现象,是可以通过干预其引发因素来改变的。那么,这为何重要呢? 我认为有两个主要原因。首先,因为司法系统有兴趣学习如何对待犯罪。其次,因为我们也有兴趣监测刑事司法系统自身对犯罪的影响。因果推断如何保证这一点?

关于“对待犯罪”,它有两种方式。一方面,它允许我们隔离和测试其潜在原因和治疗方法。在因果推断中,因果关系是通过随机分配个人或群体,称为单位,进行干预或治疗来推断的[ 9]。这在医学领域尤其常见。每个接受治疗的单位可能会实现一个感兴趣的结果,而没有接受治疗的单位可能会实现一个替代结果,也被称为反事实。将单位随机分配到“治疗”和“无治疗”组并比较施加后的潜在结果,可以获得所选干预的因果效果测量[ 10]。单位的随机分配确保协变量——潜在的混杂因素——的“平衡”,从而将施加的治疗隔离为因果驱动因素(或不是)。例如,考虑两个随机分配的囚犯组,其中一组接受行为疗法而另一组不接受,可以评估行为疗法作为对犯罪或暴力行为干预的效果。尽管这些试验在医学领域已经得到很好的确立,但刑事系统往往因伦理原因拒绝这一可能性[ 11]。

另一方面,我们还能够测量施加的干预的时机和持续时间的影响,这是回归方法严重缺乏的优势,而如果我们希望有效地干预犯罪,这一点非常关键[ 12]。例如,研究表明,行为疗法的开始时机不仅对被告的监狱行为有影响,还有对再犯风险,[ 13]。因果推断框架可以建议何时最好开始实施行为疗法作为干预。

关于检查刑事司法系统自身对犯罪可能影响,因果推断可以让我们将未受干预影响的协变量受干预影响的中介结果分开[ 14]。这对于估计刑事司法系统干预对犯罪本身的影响是重要的。例如,反社会行为通常未被发现是再犯的驱动因素。相反,反社会行为通常被观察到与加强执法有关,因此它是刑事司法系统干预努力减少犯罪的中介结果,而不是单独的协变量。

结论

总体而言,事情并非如此简单。通常,进行此类研究的努力受到伦理问题的阻碍——这一考虑在医疗领域却奇怪地并未阻碍研究的进行。此外,在实验条件下测试我们的假设并不总是可能的[ 15],尤其是在测试犯罪潜在驱动因素时。然而,替代方法和策略往往通过将相似方法应用于观察数据来被使用[ 16]。尽管存在限制,了解什么推动犯罪作为结构性问题而非统计事实的潜在益处见解至少值得更多关注。

  • 原文链接: medium.com/ai-for-people...
  • 登链社区 AI 助手,为大家转译优秀英文文章,如有翻译不通的地方,还请包涵~
点赞 0
收藏 0
分享
本文参与登链社区写作激励计划 ,好文好收益,欢迎正在阅读的你也加入。

0 条评论

请先 登录 后评论
martaziosi95
martaziosi95
江湖只有他的大名,没有他的介绍。