求是日报

全世界都在呼吁“算法透明化”

2018-01-18 14:37 来源:网络  作者:求是新闻
   次浏览
全世界都在呼吁算法透明化 过去一两年,全球的传媒观察者、研究者都在盯着一个词:算法(algorithm)。 什么是算法?简单粗暴地理解,算法就是一套规则,由机器去执行。比如,你在微博信息流中看到的内容,并不是按照时间顺序排列的,那么是依据什么排列的?算法


全世界都在呼吁“算法透明化”


    过去一两年,全球的传媒观察者、研究者都在盯着一个词:算法(algorithm)。

  什么是算法?简单粗暴地理解,算法就是一套规则,由机器去执行。比如,你在微博信息流中看到的内容,并不是按照时间顺序排列的,那么是依据什么排列的?算法。算法可以规定,你和一个人互动越频繁,就能越多地看到ta发的微博;算法还可以规定,短视频内容会被优先展示给粉丝;等等。

  再比如,你在今日头条刷出来的新闻,并不是人工编辑帮你挑选排序的,而是机器自动完成的,那么机器选择新闻的依据是什么?算法。算法可以规定,如果你喜欢足球,就多给你看足球相关新闻;算法还可以规定,如果你身在北京,就多给你推北京本地新闻;等等。

  同样,淘宝向你推荐的商品,网易云音乐给你列出的每日推荐歌曲,豆瓣猜你喜欢的电影,滴滴给你分配的司机,高德地图给你推荐的路线,也都是依靠算法完成的。背后的具体规则多种多样,但它们都有一个名字,那就是算法。

  我们的生活正越来越多地被算法决定:读新闻、看电影、吃饭、打车……几乎每一种日常行为,都受到算法的影响。《人类简史》《未来简史》的作者尤瓦尔·赫拉利甚至预测:未来,跟谁谈恋爱和结婚也会由算法来决定。刚刚推出的《黑镜》第四季已经在第四集中将这种设想写进了剧本。

caeabdf3209ed2497d0491771b542078.jpg

黑镜第四季第四集

  无处不在的算法,实际上已经成了当今社会上的一种重要的权力(power)。它能在很大程度上决定我们看到什么、听到什么、了解到真实还是虚假的信息、和谁产生互动。

  我们都知道,权力需要得到监督,要被“关进笼子里”才好。可是,算法的权力,我们目前还很难监督。

  放眼全球,包括Facebook、Google在内的几乎所有互联网公司都将算法视为公司的重要机密,不愿意打开这个黑匣子,让外界了解。

  作为商业公司,互联网巨头们有种种考虑,这是可以理解的。但是许多观察者和研究者指出:既然算法已经如此深入地影响着我们的公共生活,它就不能再以“商业秘密”的形式被藏起来了,它应该得到公众的了解和监督。

  我长期跟踪全球传媒业界和学界的动向。这一两年来,我最频繁见到的词之一就是:“算法透明度”。要求互联网公司向公众公开算法的细节,提高算法的透明度,已经越来越成为共识。

  皮尤研究中心去年2月发布的一份研究报告《算法时代的利弊》显示,算法透明度是业界和学界共同关心的焦点之一。“找到一个能够实现透明化,并且评估结果的框架,将会非常关键。”报告引用受访专家的意见说。

  去年12月,在联合国教科文组织的一次会议上,电子隐私信息中心(Electronic Privacy InformationCenter, EPIC)主席Marc Rotenberg甚至提出:对算法的知情权也是人们的一种基本权利,在算法透明度和商业机密之间,需要找到一个恰当的平衡点。而ACM(国际计算机协会)的美国公共政策协会也在去年发布了算法透明度的一份原则性文件,其中提到:鼓励使用算法决策的系统和机构对算法流程和结果进行解释。

f01773c22acef6c7c294782fac9d4174.jpg

  虽然呼声越来越大,但到目前为止,还没有硅谷巨头作出实质性的响应。Facebook在接受关于俄罗斯利用社交媒体平台干预美国大选的调查之后,扎克伯格强调会提高透明度,不过只是展示在平台投放广告的商家信息,而不是对自身的算法进行公开解释。而在一次和国会议员的闭门交流中,Facebook只是语焉不详地表示自己的算法会给原创内容和多媒体内容增加权重,除此之外就没有再透露更多了。

  反倒是中国的一家互联网企业开了个头,率先进行了分享。这家企业的主要产品叫做今日头条。

  二

  1月11日,今日头条召开了一场旨在推动整个行业来问诊算法、建言算法的分享交流会,主讲人是资深算法架构师、中国科技大学计算机博士曹欢欢。

  参加交流会的,有100多位自中央电视台、新华社、人民日报技术局等媒体机构的从业者,以及来自阿里、腾讯、百度、美团、新浪、网易等科技公司的算法工程师和产品经理。

  曹欢欢博士的分享题目就叫做《让算法公开透明》,宗旨是面向行业公开算法原理,消除社会各界对算法的一些误解。

  让算法公开透明,说起来简单,做起来复杂。

  社交新闻网站Reddit的首席技术官(CTO)Christopher Slowe曾经在讨论算法的时候贴出下面这张叫做“蓝球机器”图——

01baf7761f9fa2ea91a162bfa326e015.jpg

  在这张令人眼花缭乱的动图里面,有着数不清的机关和环节,它们彼此之间又相互关联,共同左右着机器的运行。

  让算法透明之后,我们看到的不会是一个“1+2=3”一样的简洁算式,而会是上面这张动图那样的复杂,甚至是一定程度上的混乱。而且,随着技术的飞速发展和对用户需求的更精准把握,算法也总是在不停的更新之中。

  这是我们在呼吁算法公开透明的时候,应该做好的心理准备。如果说,让算法公开透明是互联网企业的责任,那么硬币的另一面就是:公众也应多学习和了解一些算法常识,这样才能更好地监督算法。

  三

  我通过今日头条的朋友,得到了这次分享的内容纪要。以下,我将我所理解的今日头条算法原理向大家做个通俗的讲解。

  要点一:今日头条在做算法推荐时,考虑了四个方面的因素。

  怎样决定把什么样的内容推给什么样的用户?比较为人熟知的是:今日头条会根据用户的兴趣来推送。它的广告词“你关心的才是头条”主打的也是这一点。

  但是,用户特征(包括年龄、性别、职业、兴趣等)和内容特征是否匹配,只是算法在推荐内容时考虑的一个方面。也就是说,算法确实会考虑一条内容和你本身的兴趣是否搭配,但这只是一个方面。

  算法还会考虑其他三个方面的因素:一是时间和使用场景,比如你是在上班路上看,在家里看,还是在旅游途中看,等等;二是热度特征,也就是现在热门的内容有哪些,这些在你第一次使用、系统还不了解你的时候(也就是所谓“冷启动”)特别有用;三是协同特征,也就是看和你相似的用户在看什么,把别人喜欢的内容推荐给你。

  这最后一点尤其重要,因为这种被称为“协同过滤”的方法,可以帮助避免“算法越推越窄”的问题。它依据的不是你之前看了什么,而是和你相似的其他人喜欢什么,这有助于帮你探索到更多的内容。

  要点二:算法会对文本进行很多分析。

  今日头条是做图文内容起家的,对文本进行分析是其基础。只有分析了文本的特征,才能得知读了这段文本的用户有何特征。

  今日头条的算法会对每一篇文本做很多层次的分析,包括分类、关键词、topic、实体词等。

  在分类方面,第一层的分类是像科技、体育、财经、娱乐,体育这样的大类,再下面细分足球、篮球、乒乓球、网球、田径、游泳……足球再细分国际足球、中国足球……中国足球又细分中甲、中超、国家队……

上一篇:全球前十大房企中国占七席   下一篇:雪乡旅游又曝丑闻,导游一天打了四名游客
热门推荐