-
熊节:算法推荐终于可关闭,中国《互联网信息服务算法推荐管理规定》开世界先河
算法推荐的技术原理
各种形式的算法推荐,包括《规定》中列举的“生成合成、个性化推送、排序精选、检索过滤、调度决策”等形式,当下主流的实现方式都是采用机器学习(machine learning),背后的原理都是基于贝叶斯统计(Bayesian statistics)方法的预测——听起来很高深,其实通过一个简单的例子很容易就能理解。
假设你丢一个以前没用过的骰子,你认为有多大概率丢出6点?当然,在没有任何额外信息的情况下,你的预测是“1/6”。然后,你连续丢了20把,每把都是6点,这时候你认为下一把继续丢出6点的概率是多大?经典概率论说,每次丢骰子都是一个独立随机事件,过去丢出的点数不影响未来丢出的点数,所以你的预测仍然应该是“1/6”。但很明显正常人不会这么想。
“这个骰子连丢了20把6点”这项信息很明显会影响对未来的决策(例如可能说明这个骰子被灌了铅),因此你会预测下一把有很大概率还是会丢出6点。简化地说,贝叶斯统计就是“基于过去已经发生过的事件预测未来将要发生的事件”。各种算法推荐都是在进行这样的预测:
知乎的个性化推送就是预测用户可能喜欢看什么问题和回答;
百度的检索过滤就是预测用户可能对哪些搜索结果感兴趣;
淘宝的排序精选就是预测用户可能购买哪些商品。
这些预测所基于的“过去已经发生过的事件”则是与用户相关的、非常宽广的数据集,不仅包含“用户看过/赞过/收藏过哪些回答”这种直接的用户行为,还包含大量用户本身的属性信息:年龄、性别、地域、教育程度、职业、上网设备、买过什么东西、发过什么言论、住多大房子、家里几口人、喜欢张信哲、反感蔡徐坤……这些信息都会被用于预测用户的偏好。
每一项类似这样的属性信息也被称为“特征”(feature),对于一个普通用户,互联网公司通常拥有数千、数万项特征信息。其中一些特征信息来自该公司本身的业务,更多的特征信息来自其他平台,三大运营商、微博、腾讯、阿里、手机制造商等企业都会SDK(软件开发包)的方式与其他互联网应用共享用户个人特征信息。
知乎与第三方共享个人信息的清单(部分)
在所有这些特征信息中,给定一项具体的预测,有些特征与这项预测的相关度较高,有些特征的相关度则较低。如果能从预测的结果回溯到哪些特征产生了重要的影响,我们就可以说这种算法“具备可被审核性”(auditable)。例如最简单、最基础的机器学习算法线性回归(linear regression),其原理就是根据过去的事件给每项特征打一个权重分数,然后根据这些权重分数预测未来的事件。从一个线性回归的预测模型中,可以直观地看到每项特征的在预测中的权重,因此线性回归是特别容易审核的一种算法。
当然,最简单、最基础的算法,也就存在预测能力不够强的问题。形象地说,只用简单的线性回归,无法把特征值里隐含的信息全都榨取出来,所以预测效果不见得特别好。于是科学家和工程师们想了很多办法来压榨特征值里的信息。一种办法叫“特征工程”(feature engineering),说白了就是从已知的特征值推导出新的特征值,例如根据用户的手机型号、购物清单给用户打上“购买力强”或者“时尚潮人”的新标签,这就是一种简单的特征工程。
另一种压榨特征值的办法是把起初的特征信息视为一“层”输入,然后用各种数学方法把输入层变换成新的信息节点,从而形成一个多层的“网络”。这个变换的过程可以重复进行,变换的层数越多,就说这个网络越“深”——这就是“深度学习”(deep learning)这个词的由来。
尽管科学家经常用“神经元”、“神经网络”来类比这些数学变换的结果,但很多时候,经过这些变换得到的信息节点几乎没有现实世界中的含义,纯粹是一种数学工具的产物。所以业界有一种说法:深度学习就像炼金术(国内也称“炼丹”),把数据丢进神经网络,不知道什么原因就炼出结果了——如果结果不理想,就再加几层神经网络。
正因为深度学习常有“炼金术”的神秘感,使用它们的工程师经常自己都不知道为什么一个算法有效。例如谷歌曾发表过一篇论文介绍他们的图像识别算法,其中使用了一个深达19层的神经网络(VGG19)。然而谷歌的照片服务(Google Photos)却多次被曝暗含种族歧视,甚至把黑人照片识别为“大猩猩”。事后谷歌根本无法找出算法中的问题出在哪里,只好删除“大猩猩”标签了事。
VGG19:深度为19层的卷积神经网络,主要用于图像识别
尽管有谷歌的前车之鉴,类似的问题仍然在各家互联网巨头的产品中反复出现。2020年,部分脸书用户在观看一段以黑人为主角的视频时收到推荐提示,询问他们是否愿意“继续观看有关灵长类动物的视频”。2018年MIT媒体实验室的研究员Joy Buolamwini发现,微软、IBM和Face++的人脸识别算法在识别黑色人种的性别的错误率要远远高于白色人种,而且肤色越黑,识别率就越低,黑人女性的识别错误率高达35%。过度依赖“炼金术”式的深度学习算法,是这些互联网巨头对算法审核态度冷淡的原因,同时也导致它们难以修正其算法中隐含的系统性歧视。
-
本文仅代表作者个人观点。
- 责任编辑: 周远方 
-
俄外长:克里米亚地位不能谈判
2022-03-02 20:19 -
“双减”半年教培机构众生相:集体亏损、跨界转型
2022-03-02 17:53 大公司 -
郭树清谈蚂蚁等整改:自查基本结束,还有一些问题需继续探索
2022-03-02 17:53 阿里帝国 -
郭树清:我国房地产泡沫化金融化势头得到根本扭转
2022-03-02 16:04 -
《士兵突击》制片人吴毅被捕,浙文影业拟起诉追偿2.64亿元
2022-03-02 15:11 -
大公司早报 | 张勇卸任海底捞CEO 华为称不会退出海外市场
2022-03-02 09:08 大公司 -
百度2021年总营收1245亿,23%花在研发上
2022-03-01 23:04 大公司 -
看到东京地标亮灯,乌克兰大使激动发推,结果尴尬了…
2022-03-01 21:31 乌克兰之殇 -
工信部发声,半年涨价300%的锂电材料要降温了?
2022-03-01 20:26 观网财经-科创 -
供应商遭遇网络攻击,丰田日本国内工厂全部停产
2022-03-01 15:06 观网财经-汽车 -
美加商家抵制伏特加,北约酒商躺枪
2022-03-01 13:43 观网财经-海外 -
紫光展锐CEO遭董事会解职,市占率已反超华为、三星
2022-03-01 11:40 观网财经-科创 -
大公司早报 | 董明珠连任格力董事长 阿里将校招数百名顶尖技术人才
2022-03-01 09:11 大公司 -
中国开始从乌克兰撤出首批公民
2022-03-01 00:35 乌克兰之殇 -
德邦物流因重大事项停牌,业绩创新低后将何去何从?
2022-02-28 19:54 大公司 -
不谈融资,先抢赛道?蔚来将在港股二次上市
2022-02-28 19:16 观网财经-汽车 -
比亚迪、一汽共建135亿元电池项目
2022-02-28 18:27 汽车工业 -
58同城因未核验商户真实信息被罚
2022-02-28 18:19 观网财经-互联网 -
俄罗斯暂时禁止外国人出售证券
2022-02-28 17:07 观网财经-海外 -
应乌克兰要求,Facebook限制部分俄官媒账户
2022-02-28 15:19 俄罗斯与世界
相关推荐 -
“指挥混乱!他突然擅自下令,特朗普都被蒙在鼓里” 评论 17后院起火?加拿大“最保守省”酝酿“独立公投” 评论 98美财长卖力为关税洗地,台下高管们只关注中国 评论 52印外长怼欧盟:这么依赖中美俄,还想战略自主… 评论 127“美国买家缺席,结果很意外!” 评论 83最新闻 Hot
-
“很明显,几乎所有美国出口都受到了打击”
-
“指挥混乱!他突然擅自下令,特朗普都被蒙在鼓里”
-
“我们国家正处于脆弱时刻,美国却在丑陋地炫耀权力”
-
涉1000亿欧元美国商品,欧盟考虑:谈不成就动手
-
后院起火?加拿大“最保守省”酝酿“独立公投”
-
日本先谈判先遇挫,特朗普政府又臭又硬、寸步不让
-
美财长卖力为关税洗地,台下高管们只关注中国
-
特朗普又开新战线,“只会鼓励各国像中国一样反制”
-
印外长怼欧盟:这么依赖中美俄,还想战略自主…
-
“美国买家缺席,结果很意外!”
-
日本想“跪”,被警告:政府将垮台
-
特朗普:最初是我“炸”了它
-
“关税将抹掉15亿美元利润”,福特撤回了一个预期
-
县长张汉坤官宣被查,公安局长落马后“消失”4个月
-
今年第三次议息,美联储“将无视特朗普,维持不变”
-
在他嘴里,加拿大都成了“靠美国养活的社会主义政权”
-