-
人工智能与媒体未来|当昔日的码农对资深媒体人发表演讲,他没说出的才可怕
关键字: 今日头条今日头条的算法新媒体革命一点资讯今日头条艾瑞咨询天天快报深入透视头条的算法
我注意到今日头条在拉勾网打出一个百万美元年薪的广告,招募算法架构师,要求擅长:贝叶斯学派相关算法,超大规模离散LR,深度神经网络,各种tree-based的算法等。其他算法工程师岗位要求大同小异。
这些在技术人士眼中并不特别,很多IT公司必备,多和概率统计学有关。比如贝叶斯算法,常用的邮件客户端上就有出现。
Foxmail截图(所以张小龙他也是很精通贝叶斯算法的)
我想尽我所能简单介绍一下这位百万年薪工程师具备的算法知识,不从数学专业角度(专业角度我也不懂),而是从用户角度思考“算法想要什么”。
算法如何阅读新闻
以招聘启事中的tree-based算法为例。为了处理信息,算法的初始诉求往往是对海量信息做分类聚合。人类眼中的词汇在它眼里都是参数(维度),一千个不同词汇组成的一篇文章就是一千个维度组成的一个向量。然后机器在代数世界里衡量不同向量的相似度——简单向量距离分类法、贝叶斯算法、KNN(K最近邻居)算法、线性回归、逻辑回归……
维度太多,于是算法进化了,不再把每个词当作维度,而是把html代码里的节点标记(DOM)作为维度,这样就大大减少了维度个数。人类看见的标题、文字、图片,被代码放在不同的DOM节点里,比如head,比如body,比如TR、TD(表示表格的代码),构成树状结构。算法以这些节点为维度,用各种算法对比不同的文档异同——k means(硬聚类)算法,minimax(极小化极大算法)……再进一步,引入图论范畴的模式树,就有了更高级的tree-based算法。
下图是个常见的html dom展示,不需要看懂,只要了解机器眼中的文章是什么样子。
算法五花八门,我说的也不准,主要看气质——算法这个孩子不知道新闻说了什么,只知道哪些新闻是同类,哪些是热点(点的人多当然就是热点,机器可以通过一种“组合”算法来判断,可以参见南京大学新闻传播学院助理研究员、奥美数据科学实验室主任王成军的文章《“今日头条”怎么计算:“网络爬虫+相似矩阵”技术运作流程》)。文章标签、关键词等也起到作。
算法匹诺曹的行为很有趣,好像在努力用各种办法躲避对内容灵魂本身的认知,只通过外貌的形式特征去猜内容的相关度。
算法如何研究读者
读者身上没有关键词,没有标签,算法如何把握?数学家们有办法,贝叶斯算法就是一种。
经典的贝叶斯问题在小学奥数里就有(美剧《生活大爆炸》里也有):假如分别有A、B两个口袋,口袋A里有7个红球和 3个白球,口袋B里有1个红球和9个白球,现从这两个口袋里任意抽出了一个球,且是红球,问这个红球是来自容器A的概率是多少?
(图片来自“机器之心”网站)
让我们换一个更具新闻性的表达方式:假如已知韩国5年发射一次卫星且每次爆炸失败率是60%,朝鲜2年发射一次卫星且每次爆炸失败率是40%。现在从朝鲜半岛传来一声卫星发射失败爆炸的巨响,请问这枚火箭来自朝鲜的概率是多少?
根据贝叶斯公式【P(B|E) = P(B) × P(E|B) / P(E))】就可以推导出这个概率来,也就是逆向计算概率。恰好头条自己提供了一个范例:
2015年10月,在中国传媒大学新媒体研究院和今日头条联合举办的“洞见数据的力量——电视媒体高峰论坛”上,一位叫做安娜的女士说:
“头条有个独特的算法能推算用户的年龄,即使你没在头条订阅。系统根据已确定年龄人群的动作、特点和兴趣做了一个模型,由协同原则判断读者是否符合这个模型,这时机器先预判是否为该年龄段的用户,同时机器再根据你的阅读动作最终确定年龄段。”
这个独特的算法可能就是贝叶斯算法(当然也许不止一种算法,比如也可能存在专门用于挖掘不同数据集合间关联性的Apriori算法等)。我猜想算法架构师会预先根据心理学、社会学统计数据以及以往读者点击数据,构建一个用概率来描述的人格特征模型,比如男性模型的特征之一是在阅读新闻时点击军事新闻的概率是40%,而女性模型是4%。一旦一个读者点击了军事新闻,算法就开始逆推TA的性别,加上TA点击其他新闻的行为数据,综合计算,就能比较准确地判断TA的性别。综合ip地址(地理信息)、点击时间、评论参与、点赞行为这些明确的信息,就能区分出不同读者的取向、兴趣。
如果我们回看商业史,就会看到这样的算法精神一直孕育在资本主义消费市场之内。欧美的商业家们早就在追踪消费者的喜好数据,沃尔玛超市里的商品就是典型,什么商品放在什么位置都是有讲究的,大卖场长期跟踪用户在商场里的行为和销售数据,入口处堆放的商品就好比新闻首页推荐的头条。一开始是通过人工记录、报表分析,有了摄像头,就可以分析录像中顾客的行动轨迹。互联网推荐技术则使得这种跟踪细化到了个人。
原理不难理解,但做起来考验智慧和耐心。同时,算法面临着自己的巨大困境:
-
本文仅代表作者个人观点。
- 请支持独立网站,转发请注明本文链接:
- 责任编辑:藏剑
-
“类人速度”新模型来了,AI进入《她》时代? 评论 39空有雄心?电力需求激增,美国“已忘记如何应对” 评论 157华春莹“翻译”耶伦涉华言论,一针见血 评论 216视频公布!中国海警位黄岩岛海域开展常态化训练 评论 204经济学家出身的他,为何被普京选为新防长? 评论 268最新闻 Hot
-
“类人速度”新模型来了,AI进入《她》时代?
-
“中国或作出重大回应”
-
“除我以外,还有其他人在她办公室走廊排长队等着行贿”
-
尴尬!美警方高官欲控制示威者,却喷自己一脸…
-
“日本婴儿一出生就该享有投票权,因为...”
-
空有雄心?电力需求激增,美国“已忘记如何应对”
-
关于上任后工作,他提到这几点
-
华春莹“翻译”耶伦涉华言论,一针见血
-
对美企妥协?“这次对华加征关税不带光伏设备”
-
“跟西方做朋友,不代表中印俄就不能是朋友”
-
“中国已超越发展中国家阶段,德企希望‘公平竞争’”
-
“拿下1/3市场”,欧洲车企又盯上中国电动客车
-
韩国外长今起访华,曾表态“中韩关系不亚于美韩同盟”
-
“普京选他当防长,对乌克兰来说非常糟糕”
-
视频公布!中国海警位黄岩岛海域开展常态化训练
-
经济学家出身的他,为何被普京选为新防长?
-