[新闻]更懂你想看什么的Netflix 如何用数据解构

楼主: octobird (遗憾)   2014-01-13 13:28:49
新闻网址:
http://www.pingwest.com/how-netflix-reverse-engineered-hollywood/
更懂你想看什么的 Netflix,如何用数据解构好莱坞影片?
书上 1 周前 发布在 前沿


为了弄懂订户的观剧喜好,在线影片提供商 Netflix 创造至少 7 万种影片“微类型”(
micro-genres),来细分已有的影片内容。然后,再通过元素的重组,为下一步新的影视
内容摄制提供参考。
Netflix 面对庞大的好莱坞影视业,它又要以怎么样个性化分类,来满足旗下的 4000 万
订阅用户的需求?
Netflix 切入点很细,这些“微类型”对应特定的观众区间。有时分类甚至让人觉得很特
殊、很荒谬。比如情感斗争类的纪录片、基于现实生活的古装剧、20 世纪 80 年代的外
国魔鬼故事……
根据大西洋月刊的记者粗略统计,Netflix 至少把影片分成 76897 种“微类型”。这打
破了原本对于影片类型粗放式的分类方法。Netflix 能由此分析出最受欢迎的影片类型、
以及最受欢迎的演员与导演等。
除了 Netflix 的员工以外,没有人了解 Netflix 是如何细致分类的。他们要面对好莱坞
那般空前的数据储存,而记者所统计的数量的类型只是冰山一角。
Netflix 内部把这种分类过程称之为“altgenres ”,它由 Netflix 副总裁 Todd
Yellin 构想发明,这是一项特殊的解构电影的过程,整个系统复杂精确。Netflix 首先
要雇佣一群人,让他们阅读一份长达 36 页的培训文档,训练他们如何对影片的性暗示内
容、暴力程度、浪漫桥段、甚至情节等等元素,作出精确地评级细分。
他们捕捉了数万种不同的电影属性,甚至是人物的道德派别。这些标记内容,与千万级用
户的观影习惯相配对,便成了 Netflix 的竞争优势。Netflix 的主要目标,是为了获得
并留住订阅用户。通过这种微类型,对应不同的观影受众,正好是他们战略的一部分。
在 2012 年的时候,Netflix 就在其官方博客中提到,“了解用户喜欢的“微类型”的内
容,就能用高收视的类型取代低收视的部分,以赢得竞争力。”只要,Netflix 更了解用
户,用户就越容易黏在它的平台上。
过去的几年中,Netflix 建立了属于自己的用户偏好数据库。这个数据库,虽然不能告诉
导演编剧影视剧要怎么拍,但他能告诉这些人,影视剧中需要什么样的元素。比如他们拍
摄纸牌屋的时候,就该知道哪些元素需要有的放矢。
Netflix 通常是这样对影视内容进行分类的,比如:
独立情感的体育电影
20 世纪 30 年代、间谍和冒险类点电影
中国浪漫主义黑帮片
黑色悬疑科幻恐怖电影
广受好评、主角情感受挫的电影……
这种细分方法可以概括成:首先是国家,其次是类型片大类,比如是西部片还是恐怖片。
其次是影片的创作来源,基于现实生活、古典文学还是虚构内容。然后影片设定的时代,
比如 20 世纪 80 年代。观影级别,比如 16 周岁以上观看等。还有一些比较特殊的通用
分类,比如女英雄主义,激进的浪漫主义等,当然还有导演与演员的个人风格。
这些繁复又有规则的分类方法,又组成了这样一种公式:
影片类型 = 地区 + 主题 + 形容词元素 + 类型片类型 + 演员特性 + 创作来源 + 时间
+ 故事情节 + 内容 + 得奖情况 + 适宜观看人群等等。
但这并不意味着所有的微类型,都能在线找到对应的影片。而这些细致分类代表所有的排
列组合的可能性,而不止是代表观众在特定时间场合看到的影片。
Netflix 自有的片库不能涵盖到所有微类型的影片,但它的价值在于,如果市场需要的话
,Netflix 可以根据这些标签,去拍摄这种类型的片子。
假如把以上过程,可以看做是 Netflix 把影视内容转码成数据过程。而对数据最简单的
处理,就是做个统计排行榜。
基于 Netflix 分析,订户最喜欢的主题是结婚。


订户最喜欢的形容词元素是浪漫的。


订户最受欢迎的电影所处时代是 20 世纪 80 年代。


订户喜欢的电影场景设定在欧洲。


Netflix 副总裁 Todd Yellin,与另外两位工程师通过数月的努力,制定了以上被称为“
Netflix 量子理论”的东西。Yellin 本人像一位混迹于科技公司、不安分的制片人,它
需要为影片生产所有流程精心算计,就像纸牌屋中 Frank Underwood 的智囊 Doug
Stamper 那样。
Yellin 告诉大西洋月刊的记者,他们分析出的内容,只是他们终端的产品形态。而在
Netflix 数据库内部,数据分类捕捉会更加繁复。他说道:“我们要把影片内容给撕裂”

通过这些分类标签,Netflix 不仅能给他的订户推荐影片,甚至告诉他们你喜欢的类型究
竟是什么。基于 Netflix 算法,它甚至提前帮用户预估,他们看完影片,会给影片打几
分。
这家公司还拿出 100 万美元悬赏,奖励给能提高这种预估评分算法准确度的技术团队。
经过几年时间的改进,准确度仅仅提升了 10%。尽管该奖金在 2009 年开始设立,但
Netflix 并没有把它纳入新模式,而只是一种工作需要。他们认为,比起感性的得分,更
个性化风格的微类型细分,才是观众真正要的。
标记的微类型判断用户喜欢什么还不是全部,这些数据还能用来分析,什么类型影片哪些
演员来出演,会更受欢迎。Netflix 还希望算法基于数据,能在合适的时间,给特定的观
影对象,推送合适的内容。
作者: paulluopaull (ppoo)   2014-01-13 17:53:00
这就是专业科学化分析 台湾各行各业都缺乏这样的思维
作者: stevey (韩狗人死一死)   2014-01-13 21:53:00
嘘一楼 Data mining早就应用在许多地方了 做的好不好是一回
作者: stevey (韩狗人死一死)   2014-01-13 21:54:00
事 但是不要自己没有就把全台湾人都拖下水

Links booklink

Contact Us: admin [ a t ] ucptt.com