[新闻] 读册善用开源打造二手书平台 靠资料采矿

楼主: MyAll (静冈玉露)   2016-05-17 21:57:27
读册善用开源打造二手书平台 靠资料采矿推荐成功吸引百万人
http://www.ithome.com.tw/people/105845
毕业于景文科技大学资讯管理系,曾于博客来网络书店负责电子书系统开发,2011年加入
读册生活,主导IT部门,陆续开发二手书C2B2C寄仓贩售系统、智慧图书搜寻引擎及推荐
系统等
文/辜腾玉
http://static4.ithome.com.tw/sites/default/files/763cio-960.jpg
读册生活系统Web部协理 姚清馨
在7年前,网络二手书店尚未开张时,民众要买卖一本二手书需翻越重重关卡,不但缺乏
一个友善便利的销售平台,自行销售需耗费不少时间和功夫,若拿去二手书店,还得任由
书商削低价格。而对于书商来说,最难的部分在于无法掌握二手书的来源与数量。
因此,学思行数位行销早在2009年就锁定了这一片尚未被成功开拓的蓝海,打造了读册生
活(Taaze)网络书店,同时贩售新书、二手书、电子书与回头书等,至今甚至拥有超过
10万名二手书卖家。
读册生活采用C2B2C寄仓贩售的方式来经营,卖家可以透过手机刷ISBN条码,将自己的二
手书上架到读册生活网络书店中,经自行决定销售价格后,再将书本透过超商或邮递方式
寄至读册生活,后续这些二手书的仓储、销售、出货等流程便交由读册负责。
不过,初期读册生活的二手书销售表现并不理想,一方面由于初期会员数还不够多,另一
方面则是民众对二手书的购买意愿不高。
直到2012年,读册生活导入了一套自行开发的二手书书况影片自动化录影建档系统,替每
一本二手书拍摄影片,让消费者可以在网站上清楚看到二手书的实际书况,到这时候才真
正地提升读者的购买意愿,不过要做到这件事情并不容易。
读册生活系统Web部协理姚清馨表示,为了加速并提升二手书的处理流程与品质,人工仅
负责贴条码、建档与摄影过程中的翻页工作,以确保书况能完整呈现,而后续包括摄影、
影片转档、储存与上传皆由系统自动化完成。
而其中最困难的部份,就是要控制相机自动完成拍摄、转档、建档的流程。他解释,当一
本二手书被送到仓库后,会先由人工贴条码、建档,与摄影前先扫描书上的条码来确认是
哪一本书,之后便透过一套开源软件DirectX,来操控录影流程。
录影完成后,档案会自动从avi档转成mp4档案格式,再上传、储存到影音服务器中,同时
,系统也会自动进行资料整理,将影片编号注记到数据库中,整个拍摄流程只需要30秒。
民众点开该本二手书的网站页面时,系统便会自动到串流服务器中抓取对应的影片档案,
且不须下载就能及时观看。而这套串流服务器,也是采用开源软件Red5,姚清馨表示,他
们除了核心的数据库系统采用Oracle,其他延伸出去的应用软件几乎都是开源软件。
这套二手书书况影片自动化录影建档系统上线后,让二手书买卖流程更加透明,也提升民
众购买二手书的意愿。2014年时,读册生活已经累积超过7万名二手书卖家,现在更超过
10万名二手书卖家。
不仅如此,根据读册生活的统计数据,这些读册生活的二手书卖家,平均每赚到100元,
就会拿出80元于读册网络书店买书,其中的10元领出来,另外的10元则留在读册生活中,
这种以书换钱,再将钱拿去换书的模式,形成了正向的购书循环。
不过,要在短短7年内打造这样的正向购书循环并不容易,读册生活必须不断设法让有购
书意愿的消费者,到读册生活购书,甚至在买新书的同时,也多买几本二手书。
靠开源软件建推荐系统
其中一个吸引读者的作法,姚清馨表示,他们在2013推出首页个人化服务,背后采用资料
采矿技术,自行开发一套推荐系统,根据使用者的浏览习惯,来改变每个使用者的首页看
到的内容,推荐读者可能有兴趣的其他书籍。
在他们自行开发推荐系统之前,原本有一套委外的推荐系统,但后来他们发现该系统的推
荐结果不如预期,运算时间太久,且资料更新太缓慢,需要到隔一天才能将推荐书目呈现
给读者。因此2013年,他们决定自己重新开发一套更符合读者需求的推荐系统。
姚清馨表示,读册生活采用了较新的NoSQL数据库MongoDB,来储存大量资料,运算部分虽
然有现成的工具可以提供运算,但最后还是选择自行开发,选择NoSQL架构的原因,则是
能符合大量资料储存。
首先,第一步是要蒐集资料,他们在网站中的每个页面里埋下了软件传感器(Sensor),
来蒐集读者的浏览与使用习惯,以了解哪一个页面被点击、且被哪一位用户点击,另外还
能知道在每一个页面中的各个Banner被谁点击过,以及同一个档期的Banner在不同页面中
的被点击情形,甚至能更精细的知道每个连结(Link)之间,以及网站页面之间的点击关
系。
姚清馨解释,他们写一个单一程式来将传感器埋在页面中,再带不同的参数进去,来蒐集
每一个页面的讯息。目前读册生活的推荐系统,可以做到在蒐集资讯3分钟后,便于网页
呈现出推荐的书给读者。
不过,由于每位读者的单一点击动作都是一笔资料,其中每秒可能产生几千到几万笔,而
产生了大量的资料,若用原本的网页服务器来执行这些工作,会拖垮整个网站的效能。
因此,他们另外采用了一套开源软件Syslog,自己架了一台Syslog服务器来储存资料,姚
清馨解释,Syslog是一套专门开发来储存大量Log资料的开源软件,他们先将所有蒐集到
的资料储存在Syslog服务器之中,之后要进行资料分析的时候,再从Syslog服务器中,透
过程式把文字档读取出来,转换成MongoDB可读取的资料,再传送给MongoDB数据库。
他们在MongoDB数据库中,把常用的字段做成索引(Index),以进行快速搜寻。姚清馨也
说,目前Syslog服务器的资料每半年大约会累积多达2亿笔资料,因此他们设定半年删除
一次资料,来确保系统的使用效能。
依据读者的帐号来找出资料中的所有相关的纪录,先从两亿笔纪录中的有关资料,抓出最
近浏览的书籍类别,再到Oracle数据库中找出同类型的书籍,并删去已经购买的商品,此
外,也会特别从热门书单中挑选书籍,最后分析得到的资讯就会直接放到网页上面,以呈
现给读者。
姚清馨表示,读者必须要登入会员之后,才会出现个人化的首页,若读者没有登入网页,
这些网页蒐集到的浏览纪录,便只能用于进行内部资料分析,像是分析热门的书籍类型与
书种。
他也表示,希望做到将推荐结果很自然的呈现给读者,让读者能延续当下的阅读与浏览趣
味,而不会过于突兀,因为善用资料采矿最棒的地方在于,读者不会发现你正在进行资料
采矿,而干扰他们的行为。
自建程式蒐集使用者行为资料
不仅如此,为了验证资料采矿与资料分析的准确性,读册生活除了用自己写的程式来蒐集
网页行为资料外,也同步采用了Google Analytics(GA),在网页中嵌入GA提供的辨识码
,来监控每个页面的流量,并将两边蒐集到的数据结果进行比对,以验证自行开发的传感
器准确度。
姚清馨表示,最后发现Google Analytics和自行开发的程式得出的数据结果是符合的。因
此,他们便能使用自己蒐集到的数据,进一步做资料采矿与分析。他认为,大数据分析如
果缺乏可比较的基准值,运算出来的结果就很难有说服力。
他表示,Google Analytics接口化程度较高,许多公司内部的产品经理可以很快速且方便
地了解页面行为,但是Google Analytics只包含流量资讯,而他们自行开发的系统则可以
进一步分析。自己蒐集的资料可以更精致。
此外,读册生活也采用了另一项可支援全文检索的开源软件Lucene,姚清馨表示,他们目
前有一百多万本书,不可能每次都到核心数据库捞取资料,因此,他们会将资料每日做更
新整理丢到Lucene,用来存放静态资料,避免影响到核心数据库的运作。
姚清馨在2011年加入读册生活,当时读册生活的系统几乎完全委外,直到姚清馨接手后,
才一一将委外的系统收回自行开发,包括进行客制化,与更符合图书产业需求的系统。
姚清馨表示,图书产业有许多特殊的需求,委外开发的系统比较难以针对图书产业、或企
业内部的需求进行快速的调整。
除了推荐系统之外,包括网站中的搜寻引擎也是如此。原本读册生活采用的搜寻引擎是委
外系统,但是他们发现,将一般商品的搜寻引擎用于图书搜寻的效果并不理想,其搜寻结
果不够精准,系统也不够稳定。
姚清馨举例,假设读者要搜寻嘉年华会这本书,若是一般商品的搜寻系统,在断词上会将
年华切成一个词,因此搜寻结果中,会出现许多如年华少女、年华似水等相关的书目,与
读者欲搜寻的目标落差极大。
因此,读册生活在2012年决定自己重新开发一套符合图书产业需求的搜寻引擎,增加了更
多在语意、切字与断词上的筛选权重,为了提供更精准的图书搜寻服务。
姚清馨解释,除了套用现成的通用词库之外,他们也自行开发其他字词分析,依照整个字
串的逻辑,额外加上更多运算模式与处理逻辑,如新增与书名有关的断词、扩充额外词库
,并调整这些切字、断词的筛选权重,让书目的搜寻结果更加精准,即使用口语化的句子
,或是输入错别字也可以搜寻得到。
http://static4.ithome.com.tw/sites/default/files/images/763cio-400-1.jpg
读册生活系统Web部协理姚清馨表示,善用资料采矿最棒的地方在于,消费者不会发现你
正在进行资料采矿,而干扰他们的行为。
CIO小档案
读册生活系统Web部协理 姚清馨
●学历:景文科技大学资讯管理系
●经历:曾任职于威强电工业电脑,负责研发数位播放器系统,也曾于博客来网络书店
负责电子书系统开发,2011年时加入读册生活,主导整个IT部门,陆续开发二手书
C2B2C寄仓贩售系统、二手书书况影片自动化录影建档系统、智慧图书搜寻引擎、个人化
首页及推荐系统等。
公司档案
http://static4.ithome.com.tw/sites/default/files/images/763cio-400-2.jpg
学思行数位行销(读册生活Taaze)
●成立时间:2009年4月
●业务介绍:网络书店,贩售新书、回头书、杂志、文创商品、电子书;线上二手书买卖
;名人讲座及不定期实体活动
●员工人数:90人
●董事长:张天立
●总经理:郑健民
●资本额:1亿2千万元
●公司地址:台北市松山区南京东路四段56号6楼
●网址:www.taaze.tw
资讯部门档案
●资讯部门名称:系统WEB部
●直属主管:总经理郑健民
●资讯部门主管职称:协理
●资讯部门主管姓名:姚清馨
●资讯部门人数:10人
●每年IT预算:100万
IT部门大事纪:
●2001年:二手书C2B2C寄仓贩售系统上线
●2011年:中英文电子书系统开发、上线
●2012年:开发二手书书况影片自动化录影建档系统
●2012年:开发智慧型图书搜寻引擎
●2013年:开发电子商务平台串接系统,包括商品资讯更新、即时库存更新、订单交换与
物流货态资讯更新、会员推荐购买系统上线、推出个人化首页服务
●2014年:开发会员云端书柜系统
●2015年:建二手书交易资讯系统
作者: kromax (kromax)   2016-05-17 22:30:00
蛮厉害的!!!
作者: LoyalFish   2016-05-17 23:39:00
读册的搜寻烂透了
作者: descent (“雄辩是银,沉默是金”)   2016-05-18 00:18:00
推荐系统有准吗?
作者: lturtsamuel (港都都教授)   2016-05-18 01:05:00
其实大家都是自己找的吧= = 这推荐系统蛮破的
作者: CCY0927 (只是个暱称罢了)   2016-05-18 06:47:00
读册的搜寻我有怀疑过其实是用 Google suggest 在弄。因为发生过很多次推荐字有出现书名,但实际上却找不到那本书的情况;也发生过完整书名找不到,要用部分书名作为关键字才能搜寻出来的情况
作者: a031405 (a031405)   2016-05-18 16:57:00
我觉得搜寻某种方面来说比博客来强欸
作者: aeee49 (叶同学)   2016-05-18 19:30:00
读册搜寻系统不好用
作者: descent (“雄辩是银,沉默是金”)   2016-05-18 23:08:00
台湾书店是卖书的, 才不会花钱在这些技术上。中国亚马逊的推荐系统准多了, 一本接着一本买
作者: kihifung (我有一把刀!)   2016-05-19 01:10:00
读册的系统很烂 但是用亚马逊比差太多了 人家是亚马逊
作者: enjoyee (我也想当理工宅呵呵呵)   2016-05-19 01:17:00
即便搜寻有点问题,总的来说我还是觉得读册很棒,页面的呈现即便是第一次进到这个网站的人也觉得相当友善。

Links booklink

Contact Us: admin [ a t ] ucptt.com