[请益] 撷取网页内容时,想把不要的内容排除

楼主: poeta (键盘诗人)   2015-10-19 16:52:13
我现在要做一个事情,是分析歌词里常出现的词句。
当然首先就要先收集大量的歌词,我就去常见的歌词网来
找,他们的歌词都有写在网页的meta里,像这样
<meta name="description" content="八卦 黄安作曲 八卦八卦我牵挂" />
所以很容易用 get_meta_tags就可以截取出来,我撷取出
来以后,先把每一句歌词后面的空白变成<br>,然后每遇
到一个<br>,就把它放入阵列里面。这样echo阵列,就会
印出每一句歌词。
但是印出阵列时,我发现除了歌词之外,还会撷取到
词曲作者的资讯,这不是我需要的,大概会变成这样:
作词:黄安<br>
演场:白安<br>
/<br>
李庆安<br>
导演:李安<br>
八卦八卦我牵挂<br>
找不到你爸爸<br>
找不到你妈妈<br>
找不到你全家<br>
我目前遇到的两个问题是,有两个演唱人时,原本他是用
/ 和空白区隔,都被我的<br>处理到了。另一个问题就是
上面提到的,作曲人资讯我完全不需要,有什么办法可以
把那些资讯剃除掉呢?
目前想到的方法是,把导演、作词、作曲等等所有的
资讯都收集起来,做一个判断式,遇到了就不输出。可是
这就面临前一段指出的,双演唱人误判的问题。而不先处
理空白变成<br>,把歌词分段输入阵列,就不能做判断,
所以就卡关了。
作者: rockmanalpha (KIN)   2015-10-19 17:06:00
直接撷取网页中的会不会比较好 因为显示在网页的都有换行我意思是从<body></body>里面撷取而如果在meta里面抓 用正则来处理比较好
作者: kuoll (kuoll)   2015-10-19 23:18:00
substr截取前两个字 如果==作词or作曲or编曲 那一项就不要echo就好了 至于/的问题 你先把" / "取代成"/" 再把空格换成<br>会不会比较容易一点?
楼主: poeta (键盘诗人)   2015-10-20 02:56:00
对对,一时没想到,谢谢两位。
作者: Peruheru (还在想)   2015-10-20 09:30:00
作词 作曲 编曲 原作 翻唱 客串如果有歌词真的是"编曲"开头就挂了,建议用编曲:

Links booklink

Contact Us: admin [ a t ] ucptt.com