我现在要做一个事情,是分析歌词里常出现的词句。
当然首先就要先收集大量的歌词,我就去常见的歌词网来
找,他们的歌词都有写在网页的meta里,像这样
<meta name="description" content="八卦 黄安作曲 八卦八卦我牵挂" />
所以很容易用 get_meta_tags就可以截取出来,我撷取出
来以后,先把每一句歌词后面的空白变成<br>,然后每遇
到一个<br>,就把它放入阵列里面。这样echo阵列,就会
印出每一句歌词。
但是印出阵列时,我发现除了歌词之外,还会撷取到
词曲作者的资讯,这不是我需要的,大概会变成这样:
作词:黄安<br>
演场:白安<br>
/<br>
李庆安<br>
导演:李安<br>
八卦八卦我牵挂<br>
找不到你爸爸<br>
找不到你妈妈<br>
找不到你全家<br>
我目前遇到的两个问题是,有两个演唱人时,原本他是用
/ 和空白区隔,都被我的<br>处理到了。另一个问题就是
上面提到的,作曲人资讯我完全不需要,有什么办法可以
把那些资讯剃除掉呢?
目前想到的方法是,把导演、作词、作曲等等所有的
资讯都收集起来,做一个判断式,遇到了就不输出。可是
这就面临前一段指出的,双演唱人误判的问题。而不先处
理空白变成<br>,把歌词分段输入阵列,就不能做判断,
所以就卡关了。