各位好,
我目前在做的计划是要比对PDF的格式
在google看了很久以后
发现jpedal的pdf->html5转换的格式让我很好处理
所以目前打算用这个方法来实作看看
(如果有更好的方法也麻烦告诉我!)
总之,jpedal转换之后的html里面包含了css的配置
转换后的范例如下:
#t5_1{left:124px;top:236px;letter-spacing:-0.1px;word-spacing:0.1px;}
#t6_1{left:124px;top:251px;letter-spacing:-0.1px;word-spacing:0.3px;}
#t7_1{left:124px;top:295px;}
#t5_1这个同时也是一行文字的id
<div id="t5_1" class="t s4_1">90089-0781, U.S.A</div>
然后有文字的格式内容
.s4_1{
FONT-SIZE: 54.8px;
FONT-FAMILY: 'Times New Roman', Times, serif;
color: rgb(0,0,0);
FONT-STYLE: italic;
}
所以整个页面是以一行一行的文字为单位去做转换
老板那边对于pdf的格式有规定的要求(不然找我来做格式系统干嘛XD)
例如边界,上下左右各2 inch
上下左这3个边界处理起来没有问题
拿个标准档案来转换inch px很容易判断
但是右边界我想了很久都不知道怎么算
有想过的方法是用letter-spacing, word-spacing去算
一行的最后一个文字的位置应该可以用这个推出来?
不过我其实对css只有超级粗浅的概念
不懂为什么letter spacing 怎么会是-0.1px?
(word spacing也是有正有负)
如果用spacing去计算的话,怎么会是负值@@?
然后还有个要求是要看文字是否置中
我是想说这个基本是只要知道右边界就可以知道了吧~
去算该行文字的左边界有没有等于右边界就好了
(或者各位有更好的方法也欢迎给我点建议)
怕大家不知道我在说什么,在这边附上图片
http://imgur.com/SCfqoM6
谢谢各位了~(鞠躬)