将HTML转换为PDF时,遇到一个奇怪的现象。
比如说这段话:
转换成PDF却是:
自(U+81EA)被错误地指向了⾃(U+2F83),「一、而、见、至、心」也一样,查询后发现这些有问题的汉字是康熙部首和扩展部首,而不是普通的CJK汉字。在某些字体下,看起来很相似,不易察觉,但复制和搜索都会受到影响。
参考:
https://sspai.com/post/52073
https://zhuanlan.zhihu.com/p/142467340
wkhtmltopdf和无头浏览器同样存在这个问题,WeasyPrint的输出结果是正常的。
但WeasyPrint的图片自适应有问题,图片尺寸过大时,不是显示不了就是切掉半边。
因为没搞定WeasyPrint,还是用了最简单粗暴的办法,用对照表替换掉了CMap。