Pdg Thumb Viewer提供类似acdsee的缩略图浏览界面,“所见即所得”地检查pdg文件是否存在坏页等。 提供批量检查界面,能一次检查多个文件夹下的pdg文件是否有缺页、坏页、黑线页等。
软件功能
1、提供类似ACDSEE的缩略图浏览界面,“所见即所得”地检查PDG文件是否存在坏页等。
2、提供批量检查界面,能够一次检查多个文件夹下的PDG文件是否有缺页、坏页、黑线页等。
3、提供资源管理器插件,让Windows的资源管理器显示PDG文件缩略图、文件信息和预览,支持x86和x64 Windows。
4、提供资源管理器右键菜单,便于快速启动批量检查界面。
5、提供基本浏览功能,可以当作一个简易的PDG文件浏览器使用,不过只能浏览图像PDG。
6、基于Pdg2Pic内核实现,不仅可以摆脱超星浏览器独立运行,而且检查没问题的文件用Pdg2Pic、UnicornViewer均可正常打开。
7、目前仅能检查0xH、1xH、2xH、AxH的图像、文字版PDG文件,不支持6xH或HTML版PDG文件。支持名为PDG,实为PNG、GIF、BMP、TIFF、JPG、JPEG 2000、DjVu的文件。
PdgThumbViewer使用方法
1、缩略图界面
鼠标双击PdgThumbViewer.exe启动软件后,进入缩略图浏览界面:
通过左上角的文件夹浏览框切换文件夹,或直接从资源管理器拖拽过来文件夹/文件。
如果所选文件夹中有PDG文件,自动在右侧显示PDG缩略图。
在缩略图中选择某个文件,在左下角的预览框中即可预览该PDG文件。
在缩略图界面里,可以通过查看缩略图,检查PDG文件是否有坏页、黑线页等。如果要自动检查是否有缺页、坏页、黑线页,可以点“查看->明细...”菜单。
缩略图中显示特殊页面的含义:
6xH:文件是6xH(包括64H、65H、66H等)格式的PDG文件。
FFH:文件是FFH的PDG。这种格式的文件数据已经被正版超星浏览器完全破坏,无法修复。避免的方法就是不要用正版超星浏览器下载PDG文件。
Html:文件是Html格式的PDG文件,见本文前面的FAQ部分。
PDF:文件是原版PDF或加密PDF(即文本PDG),如果有InfoRule.dat,可以用Pdg2Pic转换成PDF文件,否则只能用Pizza转。
Broken File:文件没有下完,建议重新下载。
Decode Failed:文件数据出错,建议重新下载。
Empty File:空文件,只能重新下载。
Unknown PDG:不明格式的PDG文件,建议换个镜像重新下载。
缩略图界面的菜单比较简单,将鼠标放到菜单项上,在底部的状态条上即可显示菜单项的含义,此处从略。
2、批量检查界面
从缩略图界面中选择“查看->批量检查...”菜单,或直接双击前面“软件安装/删除”部分说的专门为批量检查界面创建的快捷方式,即可进入批量检查界面,批量检查PDG文件夹中是否有缺页、坏页、黑线页等。批量检查支持多级子文件夹,每个文件夹下最多65536个文件,文件名必须符合超星规范。
批量检查的界面比较简单,按照界面上标示的1、2、3、4步骤进行操作即可。
检查完成后,对于怀疑可能没有下完的JPG文件、可能出现黑线的页面,会集中列在界面下方的表格中,供用户自己再手工校对一次。
3、资源管理器插件
在按照前面“软件安装/删除”部分说的正确安装资源管理器插件后:
在Windows 98下,需要选中“Web方式”,然后选中PDG文件,在资源管理器文件视图左下角即显示预览图像。
对于Windows 98以后的系统在资源管理器的“查看”菜单中选“缩略图”,Win7之后的系统选择“大图标”或“中图标”,即可显示 缩略图。
在Win7下的资源管理器中,打开预览栏即可预览PDG文件。
鼠标移动到PDG文件上,即会显示PDG文件信息提示,包括格式、像素尺寸等。
常见问题
Q:黑线页是怎么回事?为什么会出现黑线页?如何避免出现黑线页?
A:所谓黑线页,是指PDG文件显示或转换出来以后,页面上出现黑色条纹,而不是正常的文字或图像。出现黑线页的最根本原因是PDG图像数据异常,具体引发的原因通常包括:
PDG文件下载时没有下完,即Broken File。碰到这张情况,在正版超星浏览器里会显示黑线或出错,在Pdg2Pic或PdgThumbViewer等基于Pdg2Pic内核的软件中则会报错。从技术上说,正版超星浏览器显示这种文件出现黑线的原因是:超星浏览器没有对数据有效性进行检查,当数组越界后,仍然继续解码下去,这时解码所消耗的其实是内存里的垃圾数据。如果内存里的数据正巧可以一直解下去,超星浏览器就会出现CPU 100%、界面无反映的情况。
PDG文件数据被破坏。破坏的原因可能是超星服务器上的文件本身出了问题,也可能是因为网络或软件故障,不过目前更常见的原因是用早期版本的Pizza解密原版1xH文件:Pizza 1.3之前的版本在解密1xH格式时,可能会因为某些原因造成数据破坏,这个bug到1.3版才被修正。如果有人购买了低版本的Pizza后无力升级,或升级后擅自对Pizza进行修改,就可能会遇到黑线页。
特殊格式的PDG文件。这种情况只有在用BXViewer等早期出现的第三方软件浏览新出的PDG文件时才会出现:早期第三方浏览器是在分析当时PDG文件格式的基础上做出来的,后来PDG文件格式变了,自然就认不出来,但是又不报错,而是试图按照以前的格式硬解,当然解不对。
避免出现黑线页的办法包括:
下载完成后立刻用PdgThumbViewer进行检查,及时补下出问题的页面。
只用Pizza解密6xH,或将Pizza升级到1.3版以上,在如何情况下都不试图更改Pizza。
如果非要用第三方浏览器浏览PDG文件,请尽量选择新一点的浏览器,如coolman的miniPdgViewer。
Q:PdgThumbViewer如何检查黑线页?有什么限制?
A:在PdgThumbViewer的缩略图界面下,可以通过肉眼检查缩略图来判断是否出现黑线页,也可以通过“明细”功能,或批量检查界面,用软件自动检查是否有黑线页。
PdgThumbViewer采用最笨的办法自动检查黑线页:在对图像解码的时候,只要发现从页面最左端或最右端横跨到页面1/3处的黑线, 并且总高度超过50条扫瞄线,即认为该页为黑线页。这种方法存在误判的可能,但概率很小,因为正常的书页总会有边空,不可能出现从左往右或从右往左一直到1/3处的黑线,通常只有在扫描时由于种种原因,在页面的顶部、底部出现黑边,才可能误判,不过这毕竟是小概率事件,而且为了减少误判,自动忽略顶部和底部的10%扫描线 (页高的10%)。这种方法也存在漏判的可能:目前仅对原始图像是黑白CCITT G4的文件有效,对DjVu和JPG格式无效,不过这两种格式出现黑线页的概率也非常小。
正因为黑线页存在误判的可能,所以在批量检查界面中,才会在底部的列表集中列出所有怀疑是黑线页的文件,供人工校核。
Q:PdgThumbViewer报告的“可能没有下完的JPG文件”是什么意思?PdgThumbViewer如何判断JPG文件是否下完?
A:超星有时会直接将JPG文件更名成PDG,即某些PDG其实是标准JPG文件。按照JPG文件格式规范,JPG文件必须以FF D8开头,以FF D9结束。如果PdgThumbViewer检测到某个JPG文件以FF D8开头,但是没有以FF D9结束,即认为此文件是“没有下完的JPG文件”。在某些情况下,JPG文件即使没有下完,解码后也不大看得出来,所以批量检查时提供界面,让用户自己手工再校验一次。
一般建议应该重新下载没有下完的JPG文件。如果难以重新下载,可以将文件扩展名从PDG改成JPG,然后用ACDSEE或ComicEnhancer Pro打开,重新另存为,然后再将文件扩展名从JPG改回PDG。
Q:PdgThumbViewer报告的“可能包含异常数据的文件”是什么意思?
A:某些半吊子下载软件下载PDG时,如果由于种种原因造成数据包丢失,会用0或内存里的随机垃圾数据填充数据包应该占据的位置。对于CCITT、JPG格式的PDG来说,经过这种填充后的图像在解码时,解码器多半会给出错误报告,但如果是DjVu格式,解码器很难给出报告,因此需要对数据进行预检查:如果数据区出现连续16个以上的0,则认为该PDG是“可能包含异常数据的文件”。显然,如果丢失的数据包是用垃圾数据填充的,就可以逃过这种检查。
其实PDG文件头中已经包含了文件长度信息,下载软件如果发现数据下载不完全,正确的做法是先尝试重新下载,如果重新下载也不成功,则将文件长度截至到正确下载到的数据长度。这样用本软件很容易就可以检查出文件不完全,便于补下。
所以对于PDG文件下载,最根本的解决之道还是使用诚信、不会骗人的下载软件,并在网络顺畅的时候下载,下载线程也不宜开太多。
Q:PdgThumbViewer如何检查缺页?
A:图像PDG和文本PDG检查缺页的方法略有不同:
对于图像PDG,PdgThumbViewer从两个途径获取正文页数:一个是BookInfo.dat文件的“页数”项,一个是实际文件名的最大序号。这两个值中最大的那个就是总页数。然后从1开始循环到总页数,看对应的PDG文件是否存在,不存在即认为缺页。
对于文本PDG,PdgThumbViewer从InfoRule.dat文件解码文件列表,然后检查文件列表中的文件是否存在。如果没有InfoRule.dat文件,则不能检查文本PDG是否缺页。
对于附属页中的前言、目录、索引、附录页,则检查页码是否连续,不连续则按缺页报告。
如果一个文件夹下既有BookInfo.dat又有InfoRule.dat,则优先按InfoRule.dat检查缺页。
Q:为什么有些文本PDG可以用超星打开,但是用PdgThumbViewer检查报告Broken File?
A:PdgThumbViewer检查文本PDG时,先尝试将PDG解码成PDF,如果不成功则报告Decode Failed;如果成功,则判断文件头、尾是否是PDF文件格式规范规定的固定字符串,如果不是则判断为Broken File。由于PDF文件格式本身具有一定的鲁棒性,某些损坏不严重的Broken File还可以用Adobe Acrobat Pro打开、修复。
Q:为什么要支持名为PDG,实为PNG的文件?
A:我个人认为,PDG文件的功绩之一是定义了一个文件命名规范,可以区别封面、目录、正文等页面。但是PDG文件只支持黑白、彩色、256级灰度图像,而不支持16级灰度、4级灰度等的图像。如果扫描时使用的扫描仪高级到能够智能区别彩色和黑白页面,PDG这样做并没有什么问题;但是如果扫描仪没这么高级,烦恼就来了:为了给某本书补页,我曾经托人帮我扫描过几页,由于扫描者、扫描仪、书等的综合原因,导致这几页彩色不彩色、黑白不黑白,直接存储为JPG未免太过浪费;减色为黑白图像则损失太大,字都缺胳膊少腿;最佳选择是减色成16级灰度,然后存储成PNG,但是偏偏这样的文件不符合PDG规范,从那个时候起我就下定决心要在未来的PDG浏览器中加入对PNG的支持。
Q:为什么要支持名为PDG,实为DjVu的文件?
A:有时候PDG文件缺页,刚好可以从中美百万补,格式之间转来转去的也没啥意思,还可能造成质量损失,不如直接支持算了。
Q:为什么要支持名为PDG,实为单页TIFF的文件?
A:现在自己扫书的人越来越多,扫描后的图片一般黑白的存储为CCITT G4压缩的TIFF文件,彩色/灰度存储为JPG文件。当然也有好事者将彩色/灰度存储为JEPG压缩的TIFF,但是这种格式的兼容性实在太差,一般不主张。
这种自扫图像最麻烦的是没有一个合适的浏览器进行浏览,或转换成PDF等格式;文件命名也缺乏规范,都是随心所欲。与此相比,PDG的命名要更严谨,UnicornViewer、Pdg2Pic/FreePic2PDF等第三方工具也比较成熟,完全可以加以利用。
从格式上说,JPG文件只要改成符合PDG文件命名规范的名字即可,但TIFF文件即使改名,也不能被常规PDG浏览器浏览,但是我又讨厌在不同格式之间转来转去,所以就直接支持名为PDG,实为TIFF的文件。这样自己扫书后,用PdgRenamer改成符合PDG规范的文件名,即可直接浏览。
更新日志
增强Tiff文件的容错性