久久久久久国产精品免费精品_亚洲一级高清毛片_精品国产三级a∨在线欧美_2017理论片手机在线_东方AⅤ免费观看_五月天日韩AV无码中文_欧美性a欧美在线_91短视频免费的_无遮挡又爽又刺激的视频äpp_午夜色色一区二区

PDF亂碼修復

       所謂“PDF亂碼 問(wèn)題”,就是某些文本型的PDF文件,當用Adobe Reader(或其它任何能打開(kāi)PDF文件的軟件)打開(kāi)瀏覽時(shí),看到的內容沒(méi)有任何異常。但是當從里面復制文字時(shí),得到是一堆毫無(wú)意義的亂碼。不論粘貼對象是Word還是UltraEdit或記事本,都是一樣的結果。對于這樣的PDF文件,不論用什么PDF瀏覽器,諸如Adobe Reader、FoxitReader還是什么Apabi或CajViewer。都無(wú)法從中復制到和原始內容匹配的文字。這樣的PDF文件雖然不影響瀏覽,但是不能對其創(chuàng )建索引,所以也不能正常的檢索。

產(chǎn)生亂碼的原因

       產(chǎn)生這種現象的主要原因是在生成PDF文件的過(guò)程中,由于PDF文件本身不利于反復編輯,所以大部分的PDF文件都是從其它格式的文件轉換過(guò)來(lái)的。目前市場(chǎng)上提供這種轉換功能的軟件也很多,基本上可以分為兩個(gè)類(lèi)別:一種是使用“虛擬打印機”模式,另一種是通過(guò)分析文件格式一步一步的創(chuàng )建PDF文件。前一種比較常見(jiàn)。后一種在WPS中使用。 通常有這種問(wèn)題的PDF文件都使用了內嵌字體。內嵌字體有很大的優(yōu)越性,這種PDF文件無(wú)論在任何平臺上顯示,都能看到同樣的效果。但是內嵌字體會(huì )使PDF文件的尺寸增大,同時(shí)如果沒(méi)有很規范的使用內嵌字體,也會(huì )導致亂碼現象的產(chǎn)生。 我們在分析問(wèn)題的過(guò)程中,共發(fā)現大致三種類(lèi)型的亂碼:中文或符號數字英文亂碼、全選時(shí)亂碼但部分選擇時(shí)正常,最后一種是選擇時(shí)不正常,特別是在A(yíng)dobe Reader中時(shí),修復前后的效果如下圖:

  

修復流程和策略

預處理

       首先使用批量預處理模塊對所有需要修復的PDF文件進(jìn)行預處理。預處理做的工作是,對指定目錄下的PDF做完整的分析,把在PDF每一頁(yè)上出現所有字都收集到,合并相似度很高的字符(如此則可以減少校對的工作量)。這一步驟不需要人干預,指定好目錄即可執行。由于預處理比較耗費時(shí)間,所以設計為雙線(xiàn)程并處理。如下圖:

校對

        預處理完成之后,就可以對每個(gè)PDF文件進(jìn)行校對了。此時(shí)以字體為單位列出每個(gè)字符的信息,可以查看每個(gè)字符的編碼,如果上下一致則說(shuō)明是正確,否則是錯誤的(即使在同一字體內部,也可能會(huì )出現部分字符有,而部分字符正確)。對于不正確的字體,可以先使用OCR做一扁識別,然后再人工校對。

輸入特殊字符

       方便快捷地輸入特殊字符(無(wú)法用鍵盤(pán)直接輸入的字符)。部分常用的特殊字符會(huì )出現在右鍵菜單上,還可以彈出特殊字符窗口成批的輸入。

縱校

        在以字體為單位校對完成后,還可進(jìn)行縱校??v校列出相同編碼的所有字符,查看是否有其它字符被錯誤編碼。

整合校對

        為了加快校對速度,還可以使用整合校對。所謂整合校對是指對多個(gè)待校對文件再次執行合并,如此操作后,所有被合并文件中的相同字元只需要一次校對,此種策略對于相同來(lái)源的文件的效果非常好,因為相同來(lái)源的文件通常使用相同的字體和排版風(fēng)格,校對效率以合并的文件數量而相應提高,整合越多,提高越多,目前最大支持合并32個(gè)文件。

輸出文件

       所有的字符都校對完成以后,即可輸出新的PDF文件。在整合校對時(shí),會(huì )為所有合并的文件都執行輸出操作。
版權聲明 北京博鴻捷訊科技有限公司,京公網(wǎng)安備 11010802035060 號京ICP備08002511號-2 2007. All Rights Reserved