PDF轉EPub插件
PDF轉EPub插件是一個(gè)運行在A(yíng)dobe Reader環(huán)境中的工具性軟件。在用Adobe Reader打開(kāi)PDF文件后,對PDF文件自動(dòng)解析,將字合并為段落,標記插圖,最終將內容輸出為html格式并再轉為Epub格式。
自動(dòng)解析
自動(dòng)解析收集PDF文件中所有的內容,如文字,圖像,圖形等元素,根據坐標將一個(gè)一個(gè)的字合并成行,然后再合并為段落,另外在自動(dòng)分析階段,還可做一些常用的批量操作,如
分析上下標,全角轉半角,合并相鄰圖像,根據文字塊的坐標判斷其對齊方式.最終將分析數據保存為工程文件。由于這個(gè)操作比較耗時(shí),可以調用預處理來(lái)批量對指定目錄下的文件進(jìn)行統一的分析,以節省時(shí)間。分析完成以后,頁(yè)面上的元素都被被標記。如下圖:
正則表達式管理
在文字整理過(guò)程中,如自動(dòng)分割,拆分和搜索過(guò)程中,經(jīng)常需要使用正則表達式。為此有一個(gè)獨立的模塊來(lái)管理正則表達式??梢越o常用的正則表達式起一個(gè)易記憶和識別的名稱(chēng),以方便區別和調用。對于一些簡(jiǎn)單的正則表達式,如“以xx開(kāi)始”或“以xx結束”諸如此類(lèi)的不值得起名的表達式,采用“填空”的模式編寫(xiě)。以方便對于不熟悉正則表達式的人員使用。
搜索
搜索是此軟件中功能最多最復雜的部分,但也是使用最多的功能,使用好搜索功能,可以將許多瑣碎的操作快速的完成。例如,可以使用搜索功能將所有匹配指定條件的塊列出來(lái),然后對它們統一的操作,如設置對齊方式、拆分,設置字段等。
調整順序
軟件提供了多種排序策略,如在選擇多塊時(shí),可以調整選擇塊內部的順序,將選擇的塊放到開(kāi)始,將選擇的塊放到最后。對于很復雜的版面,只需要幾個(gè)操作就可以整理好。
拆分與合并
拆分與合并也是經(jīng)常使用的功能,特別是拆分。為些設置了多種拆分策略,如普通拆分、水平拆分、垂直拆分、十字拆分。熟練使用拆分,可以簡(jiǎn)化操作步驟,快速整理復雜的版面。
除了手動(dòng)拆分外,軟件還設計了自動(dòng)拆分功能,主要是針對期刊類(lèi)型的文件,使用自動(dòng)拆分功能可以將“關(guān)鍵詞”、“中圖分類(lèi)號”、“文獻標識碼”等這些被合并在一起的內容拆分了獨立的塊。
整理參考文獻
參考文獻的整理是最復雜和耗時(shí)的部分,特別是當一個(gè)文件內部包含多篇文章時(shí)(如期刊類(lèi)型的文件)。所以軟件提供了優(yōu)化的處理策略快速整理參考文獻,即可以通篇整理,也可以一塊一塊的整理。
其它支持
段落持續
當一個(gè)段落的內容不能合并到一個(gè)塊中時(shí),如跨頁(yè)的段落、雙欄時(shí)跨兩欄的段落,此時(shí)可以使用段落持續進(jìn)行標記,則在輸出時(shí)將會(huì )作為一個(gè)段落輸出。
跳頁(yè)塊支持
跳頁(yè)塊經(jīng)常出現在期刊類(lèi)型的文件中,如“下接xxx頁(yè)”,此時(shí)一篇文章的內容不是出現在連續的頁(yè)面上。使用跳頁(yè)塊設置則可以將這種類(lèi)型的文章輸出到一篇文章中。
目錄整理
目錄整理主要是針對原始文件中包含目錄(有些制作要求保存原始的目錄)。使用目錄整理可以快速將復雜的目錄自動(dòng)合并/拆分為一條目錄一個(gè)塊的狀態(tài),無(wú)論是頁(yè)面在后還是在前。
標注關(guān)聯(lián)
可以將文章內部的“標注”標記后,在輸出html文件時(shí),在文章的后面輸出標注,并在引用點(diǎn)與標注之間創(chuàng )建鏈接。
字屬性
可以為字設置上標、下標、加粗、斜體、下劃線(xiàn)和刪除線(xiàn)屬性。
輸出
可以選擇多種輸出類(lèi)型,如下圖:
Epub的效果如下圖:
輸出HTML表格
即可將表格輸出為圖像,也可以通過(guò)人機交互制作成HTML表格,并最終輸出為HTML格式。如下圖:
書(shū)簽制作
使用書(shū)簽制作功能,可以快速的完成書(shū)簽的制作,比Adobe Acrobat中的創(chuàng )建書(shū)簽要方便許多。它以文字整理時(shí)設置的標題為基礎,在經(jīng)過(guò)簡(jiǎn)單的修改后即可創(chuàng )建書(shū)簽。