PCDVD數位科技討論區

PCDVD數位科技討論區 (https://www.pcdvd.com.tw/index.php)
-   疑難雜症區 (https://www.pcdvd.com.tw/forumdisplay.php?f=34)
-   -   怎麼把存成圖片檔的文件轉成文字檔案? (https://www.pcdvd.com.tw/showthread.php?t=402142)

53346 2004-10-25 10:19 AM

怎麼把存成圖片檔的文件轉成文字檔案?
 
小弟有用數位相機在圖書館拍文件資料的習慣,日前購入HP1315想說將圖片印出來後,在用他掃描使用內附的ORC功能轉成doc檔,結果發現慘不忍睹(PS:可能是印出來的解析度就不夠了,在經過掃描辨識出來的字體沒一個正確的還會重疊... :jolin: ),想要將手邊拍的文件資料的圖片轉成文字不知該使用什麼方法才能達成?

asccpu 2004-10-25 12:21 PM

文字OCR的圖片最好是超出FAX解析度(200DPI)以上才好,DC拍的解析度沒這麼高吧。
這樣,不如打字,下次若行,先影印。
OCR是門技術,我不知行不行,你試試把圖片變更解析度看看(如96DPI轉成200DPI(或更高))

53346 2004-10-25 11:46 PM

DC拍的是2048x1536(300萬pix)這樣是多少DPI??
印象中不是有一種叫做丹青文字辨識的軟體,它也是和ORC一樣的嗎?
是不是ORC辨識中文的正確率比較差?且解析度只能降低沒有辦法提高吧?

mpc 2004-10-25 11:59 PM

樓主是要辨識中文嗎?
丹青我覺得不好大用

如果是辨識英文的話,比較建議用OmniPage Pro

Ps:不是OCR嗎,怎麼一直提到ORC

asccpu 2004-10-26 02:02 AM

引用:
作者53346
DC拍的是2048x1536(300萬pix)這樣是多少DPI??
印象中不是有一種叫做丹青文字辨識的軟體,它也是和ORC一樣的嗎?
是不是ORC辨識中文的正確率比較差?且解析度只能降低沒有辦法提高吧?

高不高是看圖稿而定的,字非常淡,淡到一段段的,那一定一字辨成數字,太黑,筆畫多的字變一團黑,會被當成標點符號,所以濃淡要適中,另圖檔最好是單色的,比灰階,彩色的要好,以TIF檔為佳,JPG的除非解析度很高,而色彩不多(像有底圖在的文字一定死),若是辨黑底的,就要反相成白底黑字。
丹青辨識看前述的圖稿濃度而定,而且它會作詞句校正來補辨識率,例如要辨識"如果"二字,結果二字都錯,在文稿編輯時,若先再辨識"果"字而成功,則回到"如"字處,下面的選字一定會有"如"字。
有些俗體字:如"著"字(早期該字並不是目前用的字型),有8成會辨識成"看",另一字就是卻了,早期是"谷"邊是"去"字,通常學習字庫即可。
另DPI值是可以轉變的,如100*100*100DPI轉成100*100*300DPI,檔大小好像增3倍大。一般繪圖軟體都可改DPI。
DPI我忘了正確叫法了,可能叫解像度吧還是就叫解析度??
另外DPI是每英吋的點數,2048x1536很難決定是多少DPI的(我只知一般網頁上的圖在96DPI左右)

53346 2004-10-26 08:05 AM

引用:
作者mpc
樓主是要辨識中文嗎?
丹青我覺得不好大用

如果是辨識英文的話,比較建議用OmniPage Pro

Ps:不是OCR嗎,怎麼一直提到ORC



OCR...我key錯,主要是要變是中文沒錯,OCR是中英文均可辨識嗎 :confused:

asccpu 2004-10-26 02:43 PM

丹青辨英文只能辨1,2種字體,印刷體及斜體(拉丁式的),字體太多會被當成中文。

shaq0853 2004-10-26 03:01 PM

OCR辨識中文
效率很差還要校對
乾脆用key的吧
key完想忘也忘不了

dwight1116 2004-10-26 05:47 PM

引用:
作者53346
OCR...我key錯,主要是要變是中文沒錯,OCR是中英文均可辨識嗎 :confused:


中英文皆可
補字補字補字

Lucky Jim 2004-10-26 08:08 PM

欣鏵資訊代理的Readiris Pro9,辨識率聽說還不錯,但價位頗高,你可以參考看看。


所有的時間均為GMT +8。 現在的時間是04:27 PM.

vBulletin Version 3.0.1
powered_by_vbulletin 2025。