PCDVD數位科技討論區 - 瀏覽單個文章 - 自製的字幕編輯程式 part1

引用:

Originally posted by briankuo

可能我對丹青還不熟悉，在載入批次檔的時候會有圖片順序不對的情形，例如共有
二十張的圖片，我一次選取載入時001.bmp會變到最後一張、020.bmp會在第一張，
但丹青又不容許調換位置(試過拖拉，不行)，這樣又變成一次一張慢慢載入變成多張
的批次檔案。再者，我的電腦大概不太喜歡丹青，有時候跑一跑就給你程式作業
無效.....真是夠給他oo又xx。

嗯,這個問題剛開始也是困擾著我

後來我每次在載入圖檔時,都把檔案顯示改成詳細清
單的方式,也就是一個檔案一行的那種方式,然後先選最後一個,假設這一次要載編號
400~600,就先點選600的那個檔案,放開滑鼠,再移到第400個檔案,按著shift鍵,
再點選,就ok了,順序也就一定會正確了..供你參考..

引用:

另外，我本身是修影像處理，SubRip在把文字製成圖檔時，字的清晰度已經相當不
錯了，主要還是辯識系統這種無法達到高辯識率的原因。如果真要去寫一個專用的
程式可真要花不少時間喔...

哇,這樣我要多向briankuo兄請教了

SubRip轉成BMP檔的效果我也很滿意,只是
它切得太剛好了,以至於會讓丹青辨識錯誤,這當然不是SubRip的錯,只是這樣一來,
就會讓我們多費很多工夫,再加上丹青本身問題多多,其實我們要的不多,就是批次辨
識,而且對象還一定是印刷體,絕對不是手寫的,所以我才想是不是可以自己來寫一個
程式,從取出字幕的圖檔到辨識輸出文字檔一氣呵成,這樣大家以後就不用再費心找
一大堆工具而每個工具卻都只能作一小部份的功能了.

引用:

還有啊，丹青的學習功能是不是default就有了？丹青的介面很簡單，可是搞不太清
楚怎麼用...>_<

應該不是defalut的,照我使用的經驗,當辨識它有疑問時,它會將那個字用藍字標示出
來,然後底下會列出候選字,這時你先點選到那個藍字,再選底下正確的字,它就會將那
個字修正過來,但是這樣下次它還是不會記得,所以這時要選menu裡的分析/辨視->
學習新字的功能,這樣它就會記著不會忘了,此時可以考慮再選"自動",讓它把整份圖檔
再重新辨識一次,把新學習的字套用進去.否則底下的檔案是不會自動套用新的學習
字的..

對了,可以請問briankuo兄,OCR有比較基礎的paper可以看嗎?手上找到一些ocr的
source code,不過很多都只是針對英文部份,我想知道對中文可有較好的方法嗎?
要辨視的對象很單純,純白底,印刷體字型,字距有一定間隔,而且絕對不用考慮傾斜
狀況,唯一的問題可能因字體不同,所以得先作細線化,這應該是所有作OCR的,認為
最簡單的狀況了吧

不知兄可以給些任何建議嗎?