PCDVD數位科技討論區

PCDVD數位科技討論區 (https://www.pcdvd.com.tw/index.php)
-   軟體字幕討論區 (https://www.pcdvd.com.tw/forumdisplay.php?f=72)
-   -   自製的字幕編輯程式 part1 - 以簡體圖形字幕為例 (https://www.pcdvd.com.tw/showthread.php?t=83846)

McClintock 2002-03-19 04:40 AM

引用:
Originally posted by angp


請兄檢查一次版本是否為 v0.24 , 因為本來上傳了 v0.23 ,
才又發現兄提的這個問題,所以趕緊修改後再上傳了 v0.24,
若兄的版已是0.24...那..那...就是bug了... 我只好再回頭瞧瞧程式了.. :)


沒問題了,剛抓的的確是0.23版,更新為0.24之後,經測試完很正常,剛剛的問題已經解決了。:)

感謝你所做的程式,以後我要做字幕會輕鬆多了。:)

briankuo 2002-03-22 07:56 PM

試了一個晚上,好累..@.@

卡在丹青這個軟體,不知道是不是我不會用,英文、簡體辯識成功率很低,

還出現一堆亂碼...:<

最後直接用SubResync直接慢慢key字,還好它會學習,相同的不會叫你key兩次

不然打字打到手酸死..

McClintock 2002-03-22 07:57 PM

引用:
Originally posted by briankuo
試了一個晚上,好累..@.@
卡在丹青這個軟體,不知道是不是我不會用,英文、簡體辯識成功率很低,
還出現一堆亂碼...:<
最後直接用SubResync直接慢慢key字,還好它會學習,相同的不會叫你key兩次
不然打字打到手酸死..


辨識英文交給subrip不就好了嗎?
不過我也不清楚你的製作步驟是否與subrip有關就是…

briankuo 2002-03-22 09:17 PM

引用:
Originally posted by McClintock


辨識英文交給subrip不就好了嗎?
不過我也不清楚你的製作步驟是否與subrip有關就是…


你是指由subrip的第一選項嗎? 英文字母就那幾個,比較快

簡體中文就會遇到轉成圖檔時丹青沒辦法很成功的辯識出來,

所以簡體中文只能慢慢key......

angp 2002-03-23 03:33 AM

引用:
Originally posted by briankuo


你是指由subrip的第一選項嗎? 英文字母就那幾個,比較快

簡體中文就會遇到轉成圖檔時丹青沒辦法很成功的辯識出來,

所以簡體中文只能慢慢key......


嗯,看樣子圖解仍不夠清楚,害大家白浪費許多時間,真是對不住.. :(
其實這幾個步驟都是經過我幾天幾夜用不同的軟體及選項後才得出最後的結論,
其中關鍵的幾個地方,
1. 用SubRip輸出時,需要輸出成白底黑字無框的bmp檔.
2.丹青的辨識字集須設為簡體字集.其餘設為自動分析即可.
如果這兩點掌握的話,辦識可達90%以上.再讓它學習一些字之後,幾乎可到99%.
之前我提到每行的最後一個字會辦識錯誤的問題,經過這兩天的測試之後,我發現可能
是因為SubRip把bmp切得太邊邊了,以至於丹青無法辦識,這問題我己經想辦法在解決,
另外一個丹青無法一次批次辦識200張圖檔的問題,我發現可以用開啟舊檔的方式,一次
可開啟500張,分幾次開啟把所有的圖檔都讀入之後,再一次讓它自動辨識,這方法我已
經成功過,不過會發生系統資源不足的問題,即使把丹青關掉後都一樣,系統很多icon都
出不來,非得要重新開機不可:(

我已經認真在找ocr方面的東東來看了,不過以前沒修過影像處理,所以有點困難,真希
望能寫出一個專用的程式,這樣大家以後就不用這麼麻煩了.. :)

對了,不知道有人知道vob的檔案結構嗎? 我想自己把字幕取出來,這樣大家用起來就可
以更方便些了...

briankuo 2002-03-23 03:56 AM

引用:
Originally posted by angp


嗯,看樣子圖解仍不夠清楚,害大家白浪費許多時間,真是對不住.. :(
其實這幾個步驟都是經過我幾天幾夜用不同的軟體及選項後才得出最後的結論,
其中關鍵的幾個地方,
1. 用SubRip輸出時,需要輸出成白底黑字無框的bmp檔.
2.丹青的辨識字集須設為簡體字集.其餘設為自動分析即可.
如果這兩點掌握的話,辦識可達90%以上.再讓它學習一些字之後,幾乎可到99%.
之前我提到每行的最後一個字會辦識錯誤的問題,經過這兩天的測試之後,我發現可能
是因為SubRip把bmp切得太邊邊了,以至於丹青無法辦識,這問題我己經想辦法在解決,
另外一個丹青無法一次批次辦識200張圖檔的問題,我發現可以用開啟舊檔的方式,一次
可開啟500張,分幾次開啟把所有的圖檔都讀入之後,再一次讓它自動辨識,這方法我已
經成功過,不過會發生系統資源不足的問題,即使把丹青關掉後都一樣,系統很多icon都
出不來,非得要重新開機不可:(

我已經認真在找ocr方面的東東來看了,不過以前沒修過影像處理,所以有點困難,真希
望能寫出一個專用的程式,這樣大家以後就不用這麼麻煩了.. :)


可能我對丹青還不熟悉,在載入批次檔的時候會有圖片順序不對的情形,例如共有
二十張的圖片,我一次選取載入時001.bmp會變到最後一張、020.bmp會在第一張,
但丹青又不容許調換位置(試過拖拉,不行),這樣又變成一次一張慢慢載入變成多張
的批次檔案。再者,我的電腦大概不太喜歡丹青:p,有時候跑一跑就給你程式作業
無效.....真是夠給他oo又xx。

另外,我本身是修影像處理,SubRip在把文字製成圖檔時,字的清晰度已經相當不
錯了,主要還是辯識系統這種無法達到高辯識率的原因。如果真要去寫一個專用的
程式可真要花不少時間喔...

還有啊,丹青的學習功能是不是default就有了?丹青的介面很簡單,可是搞不太清
楚怎麼用...>_<

angp 2002-03-23 07:13 AM

引用:
Originally posted by briankuo


可能我對丹青還不熟悉,在載入批次檔的時候會有圖片順序不對的情形,例如共有
二十張的圖片,我一次選取載入時001.bmp會變到最後一張、020.bmp會在第一張,
但丹青又不容許調換位置(試過拖拉,不行),這樣又變成一次一張慢慢載入變成多張
的批次檔案。再者,我的電腦大概不太喜歡丹青:p,有時候跑一跑就給你程式作業
無效.....真是夠給他oo又xx。


嗯,這個問題剛開始也是困擾著我:)後來我每次在載入圖檔時,都把檔案顯示改成詳細清
單的方式,也就是一個檔案一行的那種方式,然後先選最後一個,假設這一次要載編號
400~600,就先點選600的那個檔案,放開滑鼠,再移到第400個檔案,按著shift鍵,
再點選,就ok了,順序也就一定會正確了..供你參考..

引用:

另外,我本身是修影像處理,SubRip在把文字製成圖檔時,字的清晰度已經相當不
錯了,主要還是辯識系統這種無法達到高辯識率的原因。如果真要去寫一個專用的
程式可真要花不少時間喔...

哇,這樣我要多向briankuo兄請教了 :) SubRip轉成BMP檔的效果我也很滿意,只是
它切得太剛好了,以至於會讓丹青辨識錯誤,這當然不是SubRip的錯,只是這樣一來,
就會讓我們多費很多工夫,再加上丹青本身問題多多,其實我們要的不多,就是批次辨
識,而且對象還一定是印刷體,絕對不是手寫的,所以我才想是不是可以自己來寫一個
程式,從取出字幕的圖檔到辨識輸出文字檔一氣呵成,這樣大家以後就不用再費心找
一大堆工具而每個工具卻都只能作一小部份的功能了.

引用:

還有啊,丹青的學習功能是不是default就有了?丹青的介面很簡單,可是搞不太清
楚怎麼用...>_<

應該不是defalut的,照我使用的經驗,當辨識它有疑問時,它會將那個字用藍字標示出
來,然後底下會列出候選字,這時你先點選到那個藍字,再選底下正確的字,它就會將那
個字修正過來,但是這樣下次它還是不會記得,所以這時要選menu裡的 分析/辨視->
學習新字 的功能,這樣它就會記著不會忘了,此時可以考慮再選"自動",讓它把整份圖檔
再重新辨識一次,把新學習的字套用進去.否則底下的檔案是不會自動套用新的學習
字的.. :)

對了,可以請問briankuo兄,OCR有比較基礎的paper可以看嗎?手上找到一些ocr的
source code,不過很多都只是針對英文部份,我想知道對中文可有較好的方法嗎?
要辨視的對象很單純,純白底,印刷體字型,字距有一定間隔,而且絕對不用考慮傾斜
狀況,唯一的問題可能因字體不同,所以得先作細線化,這應該是所有作OCR的,認為
最簡單的狀況了吧 :) 不知兄可以給些任何建議嗎?

briankuo 2002-03-23 09:44 AM

引用:
Originally posted by angp

對了,可以請問briankuo兄,OCR有比較基礎的paper可以看嗎?手上找到一些ocr的
source code,不過很多都只是針對英文部份,我想知道對中文可有較好的方法嗎?
要辨視的對象很單純,純白底,印刷體字型,字距有一定間隔,而且絕對不用考慮傾斜
狀況,唯一的問題可能因字體不同,所以得先作細線化,這應該是所有作OCR的,認為
最簡單的狀況了吧 :) 不知兄可以給些任何建議嗎?


雖然是做影像,但是方向不是這邊..:p,OCR的paper如果你要找針對中文的話
那大概需要往台灣、大陸這兩個方向走,外國哪管得到你的中文辯識,英文都搞
不太定了..:p,加上中文字庫的辯識比英文來得複雜,對於「中國人」來說只能
找自家人來看了。

就我所知,中研院的資訊所裡有一個Group是做中文詞庫的,他們雖然不是主要針
對「辯識」來做,但一定會遇到這類的問題,因為他們需要做斷句、判斷詞的動作,
你可以去中研院的網頁找找看喔。不然也許可以試著寫信給力新公司問問看是否有
相關的資料可供取閱。

中研院:www.sinica.edu.tw
力新國際:www.newsoft.com.tw

briankuo 2002-03-23 01:01 PM

謝謝angp兄,剛剛又從頭到尾做了一遍,比第一次做的還來得上手了,

丹青其實還是不錯的..:p,比較麻煩的是要再去慢慢check,有時候還是

會有一個字還兩行字被辯識得亂七八糟的情形....還有最常發生就是最後一個字,

不曉得SubRip能不能把所存的圖片檔放大右移一些些位置,這樣就更好了.:D

最後就是校正了,還真是麻煩,大陸那邊很多句子都沒翻到,有時候還出現上、下

句不通的情形.....真累人..:)

qwertyas88 2002-03-25 06:14 AM

切圖的問題,小弟有個很遜的意見
寫個小程式,自動將每個bmp檔加大就行了
就是填上黑色的地方
切太好的話,就在旁邊加上黑邊囉 :)
比研究vob的格式方便多了 :)


所有的時間均為GMT +8。 現在的時間是07:18 PM.

vBulletin Version 3.0.1
powered_by_vbulletin 2025。