2011年3月6日 星期日

擷取odp檔中的文字,圖片

odf檔的圖片都是在pictures資料夾中
所以 unzip aaa.odp pictures 就把圖片取出了
文字是描述於 content.xml中,我們必須把tag去掉
unzip aaa.odp content.xml
cat content.xml | perl -pe 's/<([^>]*)>//g' | perl([ \t\n]+)/$1/g' > aaa.txt

沒有留言: