***wget [#kd477e22] -wgetでPDFをまるごと取得 例 wget -np -r -A PDF,pdf http://www.city.otaru.hokkaido.jp/gikai/kaigiroku/honkaigi/honkaigi.htm -A EXT EXTで指定された拡張子ファイルのみ取得 -R EXT EXTで指定された拡張子のファイルは取得しない -np 親ディレクトリは参照しない ***pdf2txt pdftotxt pdftotext [#q842e380] +CentOSにはpdfが入っていない --yum install poppler-utils +pdftotextの使い方 --UTF8で出力 pdftotext -enc UTF-8 sample.pdf sample.euc --EUCで出力 pdftotext -enc EUC-JP sample.pdf sample.euc --シフトJISで出力 pdftotext -enc Shift-JIS sample.pdf sample.euc ***全てのPDFをTEXTへ変換するスクリプト [#j08d0690] +[[Perl/linuxで複数ファイルの文字コード変換]]を利用する。 use File::Find; @ARGV = qw(.) unless @ARGV; find sub { push @list, $File::Find::name, -d && '/', "\n"}, @ARGV; chomp @list; foreach(@list){ unless($_){next;} if(/^\//){next;} unless(/pdf$|PDF$/){next;} if(/(.*)(PDF|pdf)$/){$filename=$1;} $fileTxt = $filename . "txt"; $exe = "pdftotext -enc UTF-8 $_ $fileTxt"; print "$exe\n"; system("$exe"); }