***wget [#kd477e22]

-wgetでPDFをまるごと取得
	例 wget -np -r -A PDF,pdf  http://www.city.otaru.hokkaido.jp/gikai/kaigiroku/honkaigi/honkaigi.htm
	-A EXT	EXTで指定された拡張子ファイルのみ取得
	-R EXT	EXTで指定された拡張子のファイルは取得しない
	-np	親ディレクトリは参照しない

***pdf2txt pdftotxt pdftotext [#q842e380]
+CentOSにはpdfが入っていない
--yum install poppler-utils
+pdftotextの使い方
--UTF8で出力
	pdftotext -enc UTF-8 sample.pdf sample.euc  
--EUCで出力
	pdftotext -enc EUC-JP sample.pdf sample.euc  
--シフトJISで出力
	pdftotext -enc Shift-JIS sample.pdf sample.euc 

***全てのPDFをTEXTへ変換するスクリプト [#j08d0690]
+[[Perl/linuxで複数ファイルの文字コード変換]]を利用する。
     use File::Find;
      @ARGV = qw(.) unless @ARGV;
      find sub { push @list, $File::Find::name, -d && '/', "\n"}, @ARGV;
      chomp @list;
      foreach(@list){
              unless($_){next;}
              if(/^\//){next;}
	      unless(/pdf$|PDF$/){next;}
	      if(/(.*)(PDF|pdf)$/){$filename=$1;}
	      $fileTxt = $filename . "txt";
              $exe = "pdftotext -enc UTF-8 $_ $fileTxt";
	      print "$exe\n";
              system("$exe");
      }