wget
をテンプレートにして作成
[
トップ
] [
新規
|
一覧
|
単語検索
|
最終更新
|
ヘルプ
]
開始行:
***wget [#kd477e22]
-wgetでPDFをまるごと取得
例 wget -np -r -A PDF,pdf http://www.city.otaru.hokkaido.jp/gikai/kaigiroku/honkaigi/honkaigi.htm
-A EXT EXTで指定された拡張子ファイルのみ取得
-R EXT EXTで指定された拡張子のファイルは取得しない
-np 親ディレクトリは参照しない
***pdf2txt pdftotxt pdftotext [#q842e380]
+CentOSにはpdfが入っていない
--yum install poppler-utils
+pdftotextの使い方
--UTF8で出力
pdftotext -enc UTF-8 sample.pdf sample.euc
--EUCで出力
pdftotext -enc EUC-JP sample.pdf sample.euc
--シフトJISで出力
pdftotext -enc Shift-JIS sample.pdf sample.euc
***全てのPDFをTEXTへ変換するスクリプト [#j08d0690]
+[[Perl/linuxで複数ファイルの文字コード変換]]を利用する。
use File::Find;
@ARGV = qw(.) unless @ARGV;
find sub { push @list, $File::Find::name, -d && '/', "\n"}, @ARGV;
chomp @list;
foreach(@list){
unless($_){next;}
if(/^\//){next;}
unless(/pdf$|PDF$/){next;}
if(/(.*)(PDF|pdf)$/){$filename=$1;}
$fileTxt = $filename . "txt";
$exe = "pdftotext -enc UTF-8 $_ $fileTxt";
print "$exe\n";
system("$exe");
}
終了行:
***wget [#kd477e22]
-wgetでPDFをまるごと取得
例 wget -np -r -A PDF,pdf http://www.city.otaru.hokkaido.jp/gikai/kaigiroku/honkaigi/honkaigi.htm
-A EXT EXTで指定された拡張子ファイルのみ取得
-R EXT EXTで指定された拡張子のファイルは取得しない
-np 親ディレクトリは参照しない
***pdf2txt pdftotxt pdftotext [#q842e380]
+CentOSにはpdfが入っていない
--yum install poppler-utils
+pdftotextの使い方
--UTF8で出力
pdftotext -enc UTF-8 sample.pdf sample.euc
--EUCで出力
pdftotext -enc EUC-JP sample.pdf sample.euc
--シフトJISで出力
pdftotext -enc Shift-JIS sample.pdf sample.euc
***全てのPDFをTEXTへ変換するスクリプト [#j08d0690]
+[[Perl/linuxで複数ファイルの文字コード変換]]を利用する。
use File::Find;
@ARGV = qw(.) unless @ARGV;
find sub { push @list, $File::Find::name, -d && '/', "\n"}, @ARGV;
chomp @list;
foreach(@list){
unless($_){next;}
if(/^\//){next;}
unless(/pdf$|PDF$/){next;}
if(/(.*)(PDF|pdf)$/){$filename=$1;}
$fileTxt = $filename . "txt";
$exe = "pdftotext -enc UTF-8 $_ $fileTxt";
print "$exe\n";
system("$exe");
}
ページ名: