Lingua::JA::Summarize
Lingua::JA::Summarizeのテストがこける。
t/02-keyword....NOK 13 # Failed test 'file_keyword_summary' # at t/02-keyword.t line 60. # got: '京' # expected: '京都' t/02-keyword....NOK 14 # Failed test 'charset' # at t/02-keyword.t line 63. # got: '京' # expected: '京都'
force installしてからfile_keyword_summaryにkyoto.txtを渡したらこうなった。
#!/usr/bin/perl use strict; use warnings; use Lingua::JA::Summarize qw( file_keyword_summary ); my $file = shift; my @keywords = file_keyword_summary($file); print join(q{, }, @keywords), "?n";
$ ./lingua_ja_summarize.pl kyoto.txt 京, 都, 京都, 上京区, 京都市
ちなみにmecabに直接kyoto.txtを渡した場合の先頭5行はこんな感じ。
$ mecab kyoto.txt 京都 名詞,固有名詞,地域,一般,*,*,京都,キョウト,キョート ( 記号,括弧開,*,*,*,*,(,(,( きょう 名詞,副詞可能,*,*,*,*,きょう,キョウ,キョー と 助詞,格助詞,一般,*,*,*,と,ト,ト ) 記号,括弧閉,*,*,*,*,),),)
-
- -
キーワード抽出モジュール Lingua::JA::Summarize を使うコツ (nakatani @ cybozu labs)