Lingua::JA::Summarize

Lingua::JA::Summarizeのテストがこける。

t/02-keyword....NOK 13                                                       
#   Failed test 'file_keyword_summary'
#   at t/02-keyword.t line 60.
#          got: '京'
#     expected: '京都'
t/02-keyword....NOK 14                                                       
#   Failed test 'charset'
#   at t/02-keyword.t line 63.
#          got: '京'
#     expected: '京都'

force installしてからfile_keyword_summaryにkyoto.txtを渡したらこうなった。

#!/usr/bin/perl

use strict;
use warnings;

use Lingua::JA::Summarize qw( file_keyword_summary );

my $file = shift;
my @keywords = file_keyword_summary($file);
print join(q{, }, @keywords), "?n";
$ ./lingua_ja_summarize.pl kyoto.txt 
京, 都, 京都, 上京区, 京都市

ちなみにmecabに直接kyoto.txtを渡した場合の先頭5行はこんな感じ。

$ mecab kyoto.txt 
京都    名詞,固有名詞,地域,一般,*,*,京都,キョウト,キョート
(      記号,括弧開,*,*,*,*,(,(,(
きょう  名詞,副詞可能,*,*,*,*,きょう,キョウ,キョー
と      助詞,格助詞,一般,*,*,*,と,ト,ト
)      記号,括弧閉,*,*,*,*,),),)
    • -

キーワード抽出モジュール Lingua::JA::Summarize を使うコツ (nakatani @ cybozu labs)