-
Notifications
You must be signed in to change notification settings - Fork 24
/
Copy pathtokenizer.h
68 lines (52 loc) · 1.84 KB
/
tokenizer.h
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
/*
* tokenizer.h
*
*/
#ifndef TOKENIZER_H_
#define TOKENIZER_H_
#include <mecab.h>
#include <string>
std::vector<std::string> split(const std::string &str, char sep)
{
std::vector<std::string> v; // 分割結果を格納するベクター
auto first = str.begin(); // テキストの最初を指すイテレータ
while( first != str.end() ) { // テキストが残っている間ループ
auto last = first; // 分割文字列末尾へのイテレータ
while( last != str.end() && *last != sep ) // 末尾 or セパレータ文字まで進める
++last;
v.push_back(std::string(first, last)); // 分割文字を出力
if( last != str.end() )
++last;
first = last; // 次の処理のためにイテレータを設定
}
return v;
}
class Tokenizer {
private:
MeCab::Tagger *tagger;
public:
Tokenizer(){
//tagger = MeCab::createTagger("-Owakati");
//tagger = MeCab::createTagger("-xunknown -d /usr/local/lib/mecab/dic/mecab-ipadic-neologd");
tagger = MeCab::createTagger("-d /usr/local/lib/mecab/dic/mecab-ipadic-neologd");
}
~Tokenizer(){
delete tagger;
}
std::vector<std::string> parse(std::string input){
std::vector<std::string> result;
const MeCab::Node* node = tagger->parseToNode(input.c_str());
char buf[1024];
for (; node; node = node->next) {
string feature(node->feature);
//if (feature.find("名詞")==0 || feature.find("未知語")==0){
strcpy(buf,node->surface);
buf[node->length]='\0';
string surface(buf);
result.push_back(surface);
//}
}
return result;
}
};
#endif /* TOKENIZER_H_ */