forked from todesking/okura
-
Notifications
You must be signed in to change notification settings - Fork 0
/
TODO
50 lines (50 loc) · 2.84 KB
/
TODO
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
[done] MeCab形式のマトリクス定義を読める
[done] MeCab形式の単語定義を読める
[done] 文字列と位置から、すべての可能な単語を取得できる
[done] MeCab形式のleft/right id定義を読める
[done] 文字列からラティスを構築できる
[done] 最小コストの経路を取得できる
[done] コンソールが使える
[done] gem化
[done] コンソール、require 'okura/console' とかで使えるように
[done] 未知語を解析できる
[done] コンソールの出力形式をMeCabっぽく
[done] バイナリ形式の辞書ファイルを作れる
[done] ライセンス決める
[done] double array trieの採用
[done] DAT, コンパイル及び復元
[done] serialize: format-info
[done] serialize: features
[done] serialize: char types
[done] serialize: unk dic
[done] serialize: matrix
[done] 辞書のコンパイルとロードをformat-info使う方式に切り替え
[done] コマンドから辞書のコンパイルが出来る
[done] DAT構築時の空き領域確保を高速にする
[done] フォーマットを指定してコンパイルすることができる
[done] 複数の同一表記単語を正しく扱う
[done] 単語一覧の高速なシリアライズ/デシリアライズ
[done] 機能: UTF8以外の文字コードの辞書ソース読める
[done] その他: READMEに使用例かく
[done] 機能: コンパイル時、出力先ディレクトリがなかったら作る
[done] 機能: feature left,rightを区別する
------ その他: FeaturesとWordsまわりのリファクタリング
------ パフォーマンス: matrixの高速なシリアライズ/デシリアライズ
------ パフォーマンス: matrixがsymmetricなとき圧縮する
------ パフォーマンス: Words, groupsのシリアライズにMarshalを使わない
------ パフォーマンス: 辞書ロードのベンチマーク(MeCab,igo,igo-ruby)
------ パフォーマンス: 解析のベンチマーク
------ パフォーマンス: DAT,単語の表記復元機能つけてWordsから表記けす
------ パフォーマンス: feature idがsymmetricなときWordを圧縮する
------ パフォーマンス: WordDic構築時、不要なデータ捨てる
------ パフォーマンス: DAT,TAIL実装
------ 機能: MeCab 互換レイヤ(Okura::Compat)
------ 機能: 辞書バイナリファイル、エンディアンを厳密に指定する
------ 機能: 未知語の品詞を未知語にできる
------ 機能: 単語の付加情報対応
------ その他: 辞書ファイルのエンコーディングにUTF-8を指定したときの警告抑制
------ その他: READMEをリッチテキスト化
------ 機能: gomokuとかで使ってたはずの軽量辞書についてしらべる
------ 機能: Ruby1.8での動作確認
------ 機能: 解析、UTF8以外にも対応
------ 機能: BOS/EOSのIDを可変にできる