diff --git "a/src/content/2024-11-29-\350\262\247\344\271\217\344\274\201\346\245\255\345\220\215\343\202\265\343\202\270\343\202\247\343\202\271\343\203\210\346\251\237\350\203\275\351\226\213\347\231\272.md" "b/src/content/2024-11-29-\350\262\247\344\271\217\344\274\201\346\245\255\345\220\215\343\202\265\343\202\270\343\202\247\343\202\271\343\203\210\346\251\237\350\203\275\351\226\213\347\231\272.md" index a991154eff..ec1ec3bec7 100644 --- "a/src/content/2024-11-29-\350\262\247\344\271\217\344\274\201\346\245\255\345\220\215\343\202\265\343\202\270\343\202\247\343\202\271\343\203\210\346\251\237\350\203\275\351\226\213\347\231\272.md" +++ "b/src/content/2024-11-29-\350\262\247\344\271\217\344\274\201\346\245\255\345\220\215\343\202\265\343\202\270\343\202\247\343\202\271\343\203\210\346\251\237\350\203\275\351\226\213\347\231\272.md" @@ -483,7 +483,12 @@ ICU normalizerなどのプラグインのほか、独自で入れているChar f それぞれのtokenizerの設定は次のとおりです。 ngramは、最小文字数2、最大文字数3で設定してます。これはあいまい検索のためにできるだけ単語を分割したほうが引っかかりやすいためです。 -一方で、Edge ngramでは最大文字数を15まで拡大してます。これは前方一致の検索が次々と文章が打たれるたびに更新されていくためです。 +一方で、Edge ngramでは最大文字数を15まで拡大してます。これは前方一致の検索が次々と文章が打たれるたびに検索が一致で絞り込まれるようにするためです。 + +| 入力テキスト | N-gram (n=2) | Edge N-gram (min=1, max=15) | +|------------|--------------|---------------------------| +| 株式会社 | 株式, 式会, 会社 | 株, 株式, 株式会, 株式会社 | +| テスト開発 | テス, スト, ト開, 開発 | テ, テス, テスト, テスト開, テスト開発 | ## インデックスの読み取り専用化