「小説家になろう」のコンテンツ類似度の可視化

小ジャンル一覧

異世界(恋愛)
現実世界(恋愛)
ハイファンタジー(ファンタジー)
ローファンタジー(ファンタジー)
純文学(文芸)
ヒューマンドラマ(文芸)
歴史(文芸)
推理(文芸)
ホラー(文芸)
アクション(文芸)
コメディー(文芸)
VRゲーム(SF)
宇宙(SF)
空想科学(SF)
パニック(SF)
童話(その他)
詩(その他)
エッセイ(その他)
リプレイ(その他)
その他(その他)
ノンジャンル(ノンジャンル)

仕様

ベースモデル: 東北大BERT
fine turning: なろうAPIによって取得したデータ
埋め込み: [CLS]

課題

学習に使用できるデータが制限されてしまう
- ネット小説の為、あらすじ欄に必ずしもその小説を表しているあらすじが書かれているとは限らない事が理由
作品数が多すぎる

解決策

学習データは通算評価が多い順のn件のみとする（評価が多い小説=あらすじ欄が適切であるものが多いと仮定）
実験的に月間評価数(monthly)と、通算評価数(hyokacnt)が高い1000件ほどのみ対象

検証

実際に学習が反映されているかを確認する。今回は以下4つのジャンルの結果を載せることとする。

現実世界(恋愛)
異世界(恋愛)
純文学
歴史

評価

現実世界(恋愛)

異世界(恋愛)

現実世界(恋愛)と異世界(恋愛)はそれぞれ分散が小さく、恋愛という共通点がある為両者の距離が近い事が分かる。

純文学

対称的に純文学は比較的分散が大きい事が分かる。確かに異世界モノと比べれば直感的には統一感が薄そう。

歴史

最後に歴史は以上に小さい事が分かる。確かに歴史はなんとなく好き好みが分かれる気がする。。。

future work

やるかは不明だが、とりあえず書き留めておく。

小説全体の埋め込み(API制限などもあったため、今回は1000件ほどに絞ってしまった)
webアプリ化(Flask?)

Name		Name	Last commit message	Last commit date
Latest commit History 46 Commits
images		images
oss_data		oss_data
README.md		README.md
favicon.png		favicon.png
index.html		index.html
preview.png		preview.png

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

「小説家になろう」のコンテンツ類似度の可視化

小ジャンル一覧

仕様

課題

解決策

検証

評価

現実世界(恋愛)

異世界(恋愛)

純文学

歴史

future work

About

Releases

Packages

Languages

cisetn/narou-embedding-projecter

Folders and files

Latest commit

History

Repository files navigation

「小説家になろう」のコンテンツ類似度の可視化

小ジャンル一覧

仕様

課題

解決策

検証

評価

現実世界(恋愛)

異世界(恋愛)

純文学

歴史

future work

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages