Skip to content

cisetn/narou-embedding-projecter

 
 

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

46 Commits
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

「小説家になろう」のコンテンツ類似度の可視化

小ジャンル一覧

  • 異世界(恋愛)
  • 現実世界(恋愛)
  • ハイファンタジー(ファンタジー)
  • ローファンタジー(ファンタジー)
  • 純文学(文芸)
  • ヒューマンドラマ(文芸)
  • 歴史(文芸)
  • 推理(文芸)
  • ホラー(文芸)
  • アクション(文芸)
  • コメディー(文芸)
  • VRゲーム(SF)
  • 宇宙(SF)
  • 空想科学(SF)
  • パニック(SF)
  • 童話(その他)
  • 詩(その他)
  • エッセイ(その他)
  • リプレイ(その他)
  • その他(その他)
  • ノンジャンル(ノンジャンル)

仕様

  • ベースモデル: 東北大BERT
  • fine turning: なろうAPIによって取得したデータ
  • 埋め込み: [CLS]

課題

  1. 学習に使用できるデータが制限されてしまう
    • ネット小説の為、あらすじ欄に必ずしもその小説を表しているあらすじが書かれているとは限らない事が理由
  2. 作品数が多すぎる

解決策

  1. 学習データは通算評価が多い順のn件のみとする(評価が多い小説=あらすじ欄が適切であるものが多いと仮定)
  2. 実験的に月間評価数(monthly)と、通算評価数(hyokacnt)が高い1000件ほどのみ対象

検証

実際に学習が反映されているかを確認する。今回は以下4つのジャンルの結果を載せることとする。

  • 現実世界(恋愛)
  • 異世界(恋愛)
  • 純文学
  • 歴史

評価

現実世界(恋愛)

genjitu_renai

異世界(恋愛)

isekai_renai 現実世界(恋愛)と異世界(恋愛)はそれぞれ分散が小さく、恋愛という共通点がある為両者の距離が近い事が分かる。

純文学

junbungaku 対称的に純文学は比較的分散が大きい事が分かる。確かに異世界モノと比べれば直感的には統一感が薄そう。

歴史

rekishi 最後に歴史は以上に小さい事が分かる。確かに歴史はなんとなく好き好みが分かれる気がする。。。

future work

やるかは不明だが、とりあえず書き留めておく。

  • 小説全体の埋め込み(API制限などもあったため、今回は1000件ほどに絞ってしまった)
  • webアプリ化(Flask?)

Releases

No releases published

Packages

No packages published

Languages

  • HTML 100.0%