Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Web取込機能を用いてハーメルンの小説を取り込むと、章の詳細がわかりにくくなる #82

Open
limura opened this issue Dec 9, 2017 · 2 comments
Assignees

Comments

@limura
Copy link
Owner

limura commented Dec 9, 2017

ご意見ご要望フォームより

新しく追加されたweb機能についてです。ハーメルンなどのサイトでは第1章(1)(2)(3)第2章(1)(2)(3)のようになっています。そのため、今ダウンロードしたのはどこまでなのかがわかりにくいです。それと、ダウンロードしても順番などもわかりにくいです。

@limura limura self-assigned this Dec 9, 2017
@limura
Copy link
Owner Author

limura commented Dec 9, 2017

例になりそうなもの

小説のトップページ(?)に章のリストがある
https://syosetu.org/novel/75327/
この小説の場合、

  OPENING 2016年02月03日(水) 17:57(改)
外伝
  知られざる闘い――月は堕ちた 2016年02月16日(火) 09:45
  黒森峰戦車中隊、前へ! 2016年02月20日(土) 00:33(改)
[中略]
episode ONE
  邂逅~1 2016年02月04日(木) 21:46(改)
  邂逅~2 そして契約 2016年02月05日(金) 18:18(改)

といった感じになっている。
「外伝」や「episode ONE」といった部分を section,
「知られざる闘い」や「邂逅〜1」といった部分を subsection と呼ぶとすると、
最初の「OPENING」subsection には section が無いので構造的には単純な作り方だとマズそう。

また、個々の subsection のページ
https://syosetu.org/novel/75327/2.htmlhttps://syosetu.org/novel/75327/3.html といったもの
では、(この小説だけなのか、それともサイト全体の仕様なのかは不明だが)、最初の subsection にしか section名 が書かれていない。
また、section名, subsection名 のそれぞれが書かれているエレメントは一つの <span> で囲われており、xpath で分解することができない。

以上の事から、ちょっと面倒くさそうというか簡単にはできなさそうですねぇ……
あるといいのはわかりますけれども。(´・ω・`)

@limura
Copy link
Owner Author

limura commented Dec 9, 2017

とはいえ、章毎のタイトルを表示したりする機能があるといいかもわからんので、章毎のタイトルを保存する領域は作っておいたほうがいいかもしれない。
subsection まで作るべきかはちょっと議論の余地があるというか、この例の場合では section と subsection は人間には見分けられそうだが機械には見分けづらそうであるので section+subsection でひとまとめにしてしまう方が簡単なのではないかと思われる。とりあえず、他のサイトではどうなのかを確認する必要がありそう。

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Projects
None yet
Development

No branches or pull requests

1 participant