Taku-s-Paper-Hub/NLP方向思索.md at master · zhuobinggang/Taku-s-Paper-Hub · GitHub

段落分割，使用类似segbot那样的技术，相当于将上次分割信息作为已知知识的一部分保留下来，内化为架构的一部分
- 优点？保留了之前的分割信息，相信对下一次分割点的判断有所帮助（可是谷歌的实验怎么说？bert表示并非如此）
- 缺点？好像没办法批处理了
我完全可以将以前的信息保留下来，然后detach，作为h0输入，作为下次判断的信息而且不用backprob过分长的距离。对保留信息作为h0输入，和不保留信息（使用空h0），进行对比验证保留信息的重要性。
说法：增加TF层，可以让TF学习位置信息。方向检讨：能否做验证实验？能否摆脱位置embedding？因为直观上来说，全部交由模型学习会更好。
VAE只是在两个标签之间建立联系，而跨标签无法建立有效联系，比如1和3之间应当经过2才对，考虑下怎么整。
通过拉近相邻数字(比如1和2，3和4)向量的距离，构建逻辑潜在空间 (试了，很tricky，)