- 段落分割,使用类似segbot那样的技术,相当于将上次分割信息作为已知知识的一部分保留下来,内化为架构的一部分
- 优点?保留了之前的分割信息,相信对下一次分割点的判断有所帮助(可是谷歌的实验怎么说?bert表示并非如此)
- 缺点?好像没办法批处理了
- 我完全可以将以前的信息保留下来,然后detach,作为h0输入,作为下次判断的信息而且不用backprob过分长的距离。对保留信息作为h0输入,和不保留信息(使用空h0),进行对比验证保留信息的重要性。
- 说法: 增加TF层,可以让TF学习位置信息。方向检讨: 能否做验证实验? 能否摆脱位置embedding? 因为直观上来说,全部交由模型学习会更好。
- VAE只是在两个标签之间建立联系,而跨标签无法建立有效联系,比如1和3之间应当经过2才对,考虑下怎么整。
- 通过拉近相邻数字(比如1和2,3和4)向量的距离,构建逻辑潜在空间 (试了,很tricky,)