-
Notifications
You must be signed in to change notification settings - Fork 13
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
咨询问题 #9
Comments
如果我理解的没问题,可以设计一个list,记录之前每个数据分成chunk时的数目,传入forward函数作为参数 假设已经有了长度记录的chunk_length,修改代码如下 for doc_id in range(document_batch.shape[0]): .... |
I tried your this method in oral english essay scoring. But it didn't work (get a better result).
There are other questions, like Adam vs AdamW, and the 0 problems about LSTM and attetion i mentioned in this slot. Maybe there is someghing wrong with my implementation, but these code is limited and most using your inference code, I will try to figure out if there is anything wrong with my code. Hope for your reply. Thanks. |
你说的事实是可能发生的,有些较短的文章,最后确实会pad 0。 但我们认为模型在训练的过程中,应该能学习到这样的模式,在多份数据上实验,最后效果都是有较明显提升的。 |
|
我这边验证代码是否OK,主要通过只使用片段特征进行验证的,如只使用30片段特征,它和只使用篇章DOC的CLS效果基本相当,所以能大致能确定片段特征代码应该没问题。 后续我这边也去通过写作数据,验证下代码是否OK。
主要指不同的片段,使用不同的u_omega (query向量),比如片段30,使用一个u_omega_30, 换一个片段90,使用不同的u_omega,如u_omega_90。
感谢答复指导,谢谢。 |
建议优先在写作数据上验证下:在DOC 特征、TOKEN特征基础上,继续加入单尺度片段特征是否有提升。
可理解为一种特殊的ensemble(多个尺度去分析文章,并综合利用多个尺度的信息)。 DOC CLS 和 TOKEN特征都是比较有用的,多尺度片段特征其实就是一些mid level的特征,对最后的结果也起到还不错的作用,它虽然和BERT预训练数据不一定完全匹配,但也利用了其语言模型建模的能力。在paper中我们做了关于尺度方面的一些实验。
这里和你其他2点疑问(3和4)类似,我们使用相同的参数建模片段特征,主要也考虑到复杂度的问题。 |
document_bert_architectures.py
class DocumentBertSentenceChunkAttentionLSTM
def forward(...)
bert_output 的size = (batch_size, max_seq_len, num_hiddens),其中有些数据未达到max_seq_len, 会是0,
[
[[x,x,...x],[x,x,...,x]...,[x,x,...,x]], --- 达到max_seq_len的数据,
[[x,x,...x],[x,x,...,x]...,[0,0,...,0]], ----未达到max_seq_len的数据,
]
但经过LSTM之后,相应部分值为非0,
后续这部分非0值还参与了之后的attention score,这部分是不是有问题?不知道我理解的对不对。
The text was updated successfully, but these errors were encountered: