咨询问题

document_bert_architectures.py
class DocumentBertSentenceChunkAttentionLSTM
def forward(...)

bert_output 的size = (batch_size, max_seq_len, num_hiddens)，其中有些数据未达到max_seq_len， 会是0，
[ 
[[x,x,...x],[x,x,...,x]...,[x,x,...,x]], --- 达到max_seq_len的数据，
[[x,x,...x],[x,x,...,x]...,[0,0,...,0]], ----未达到max_seq_len的数据，
] 

但经过LSTM之后，相应部分值为非0，
后续这部分非0值还参与了之后的attention score，这部分是不是有问题？不知道我理解的对不对。