0%

记录值得分享的论文; 《Lambda network》: 提出了 lambda layer,通过将上下文转化为线性函数(lambda)来捕获关联性,以此避免attention maps,这样可以应用到长序列或者高分辨率的图象上。

阅读全文 »

在NLP领域越来越依赖预训练模型,那么如何高效使用已经预训练好的模型到自己的模型中呢?本文参考其它博客,做个总结

阅读全文 »