BERT 论文复现: 经验 & 教训

44 天前
 huangyezhufeng

https://datahonor.com/blog/2025/11/02/bert/

目录:

关于我们做到了哪一步
BERT 简介
有趣的观察
    预训练过程的有趣现象
    数据非常非常重要
    从 Finetune 管窥预训练的威力
错误与教训
    即使在极小数据集上也无法过拟合
    一次性预处理全量数据,CPU 加班,GPU 休假
    试图用临时手搓的玩意儿达到很好的性能
    workers 和 prefetch 因子设得过大导致 OOM
    没有优雅处理 DataLoader worker 的异常
    评估时使用了错误的 tokenizer
最后
807 次点击
所在节点    机器学习
2 条回复
dryadent
44 天前
看错误和教训就知道是真正训练了的, [ workers 和 prefetch 因子设得过大导致 OOM] 这个是刚做的人经常会遇到的问题~
huangyezhufeng
44 天前
@dryadent 👍,确实是踩过坑才知道:D

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://ex.noerr.eu.org/t/1170130

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX