我目前在做图像识别和分类的相关开发工作,(识别性别年龄) 刚开始用的 clip 模型, 但是速度跟不上, 已经上了 5090 * 6, 加 l20 * 4, 速度都不太理想, 吞吐量不行, 后面问了同行, 他们用的是 MobileNetV2 训练调优的, 速度还不错, 我就也想试试了,
训练一圈下来识别率很低(当然这里可能是我写的代码都不行
训练 mobilenet 前问 claude 和 grok, 说 clip 的确笨重, 用 mobilenet 怎么好怎么好
今天效果不满意, 我问 gemini3, 你猜怎么着, 他建议我用 clip 模型, 多模态啊 咋地, 你说他们狗不狗
优点:
懂语义:它看过几十亿张图,知道"骑马的人"长啥样,不会被背景搞晕。
无需训练:不用洗数据,不用跑 epoch ,直接推理。
泛化强:全身照、半身照、卡通图都能认。
1
paopjian 15 小时 49 分钟前
如果只是识别性别年龄这种任务, 直接上 CLIP 有点大炮打蚊子了, 不应该是先用开源模型试验效果么, 比如 insightface 这种, 再考虑是自己训练/整理集,
mobilenet 单纯速度快, 效果低太多了, backbone 有很多选择 mobilenet darknet resnet, 不用指着一个死磕, 你问 AI 什么他们肯定怎么回答你 不懂你这狗不狗什么意思? |
2
v2gba 14 小时 39 分钟前
可能和你的 prompt 也有关系
大部分 AI 有附和用户的毛病(除非用户错的厉害) |
3
lloovve 14 小时 26 分钟前 via iPhone 能不能有点自己的主见?这东西完全要靠自己去验证,具体性能和模型,具体训练的样本,还有优化都有关,不要妄想用简单的东西解决这么复杂的问题,现在人都没办法完全看图个图估计准确年龄。
|
4
tool2dx 14 小时 16 分钟前
你说人狗我还能理解, AI 吐出来的就只是训练数据, 根据你的提问给最佳回答,有啥狗不狗的。
人会骗你,AI 又不会。 |
5
zizon 14 小时 2 分钟前
时代变了,hallucinate 都有人拨乱反正了.
|
6
Alias4ck 35 分钟前
就是懒哈哈哈 总想一口吃个胖子
|
7
sch1111878 OP @v2gba 这个我非常赞同, 很多时候我提示词 规则都写上, 你要有自己的主见, 不要因为我的质疑动摇, 还是不行...
|
8
sch1111878 OP @paopjian 感谢回复, 我这小公司, 就几个人, 也没有相关资源去请教探讨, 真的难受
我用 utkface 数据集训练的, 发现这个数据集的标注本身就有问题, 训练出来的也很离谱 deepface 和 insightface 都试了, |
9
sch1111878 OP @tool2dx 我意思几个模型回答的前后不一致, 差异大
|
10
sch1111878 OP @Alias4ck 不是懒, 是我自己太菜了, 公司又小, 外部资源也不多...
|