V2EX › NoOneNoBody 的所有回复 › 第 151 页 / 共 230 页

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

1 ... 147 148 149 150 151 152 153 154 155 156 ... 230

❮

❯

2023-11-18 21:35:03 +08:00

回复了 Richard14 创建的主题 › Python › 预训练模型在预训练时操作是如何做的？

@Richard14 #4
我举个自己的例子吧，虽然跟人家没法比，但过程是可以说一说的
我用 KNN 做一个小小小小模型，数据少于 1w ，tag 只有两个：True/False ，可以说极其简单了
这个模型基本各种参数都选定了，不用调，唯一要调整的近邻 n 的个数，可选为 4~15 ，共 12 个
然后将数据随机方式分 20 组，每组有训练样本和测试样本
将每组和 12 个可选参数，用训练样本各训练一次，然后用测试样本测试，这样共 240 次测试
最终选定 n=8 ，因为 n=8 时所有测试结果都落在 96.5~98%之间，是最稳定的
其实 96~98%并非最好的，当 n=12 时，有三组得出了 99%以上的，但是 n=12 的其他 17 组，最低还出现 88%，分布很乱；所以 n=12 是不能用的，因为用到真正产出时，结果的准确性无法预计

我想说的是，光一个仅 12 可选项的参数的调参工作，工作量就达到 240 组，多个参数可想而知，这里 KNN 的训练只是纯粹打包，几分钟而已，而有些模型的一次训练就要几小时甚至几天（视乎算力）
当然，可以只用一组作为调参测试就选定参数(只跑 12 次)，但实用时的结果嘛……可能要骂娘了

然后，上述还忽略了一个重要问题：采样数据是否合理，如果不合理，前面说的所有的工作都是白搭
因为我个人能力有限，只能获得这小一万的数据，更多我就要花钱雇人帮我收集了，还不是雇一个人就能搞定的
所以我手头的这一万数据，是否有代表性，分布是否合理，这里还有采样学的分析（上面只是默认为合理）
例如我要做一个买菜意愿的模型，然后我从程序员采集了一万数据，但程序员买菜的极少，这样的数据做出的模型用在评估家庭主妇，那就是错漏百出、惨不忍睹，大概就是这个意思
例如现在的公开人脸提取模型，用于欧洲人比亚洲人更精准，就是因为采集做模型的数据欧洲人占多这个原因

你如果看过我写的其他帖子（回复帖），我说过，AI 是一个长久的工作，需要几代人努力，包括机器学习和深度学习，目前还没有一个算法能通吃不同领域的，所以做模型时还有选数学算法(或者组合算法)的步骤
目前文献还是说基础算法的实现，至于用到实处，因为不同的数学算法在不同领域表现不同，就需要做业务模型的人自己来选择并测试了，文献换个角度看就是说某个算法能把模型做出来，但结果不能打包票
例如我上面这个例子，用 CNN 或者其他也能做，只是我嫌麻烦（部分是不熟悉），所以没有用其他算法测试，说到底就是懒，96%的结果我可以接受，如果只有 70%，我可能就要硬着头皮换其他了，那样的话又是新一轮工作量了

2023-11-18 18:08:15 +08:00

回复了 huangya 创建的主题 › Windows › windows 系统如何对整个硬盘进行克隆

@ntedshen #16
是，多年前被微软收购的

2023-11-18 16:32:50 +08:00

回复了 unregister 创建的主题 › 职场话题 › 领导说业余时间多学一下技术，我很想反驳，领导这是 pua 吗？如果不是的话该有怎么样的反应比较好，另外如果手头上有多个项目的话，该怎么处理呢？

“时间不够用啊，老大你是怎么腾出时间的？不用陪老婆孩子么？”

2023-11-18 16:28:51 +08:00

回复了 huangya 创建的主题 › Windows › windows 系统如何对整个硬盘进行克隆

看附言的话，这是全盘同步啊
如果内容经常变动，还要实时的话，估计没有

2023-11-18 16:01:20 +08:00

回复了 Richard14 创建的主题 › Python › 预训练模型在预训练时操作是如何做的？

网上有些从零开始训练自己模型的文章，当然写得比较简单（包括例子和步骤），但基本就是这样
就是数据、打 tag 、调参训练

现在一些公开的预训练模型是非常复杂的，关键是调参，一来参数比上述的例子多得多，二来步骤也是反反复复，不是一次训练就完成的，每一次调参都要重新训练并对比结果，然后逐步收敛参数的范围，直到连续多次的训练测试结果接近才能视为完成，如果遇到结果不理想（无法突破预想效率值），甚至要推倒重来

为什么这些模型都是一些机构发布，而不是个人，就是因为个人搜集数据能力有限，算力有限，做这些复杂训练少点硬件投资都没什么用，例如 openai 早期的模型租用了多少算力？所花的钱哪怕给我一成，我都可以完全躺平过完剩下的日子了
如果你想看一些预训练模型是怎么得出来的，要去技术杂志搜，前提是他们有公开，例如之前超导那事，别人可以用公开的数据进行实验或验证

2023-11-18 15:19:02 +08:00

回复了 ZeawinL 创建的主题 › 生活 › 你是如何看待家庭个体之间资源不平等的？

如何看待就是“不看待”
这事没法改变，因为无论怎么努力，只能改变自己和自己家庭的资源，而不是“资源不平等”这件事，实际上，当自己努力时，对其他人来说，自己也是资源不平等的制造者之一

只有人<<<<<资源，例如空气，又或者原始社会人口极少时，才会显得“平等”
这个事没必要想，想得越多，越容易进入牛角尖，既然不平等必然存在，无论向哪个方向想，都是某个相对立场而已
建设伟大的共产主义吧，那时就人人平等了，老子没有后代，就不研究这个方向了

2023-11-18 13:45:23 +08:00

回复了 pauluswanggang 创建的主题 › Google › 为什么我的谷歌账户有这个提醒？

这是在哪里显示的？从没见过这个界面

2023-11-18 13:26:45 +08:00

回复了 kongkongye 创建的主题 › OpenAI › 做个什么样的 AI 应用的思考

@customer #10
首先，国内应该很少人会为一个聊天场景付费，试想一下 apple 把 siri ，小米把小爱单独抽出来收费会如何
我很好奇“文心一言”付费用户是否只有技术人员和法人
其次，我指的是“泛生活问题”，不是就一个京东比价就想收费

看怎么把这个 AI 融入可收费的项目中，并计入成本，如小爱
运营的思维要拓宽一些

2023-11-17 16:50:18 +08:00

回复了 wzw 创建的主题 › OpenAI › 试用了一下 bard, 感觉已经很不错了呀. 问了几个经典和最新的问题, 感觉都不错, 准备多试试

@bsmasnorea #9
哈哈……

2023-11-17 16:25:31 +08:00

回复了 cpxjaz 创建的主题 › 问与答 › 有没有啥能私有化部署的相册同步软件？

这样的帖子看了无数个
灵魂拷问：相册需要同步么？不是备份能搜就够了么？

2023-11-17 16:20:11 +08:00

回复了 kongkongye 创建的主题 › OpenAI › 做个什么样的 AI 应用的思考

技术人思路总是跳不出技术，你说的那些都是面向技术人员的
其实，技术最应该为普通人服务

我有个需求，你能做到么？
“AI ，请问京东自营 HC550 16T 今天有没有降价？”

2023-11-17 15:59:38 +08:00

回复了 wzw 创建的主题 › OpenAI › 试用了一下 bard, 感觉已经很不错了呀. 问了几个经典和最新的问题, 感觉都不错, 准备多试试

@s609926202 #4
香港的 ip 不行，台湾没试过，坡、日、韩都可以，欧美就更没限制了

2023-11-17 15:56:50 +08:00

回复了 wzw 创建的主题 › OpenAI › 试用了一下 bard, 感觉已经很不错了呀. 问了几个经典和最新的问题, 感觉都不错, 准备多试试

一直用，因为直到昨天都没 chatgpt 帐号（又手机又信用卡的嫌麻烦懒得搞）
就算 so 看到完整的例子我都会改改跑一遍测试的，所以不太在乎能否直接使用，能提醒就够了
只是有些问题在搜索引擎较难用 keyword 搜到，需要描述一下

2023-11-17 15:44:32 +08:00

回复了 wzw 创建的主题 › OpenAI › 试用了一下 bard, 感觉已经很不错了呀. 问了几个经典和最新的问题, 感觉都不错, 准备多试试

我问 python 相关问题(多是 pyqt5)，给出例子半数跑不通，8 成 import 的 namespace 不对要自己改
还出现过几次胡诌函数，不知从哪来的，遍查官方手册都没有，当然报错就肯定了

不过有启发性，虽然跑不通，但给出的方案多是我不知道的，顺着思路自己改还是有用的，帮我搞定了几个长期未解决难题

2023-11-17 12:59:04 +08:00

回复了 smallyu 创建的主题 › 程序员 › 程序员拥有什么样的技术能力会让人有安全感？

反侦查？
说的不仅是刑事，是各种窥探式的“侦查”，例如今年买个空调就享受了几个月的贷款广告，拉黑了近百个号码；奶奶的，我是换空调，不是新家买空调

2023-11-17 12:18:44 +08:00

回复了 1140601003 创建的主题 › 程序员 › 什么语言写 gui 脚本最快呢！

powershell + winform 无需打包，除非为了闭源

@GeruzoniAnsasu #11
me
严格说肯定是有拖过，初学 pyqt 时是用 designer 的
但一个自用的 pyqt5 gui ，粗略数了一下，9 个 tab ，>200 个控件，从开始就全是手打代码

1 ... 147 148 149 150 151 152 153 154 155 156 ... 230

❮

❯