V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX  ›  NoOneNoBody  ›  全部回复第 151 页 / 共 230 页
回复总数  4588
1 ... 147  148  149  150  151  152  153  154  155  156 ... 230  
2023-11-18 21:35:03 +08:00
回复了 Richard14 创建的主题 Python 预训练模型在预训练时操作是如何做的?
@Richard14 #4
我举个自己的例子吧,虽然跟人家没法比,但过程是可以说一说的
我用 KNN 做一个小小小小模型,数据少于 1w ,tag 只有两个:True/False ,可以说极其简单了
这个模型基本各种参数都选定了,不用调,唯一要调整的近邻 n 的个数,可选为 4~15 ,共 12 个
然后将数据随机方式分 20 组,每组有训练样本和测试样本
将每组和 12 个可选参数,用训练样本各训练一次,然后用测试样本测试,这样共 240 次测试
最终选定 n=8 ,因为 n=8 时所有测试结果都落在 96.5~98%之间,是最稳定的
其实 96~98%并非最好的,当 n=12 时,有三组得出了 99%以上的,但是 n=12 的其他 17 组,最低还出现 88%,分布很乱;所以 n=12 是不能用的,因为用到真正产出时,结果的准确性无法预计

我想说的是,光一个仅 12 可选项的参数的调参工作,工作量就达到 240 组,多个参数可想而知,这里 KNN 的训练只是纯粹打包,几分钟而已,而有些模型的一次训练就要几小时甚至几天(视乎算力)
当然,可以只用一组作为调参测试就选定参数(只跑 12 次),但实用时的结果嘛……可能要骂娘了

然后,上述还忽略了一个重要问题:采样数据是否合理,如果不合理,前面说的所有的工作都是白搭
因为我个人能力有限,只能获得这小一万的数据,更多我就要花钱雇人帮我收集了,还不是雇一个人就能搞定的
所以我手头的这一万数据,是否有代表性,分布是否合理,这里还有采样学的分析(上面只是默认为合理)
例如我要做一个买菜意愿的模型,然后我从程序员采集了一万数据,但程序员买菜的极少,这样的数据做出的模型用在评估家庭主妇,那就是错漏百出、惨不忍睹,大概就是这个意思
例如现在的公开人脸提取模型,用于欧洲人比亚洲人更精准,就是因为采集做模型的数据欧洲人占多这个原因

你如果看过我写的其他帖子(回复帖),我说过,AI 是一个长久的工作,需要几代人努力,包括机器学习和深度学习,目前还没有一个算法能通吃不同领域的,所以做模型时还有选数学算法(或者组合算法)的步骤
目前文献还是说基础算法的实现,至于用到实处,因为不同的数学算法在不同领域表现不同,就需要做业务模型的人自己来选择并测试了,文献换个角度看就是说某个算法能把模型做出来,但结果不能打包票
例如我上面这个例子,用 CNN 或者其他也能做,只是我嫌麻烦(部分是不熟悉),所以没有用其他算法测试,说到底就是懒,96%的结果我可以接受,如果只有 70%,我可能就要硬着头皮换其他了,那样的话又是新一轮工作量了
2023-11-18 18:08:15 +08:00
回复了 huangya 创建的主题 Windows windows 系统如何对整个硬盘进行克隆
@ntedshen #16
是,多年前被微软收购的
“时间不够用啊,老大你是怎么腾出时间的?不用陪老婆孩子么?”
2023-11-18 16:28:51 +08:00
回复了 huangya 创建的主题 Windows windows 系统如何对整个硬盘进行克隆
看附言的话,这是全盘同步啊
如果内容经常变动,还要实时的话,估计没有
2023-11-18 16:01:20 +08:00
回复了 Richard14 创建的主题 Python 预训练模型在预训练时操作是如何做的?
网上有些从零开始训练自己模型的文章,当然写得比较简单(包括例子和步骤),但基本就是这样
就是数据、打 tag 、调参训练

现在一些公开的预训练模型是非常复杂的,关键是调参,一来参数比上述的例子多得多,二来步骤也是反反复复,不是一次训练就完成的,每一次调参都要重新训练并对比结果,然后逐步收敛参数的范围,直到连续多次的训练测试结果接近才能视为完成,如果遇到结果不理想(无法突破预想效率值),甚至要推倒重来

为什么这些模型都是一些机构发布,而不是个人,就是因为个人搜集数据能力有限,算力有限,做这些复杂训练少点硬件投资都没什么用,例如 openai 早期的模型租用了多少算力?所花的钱哪怕给我一成,我都可以完全躺平过完剩下的日子了
如果你想看一些预训练模型是怎么得出来的,要去技术杂志搜,前提是他们有公开,例如之前超导那事,别人可以用公开的数据进行实验或验证
2023-11-18 15:19:02 +08:00
回复了 ZeawinL 创建的主题 生活 你是如何看待家庭个体之间资源不平等的?
如何看待就是“不看待”
这事没法改变,因为无论怎么努力,只能改变自己和自己家庭的资源,而不是“资源不平等”这件事,实际上,当自己努力时,对其他人来说,自己也是资源不平等的制造者之一

只有人<<<<<资源,例如空气,又或者原始社会人口极少时,才会显得“平等”
这个事没必要想,想得越多,越容易进入牛角尖,既然不平等必然存在,无论向哪个方向想,都是某个相对立场而已
建设伟大的共产主义吧,那时就人人平等了,老子没有后代,就不研究这个方向了
2023-11-18 13:45:23 +08:00
回复了 pauluswanggang 创建的主题 Google 为什么我的谷歌账户有这个提醒?
这是在哪里显示的?从没见过这个界面
2023-11-18 13:26:45 +08:00
回复了 kongkongye 创建的主题 OpenAI 做个什么样的 AI 应用的思考
@customer #10
首先,国内应该很少人会为一个聊天场景付费,试想一下 apple 把 siri ,小米把小爱单独抽出来收费会如何
我很好奇“文心一言”付费用户是否只有技术人员和法人
其次,我指的是“泛生活问题”,不是就一个京东比价就想收费

看怎么把这个 AI 融入可收费的项目中,并计入成本,如小爱
运营的思维要拓宽一些
@bsmasnorea #9
哈哈……
2023-11-17 16:25:31 +08:00
回复了 cpxjaz 创建的主题 问与答 有没有啥能私有化部署的相册同步软件?
这样的帖子看了无数个
灵魂拷问:相册需要同步么?不是备份能搜就够了么?
2023-11-17 16:20:11 +08:00
回复了 kongkongye 创建的主题 OpenAI 做个什么样的 AI 应用的思考
技术人思路总是跳不出技术,你说的那些都是面向技术人员的
其实,技术最应该为普通人服务

我有个需求,你能做到么?
“AI ,请问京东自营 HC550 16T 今天有没有降价?”
@s609926202 #4
香港的 ip 不行,台湾没试过,坡、日、韩都可以,欧美就更没限制了
一直用,因为直到昨天都没 chatgpt 帐号(又手机又信用卡的嫌麻烦懒得搞)
就算 so 看到完整的例子我都会改改跑一遍测试的,所以不太在乎能否直接使用,能提醒就够了
只是有些问题在搜索引擎较难用 keyword 搜到,需要描述一下
我问 python 相关问题(多是 pyqt5),给出例子半数跑不通,8 成 import 的 namespace 不对要自己改
还出现过几次胡诌函数,不知从哪来的,遍查官方手册都没有,当然报错就肯定了

不过有启发性,虽然跑不通,但给出的方案多是我不知道的,顺着思路自己改还是有用的,帮我搞定了几个长期未解决难题
2023-11-17 12:59:04 +08:00
回复了 smallyu 创建的主题 程序员 程序员拥有什么样的技术能力会让人有安全感?
反侦查?
说的不仅是刑事,是各种窥探式的“侦查”,例如今年买个空调就享受了几个月的贷款广告,拉黑了近百个号码;奶奶的,我是换空调,不是新家买空调
2023-11-17 12:18:44 +08:00
回复了 1140601003 创建的主题 程序员 什么语言写 gui 脚本最快呢!
powershell + winform 无需打包,除非为了闭源

@GeruzoniAnsasu #11
me
严格说肯定是有拖过,初学 pyqt 时是用 designer 的
但一个自用的 pyqt5 gui ,粗略数了一下,9 个 tab ,>200 个控件,从开始就全是手打代码
1 ... 147  148  149  150  151  152  153  154  155  156 ... 230  
关于   ·   帮助文档   ·   自助推广系统   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   3631 人在线   最高记录 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 53ms · UTC 04:18 · PVG 12:18 · LAX 21:18 · JFK 00:18
Developed with CodeLauncher
♥ Do have faith in what you're doing.