V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX  ›  Xs0ul  ›  全部回复第 5 页 / 共 38 页
回复总数  750
1  2  3  4  5  6  7  8  9  10 ... 38  
2021-08-24 01:20:23 +08:00
回复了 lumaster 创建的主题 问与答 外企/留学求起个合适英文名
有同事是法国人,他会更愿意别人用法语的发音方式来念他的名字。同样很多人第一次和我聊天的时候,也会很客气地问名字拼音怎么发音
1. 就像讨论班,读书会一样,听众的参与度肯定不如分享的那个人。你可以考虑两人轮流准备和挑选题目。
2. 另一方面,楼主可以考虑下会不会每天 3 题太多了,或者同事的进度不如楼主。可以试试两人每天共同刷 1 题,楼主自己额外开小灶做 2 题。因为 3 题做完也得花点时间,再加上讨论,空余时间不一定每天都有这么多。
2021-08-11 02:48:34 +08:00
回复了 minsheng 创建的主题 Apple 关于 Apple 扫描儿童色情照片的技术讨论
@minsheng #49 我理解 LSH 是“匹配”,但这个匹配是基于 CNN 提取出来的 feature 的。要如何保证儿童和成人的照片 feature 不类似呢?

还是我理解错了,目标是只匹配 CSAM 数据集里的照片(以及它们的 augmented 版本),而不考虑泛化?
2021-08-11 01:52:56 +08:00
回复了 minsheng 创建的主题 Apple 关于 Apple 扫描儿童色情照片的技术讨论
@minsheng #37 我想表达的是,因为 CNN 和之后的 LSH 都是无监督的,很难区分儿童色情和成年人的裸照,但前者是要打击的对象,后者却是用户不想让人工审核看的隐私
2021-08-10 23:25:34 +08:00
回复了 minsheng 创建的主题 Apple 关于 Apple 扫描儿童色情照片的技术讨论
虽然说是图片匹配,但这里 CNN 起的作用看起来像 feature extracter 或者 embedding 。放在一般的机器学习论文里,提取出来的结果应该就是当成一般的 feature map 。苹果硬是存成了二进制然后给了个 hash 的名字,还是很难说服别人这是匹配而不是识别。

而且既然这个模型是无监督学习的,我理解是数据集没有特意去区别儿童色情和成年人的色情图片。那这样训练出来的网络,很难说可以区分儿童色情和成年人的裸照。

还没看原文,只看了楼主的介绍。有理解错的欢迎大佬们指出。
2021-07-28 03:51:24 +08:00
回复了 zhoudaiyu 创建的主题 问与答 问一个关于今天被问到的大文件分发策略的面试题
要搞清楚是要问实现还是算法。实现就像大家说的用 bt,怎么分发靠 bt 自己解决。

算法的话,就是考虑“最短时间”。楼主描述的“分成 10000 个 10M 的小文件”,为什么是 10000 和 10 ? 5000 和 20 会不会更快?然后“node 间互相分发”又是怎么个分法,怎么保证不缺少也不重复 /浪费?
查看 passwords.google.com 保存的密码可以用 pin 解锁的
楼主的例子,更像是给单词加前缀而不是所谓的词根词。像 anti 这样的前缀,随便什么词上都可以加,即使是自己生造的别人也能理解。

我和楼上很多人观点一样,建议直接背单词,并且在语境中复习他们
2021-07-23 03:59:48 +08:00
回复了 wuwukai007 创建的主题 Python Python 碰到一题,大家有没有更好的解法
需求不明确,打回去重写(

但作为一个需求,看起来是根据上下文,找出缩写。缩写就定义成每个字都在另一个字符串中。然后统计所有缩写的数量
2021-06-23 12:43:26 +08:00
回复了 AndyAO 创建的主题 问与答 Git 中的 ish 是什么意思?
ish 是"有那么点"或"大约",Google 给的解释是“to some extent”. 在口语里用起来很随意,比如 60-ish 就是 60 左右,而 tree-ish 就是类似树,或者能导向树的。

git 里和真正的 tree 的区别不太清楚,可以看看 https://stackoverflow.com/questions/4044368/what-does-tree-ish-mean-in-git
@NSAgold #80 加钱加配置当然比没有好,而且从你的数据,我觉得 i7 的速度并不是不能接受。毕竟还有这么多同学用的 mac
个人经验:
1. 笔记本是绝对需要的,你上大学还有各种通识课公选课,没笔记本可能会做展示都没法做。因为大家 Office 版本参差不齐,有的老师会选择让大家自己拿笔记本投影而不是用教室电脑。
2. 跑 ML / DL 不等于要 GPU,教学程度的模型 CPU 跑也够了。真用到大模型的时候,学校会提供服务器跑的。
2021-06-08 13:54:01 +08:00
回复了 yeqiu 创建的主题 分享创造 模拟一个社会财富分配实验
推荐理论解 https://www.zhihu.com/answer/254816221

模拟 https://www.zhihu.com/answer/201726206

以及很多回答都提到,在可负债的情况下,每个人的财富接近二项分布,而人群总体在足够多人的情况下趋向正态分布,是一个比均匀分布更常见的分布
2021-06-05 00:30:37 +08:00
回复了 meetocean 创建的主题 阅读 发了一本新书叫幻景时空,需要网友的建议
@meetocean #63 从读者的角度讲,角色听不见自己说话当然很怪,但是属于怪的离谱,以至于没有兴趣往下看到底是为什么。而楼主给的解释,就是引入了无敌的外星人,就感觉是硬圆。

这不见得是设定的问题,而是如何详细描写和体现这个设定。“发音器官正常”的话,科学家测试了能振动吗?振动能通过空气传播出来吗?外星人是怎么样屏蔽的?是把声带转移到了别的时空,还是阻止了改变了局部物理规律,还是给了人物虚假的幻觉?

这样的设定至少要给读者一点能解释的可能性和悬念,读者才有兴趣往下看。如果直接外星人+所谓幻景时空,读者会觉得作者不会讲故事,只能瞎编。
2021-06-04 02:01:02 +08:00
回复了 csfreshman 创建的主题 程序员 leetcode 137 问题讨论
@beidounanxizi #4 从抽象代数的角度来说,真值表版本用的异或是有限域 F_2 上的加法(可以理解为相加以后再对 2 取余数)。这题只要变成 F_3 上的加法就可以了,也就是相加对 3 取余
2021-05-20 22:55:59 +08:00
回复了 svt 创建的主题 程序员 一个算法询问各位大佬
楼主是不是看了个 puzzle 的视频
2021-05-20 22:00:59 +08:00
回复了 Wolfsin 创建的主题 问与答 求解, Panda 比较操作会在一个循环执行第二遍时会报错
好像回晚了,已经定好 group 的话也可以看看:
https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.GroupKFold.html#sklearn.model_selection.GroupKFold

自己写的话,其实楼上用 filter 的可能比用 copy 和 pop 更好一点,或者直接更清晰一点写成类似:
TrainSet = [g for i, g in enumerate(GroupList) if i != j]
2021-05-20 02:54:17 +08:00
回复了 Wolfsin 创建的主题 问与答 求解, Panda 比较操作会在一个循环执行第二遍时会报错
看起来是要自己写 CV ?不如考虑用 sklearn 里的 split ?
2021-05-14 23:08:23 +08:00
回复了 cccooo 创建的主题 Google Google fi 收不到短信怎么回事
检查一下是不是发到 hangouts 里了
1  2  3  4  5  6  7  8  9  10 ... 38  
关于   ·   帮助文档   ·   自助推广系统   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   1351 人在线   最高记录 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 31ms · UTC 16:46 · PVG 00:46 · LAX 09:46 · JFK 12:46
Developed with CodeLauncher
♥ Do have faith in what you're doing.