数据挖掘特征值是什么意思,有没有关于数据挖掘的那些专业名词解释汇总

2024-05-20 15:53:53 +08:00
 UIHIHUHIU

最近在学数据挖掘,有没有关于数据挖掘的那些专业名词解释,比如啥特征值,变异系数,皮尔曼系数啥的,有些完全看不懂,也不教,问 chatGPT 回答不清晰

1576 次点击
所在节点    程序员
11 条回复
snylonue
2024-05-20 16:19:53 +08:00
看上去像线性代数和统计的术语
lrigi
2024-05-20 16:22:17 +08:00
买本数据挖掘的书看看,要不就问 gpt ,gpt 要是回答不清楚这么基础的问题 openai 可以关门了
LXchienne
2024-05-20 16:26:17 +08:00
可以补补基础,统计学习,数理统计这些
Pteromyini
2024-05-20 16:35:51 +08:00
我感觉你应该补的是数理基础,比如线性代数、概率论
UIHIHUHIU
2024-05-20 16:41:19 +08:00
正在学概率论,线性代数好久没看了,不过确实好像是这里面的词
ufo5260987423
2024-05-20 16:48:33 +08:00
特征值一般是矩阵的特征值,和特征向量这个概念是有关的。在数据分析的一些场景下,特征值能够表示一些因素的强度、相关性等等。
皮尔曼系数,如果没记错是描述显著性、相关性的东西。
变异系数不知道是哪个傻逼翻译的,一查是 coefficient ,是标准差和均值的比,用来描述数据的 variance 。

你后面这两个都是频率派统计的东西,我个人更多用贝叶斯派的东西。

前面有位仁兄说买本数据挖掘的书看,well ,绝大多数数据挖掘的书都不咋样。
然后,如果你是要在具体场景应用数据挖掘,那么知道一些名词背下来,把它和业务强行关联起来就行了。数据挖掘需要科学的管理和成熟、稳定的业务模式,我国绝大多数企业比草台班子都不如的管理水平,谈不上业务模式,更谈不上有充分的数据进行挖掘。

业务三天两头拍脑门的,别妄图机械降神。
vivisidea
2024-05-20 16:54:13 +08:00
这个问题 gpt 回答不清晰?不科学,名词解释算是 AI 最擅长的领域了好吧


- 大概率是你问法不对
- 你不理解 gpt 回答的内容,可以追问,可以让它给你举例说明等等
- 用 gpt4
UIHIHUHIU
2024-05-20 18:33:49 +08:00
@ufo5260987423 主要还在上学,对这个方向比较感兴趣,想自己学习,但是还没有什么系统的学习规划,不知道有什么前项课程,从哪里开始学
RichardCheung
2024-05-20 18:58:18 +08:00
特征值:看前后文吧,一般有个矩阵的,比如协方差矩阵?

变异系数:好像是标准差与均值的比值

皮尔曼系数(Pearson 相关系数):-1 到 1 ,绝对值越趋于 1 越相关,符号代表正负相关。
ufo5260987423
2024-05-20 20:53:15 +08:00
@UIHIHUHIU #8 囧
数学你得补课啊,线性代数和概率论必须得学会
然后结合具体场景,往往还有各种假设,和你就业方向相关。

我 15 年本科毕业,单纯数据挖掘还有点意思,18 年研究生毕业的时候就感觉不行了。
Philippa
2024-05-20 21:01:34 +08:00
特征值是指某个维度的数值,可以是连续和不连续的(统计学第一课),数据分析本质上就是不同维度的组合对事情的解释。

pearson 和 spearman 都是相关系数,pearson 是用数值计算相关系数,但是会对数值很敏感,尤其是数据量少的时候。spearman 是先排序再用名次计算相关性,这个就能避免数值敏感,但当然也默认了数据是均匀的。spearman 类似于非连续数据的 one hot encoding 。

所以你看这东西很简单,两三下就能解释清楚了。这个基本上不用去看什么书,我更建议从实际例子出发,捉住重点,再回头看书了解细节。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://ex.noerr.eu.org/t/1042315

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX