刚做了个全网突发热点功能

1 天前
 freefreesea

热榜站加上了全网突发热点功能。

逻辑上主要是通过历史很多亿条实时数据,通过文本指纹去判断热点相似性,然后以他在某个时间段内出现在不同的平台数为依据去划分是否属于突发热点。

朋友们可以帮忙看一看。

热榜站: https://tgmeng.com

1527 次点击
所在节点    分享创造
39 条回复
wennuan
1 天前
非常好用
andykuen959595
1 天前
感觉网页有点卡顿
cryptovae
1 天前
AI 实时简报能不能搞个点击开启,再点击关闭,不然还得下拉找到关闭按钮(第一次我没发现在下面,小屏幕)
yu65112233ga1ac
1 天前
为啥叫糖果梦,感觉和功能不太相关。
freefreesea
1 天前
@cryptovae 简报的话,点击旁边的非简报区域就关闭了
regent
1 天前
排版还可以再改进些,信源的名字都变成竖向排版了,例如:
ZA
KE
R
freefreesea
1 天前
@yu65112233ga1ac 是有点不太相关哈,哈哈哈。不过是因为,个人觉得现在很多技术领域的东西对普通人很不友好,所以能通过自己去做一点对普通大众的日常生活有落地用处的东西,是长久以来的夙愿。甜甜的,美美的,科技不该冰冷
chunhai
1 天前
感觉移动端的适配有点问题啊,能不能优化一下。
sunnysab
1 天前
一直有个想法:能不能用 AI 总结新闻并整理出一个事件发展的时间线?像知乎上某个实时问题那样。但我不知道怎么做,可能需要聚类?我做了一套金十的实时新闻,目前只做了获取,觉得理清不同的线才算完美。

op 的网站很棒,但真正用时,信息源太多了一些?(当然不是坏事 hhh )
freefreesea
1 天前
@sunnysab 其实有个困难点。
就是文本指纹聚类,也就是如何判断某些标题属于同一个。我目前是自己给标题算的 simhash 然后通过汉明距离去判断的,当然这样存在误判的可能性。最好的方案是交给 ai 去判断,但是数据源太多了,我每天会产生 1500 万+条热点数据,假设每个标题十个字符(极其保守),那么就是一次要喂给 AI 1.5 亿个字符。而这还仅仅是一天的数据量,那如果是一个月,就是 50 亿个字符了,实际几百上千亿字符。

问题就在这,一是大部分 ai 支持不了这么大的吞吐,而是就算支持,这个费用也是普通人远远无法承担的,再就是处理返回的时间会非常非常久。这是最大的问题,通俗点就是如何找相同热点。
freefreesea
1 天前
@sunnysab 你数据量不大的情况下,比如一天就几万条数据,喂给 ai 最多也就是几十万个字符。这个 ai 处理起来就很轻松了,只要你的数据里包含时间这个属性,他基本就理的明明白白的。
topang
1 天前
好家伙,收藏了! excel 那边的突发好像不行?
freefreesea
1 天前
@topang 只要主站没问题,excel 应该就没问题,因为是同一套数据。
我刚看了一下,进去 excel 的时候,里面默认展示的分类是你在网站主页的分类。

如果主页你是在 [突发热点] / [收藏] 这两个页面的话,进去 excel 里面就会显示没数据,因为这两个数据是独立的,并且突发热点的数据形式在 excel 里面是没法展示的。

如果你是从非上面两个页面进去 excel ,那数据应该是都是展示正常的。
yaoppp
1 天前
倒计时不用显示多少多少秒吧,改成分钟就够准确了
yaoppp
1 天前
ui 有点儿乱,每个新闻标题前面都有个趋势线的 icon ,后面都有个着火的 icon ,这就没意义了。另外,留言区没有完全适配 light theme
freefreesea
1 天前
@yaoppp 热点基本是每分钟刷新一次,所以时间显示需要精确到秒级
freefreesea
1 天前
@yaoppp 新闻标题前面的趋势线 icon 是可以点击的,功能是历史热点追踪,后面带火的,是对应平台自己的热度值。所以还是不太一样的应该
metalvest
1 天前
不大对劲,突发里面有一条是北京大模型第一股,点开只有一条是这个标题,其他的是北京震感之类的
mertas
1 天前
谢谢,后续能否把同一条行为,聚合整理一下
freefreesea
1 天前
@metalvest 是,目前没有用大模型,单纯用的文本指纹判断的,准确度还是有比较大的问题

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://ex.noerr.eu.org/t/1180453

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX