V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
爱意满满的作品展示区。
freefreesea
V2EX  ›  分享创造

刚做了个全网突发热点功能

  •  
  •   freefreesea · 1 天前 · 1501 次点击

    热榜站加上了全网突发热点功能。

    逻辑上主要是通过历史很多亿条实时数据,通过文本指纹去判断热点相似性,然后以他在某个时间段内出现在不同的平台数为依据去划分是否属于突发热点。

    朋友们可以帮忙看一看。

    热榜站: https://tgmeng.com

    39 条回复    2025-12-23 22:51:05 +08:00
    wennuan
        1
    wennuan  
       1 天前
    非常好用
    andykuen959595
        2
    andykuen959595  
       1 天前
    感觉网页有点卡顿
    cryptovae
        3
    cryptovae  
       1 天前
    AI 实时简报能不能搞个点击开启,再点击关闭,不然还得下拉找到关闭按钮(第一次我没发现在下面,小屏幕)
    yu65112233ga1ac
        4
    yu65112233ga1ac  
       1 天前
    为啥叫糖果梦,感觉和功能不太相关。
    freefreesea
        5
    freefreesea  
    OP
       1 天前   ❤️ 1
    @cryptovae 简报的话,点击旁边的非简报区域就关闭了
    regent
        6
    regent  
       1 天前
    排版还可以再改进些,信源的名字都变成竖向排版了,例如:
    ZA
    KE
    R
    freefreesea
        7
    freefreesea  
    OP
       1 天前
    @yu65112233ga1ac 是有点不太相关哈,哈哈哈。不过是因为,个人觉得现在很多技术领域的东西对普通人很不友好,所以能通过自己去做一点对普通大众的日常生活有落地用处的东西,是长久以来的夙愿。甜甜的,美美的,科技不该冰冷
    chunhai
        8
    chunhai  
       1 天前
    感觉移动端的适配有点问题啊,能不能优化一下。
    sunnysab
        9
    sunnysab  
       1 天前
    一直有个想法:能不能用 AI 总结新闻并整理出一个事件发展的时间线?像知乎上某个实时问题那样。但我不知道怎么做,可能需要聚类?我做了一套金十的实时新闻,目前只做了获取,觉得理清不同的线才算完美。

    op 的网站很棒,但真正用时,信息源太多了一些?(当然不是坏事 hhh )
    freefreesea
        10
    freefreesea  
    OP
       1 天前
    @sunnysab 其实有个困难点。
    就是文本指纹聚类,也就是如何判断某些标题属于同一个。我目前是自己给标题算的 simhash 然后通过汉明距离去判断的,当然这样存在误判的可能性。最好的方案是交给 ai 去判断,但是数据源太多了,我每天会产生 1500 万+条热点数据,假设每个标题十个字符(极其保守),那么就是一次要喂给 AI 1.5 亿个字符。而这还仅仅是一天的数据量,那如果是一个月,就是 50 亿个字符了,实际几百上千亿字符。

    问题就在这,一是大部分 ai 支持不了这么大的吞吐,而是就算支持,这个费用也是普通人远远无法承担的,再就是处理返回的时间会非常非常久。这是最大的问题,通俗点就是如何找相同热点。
    freefreesea
        11
    freefreesea  
    OP
       1 天前
    @sunnysab 你数据量不大的情况下,比如一天就几万条数据,喂给 ai 最多也就是几十万个字符。这个 ai 处理起来就很轻松了,只要你的数据里包含时间这个属性,他基本就理的明明白白的。
    topang
        12
    topang  
       1 天前
    好家伙,收藏了! excel 那边的突发好像不行?
    freefreesea
        13
    freefreesea  
    OP
       1 天前
    @topang 只要主站没问题,excel 应该就没问题,因为是同一套数据。
    我刚看了一下,进去 excel 的时候,里面默认展示的分类是你在网站主页的分类。

    如果主页你是在 [突发热点] / [收藏] 这两个页面的话,进去 excel 里面就会显示没数据,因为这两个数据是独立的,并且突发热点的数据形式在 excel 里面是没法展示的。

    如果你是从非上面两个页面进去 excel ,那数据应该是都是展示正常的。
    yaoppp
        14
    yaoppp  
       1 天前
    倒计时不用显示多少多少秒吧,改成分钟就够准确了
    yaoppp
        15
    yaoppp  
       1 天前
    ui 有点儿乱,每个新闻标题前面都有个趋势线的 icon ,后面都有个着火的 icon ,这就没意义了。另外,留言区没有完全适配 light theme
    freefreesea
        16
    freefreesea  
    OP
       1 天前
    @yaoppp 热点基本是每分钟刷新一次,所以时间显示需要精确到秒级
    freefreesea
        17
    freefreesea  
    OP
       1 天前
    @yaoppp 新闻标题前面的趋势线 icon 是可以点击的,功能是历史热点追踪,后面带火的,是对应平台自己的热度值。所以还是不太一样的应该
    metalvest
        18
    metalvest  
       1 天前 via Android
    不大对劲,突发里面有一条是北京大模型第一股,点开只有一条是这个标题,其他的是北京震感之类的
    mertas
        19
    mertas  
       1 天前
    谢谢,后续能否把同一条行为,聚合整理一下
    freefreesea
        20
    freefreesea  
    OP
       22 小时 44 分钟前 via Android
    @metalvest 是,目前没有用大模型,单纯用的文本指纹判断的,准确度还是有比较大的问题
    freefreesea
        21
    freefreesea  
    OP
       22 小时 44 分钟前 via Android
    @mertas 热的历史追踪吗
    72
        22
    72  
       21 小时 24 分钟前
    向量搜索+DBSCAN 聚类 会不会让突发热点的相关性强一点
    saviorjiang
        23
    saviorjiang  
       20 小时 0 分钟前
    卧槽,哥们,f12 ->网络 -> xhr , 为啥一堆玩偶 jj 图片?
    snow0
        24
    snow0  
       19 小时 55 分钟前
    热点竟然没看到快播事件
    freefreesea
        25
    freefreesea  
    OP
       19 小时 23 分钟前 via Android
    @72 慢慢优化吧
    freefreesea
        26
    freefreesea  
    OP
       19 小时 22 分钟前 via Android
    @saviorjiang 哈哈,excel 里是有彩蛋的
    freefreesea
        27
    freefreesea  
    OP
       19 小时 22 分钟前 via Android
    @snow0 算法有待优化
    livib
        28
    livib  
       18 小时 58 分钟前
    能不能直接在站点阅读正文(或者 AI 总结)?
    freefreesea
        29
    freefreesea  
    OP
       18 小时 53 分钟前
    @livib 当然兄弟能够提供 ai 额度的话,很好实现了。每分钟 20 万个字符左右,一天大概 2.88 亿字符。坐等好兄弟提供 token 了
    aero99
        30
    aero99  
       18 小时 50 分钟前
    有没有自定义分类啊,比如我想设置首页为我挑选的卡片展示墙
    freefreesea
        31
    freefreesea  
    OP
       18 小时 47 分钟前
    @aero99 默认展示收藏分类不就好了
    MindMindMax
        32
    MindMindMax  
       16 小时 3 分钟前
    用起来了
    morphyhu
        33
    morphyhu  
       14 小时 23 分钟前
    又多了一个垃圾网站.
    ParfoisMeng
        34
    ParfoisMeng  
       14 小时 14 分钟前
    书签+1 ,希望持续更新
    oppressed6370
        35
    oppressed6370  
       10 小时 48 分钟前
    用起来了,但是移动端显示不太好啊
    freefreesea
        36
    freefreesea  
    OP
       10 小时 46 分钟前
    @oppressed6370 现在移动端应该舒服很多了吧,不舒服的话,具体是指哪部分或者哪种交互
    oppressed6370
        37
    oppressed6370  
       10 小时 13 分钟前
    @freefreesea 现在好了,要手动修改边距缩进,我设置 95 就好了
    freefreesea
        38
    freefreesea  
    OP
       9 小时 58 分钟前
    @oppressed6370 嗯,因为有的人嫌下滑的时候,容易一直触发卡片内部滚动。所以就做了边距调整和卡片内热点个数设置。
    bennyfu
        39
    bennyfu  
       8 小时 19 分钟前 via iPhone
    Word2vec 啊
    关于   ·   帮助文档   ·   自助推广系统   ·   博客   ·   API   ·   FAQ   ·   Solana   ·   1051 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 26ms · UTC 23:10 · PVG 07:10 · LAX 15:10 · JFK 18:10
    ♥ Do have faith in what you're doing.