V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
xingjia
V2EX  ›  问与答

如何批量爬取公众号的历史文章并且输出 MD 格式?

  •  
  •   xingjia · 3 天前 · 818 次点击

    我在电脑里积累了上千篇我写的原创文章,有 md pdf 和 html 格式,大概上百万字的内容,部分文档还有图片。(通过 github 工具下载了公众号的历史文章)

    我的需求是想做一个最懂自己的心理咨询师,于是希望 AI 可以阅读我这个文件夹里的所有内容,充分了解我是谁,我做了哪些事,还有我的一些思考等等,然后和我互动,成为我的心理咨询师和助理,给我一个明确的步骤,告诉我如何实现我的想法

    把这件事慢慢在解决,目前测试了 Claude Code ,和 Gemini CLI 还有 Qwen ,回过头发现有个 Bug ,只是通过命令行的方式让 AI 去读文件似乎压根没有向量化,不知道我这个理解对不对。

    提一个需求,有没有工具可以方便的抓取一个人的公众号所有历史文章,并且生成.md 格式的文件,包括评论区的内容呢,之前买过一个工具,需要登录自己的微信,估计爬取太密集,直接给封了,求助下各位,感谢

    2 条回复    2025-08-24 22:31:57 +08:00
    gaobh
        1
    gaobh  
       3 天前 via iPhone
    dify 就解决了
    xingjia
        2
    xingjia  
    OP
       3 天前
    @gaobh 我去搜下 感谢
    关于   ·   帮助文档   ·   自助推广系统   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   5475 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 46ms · UTC 02:50 · PVG 10:50 · LAX 19:50 · JFK 22:50
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.