V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
• 请不要在回答技术问题时复制粘贴 AI 生成的内容
xiguaprince
V2EX  ›  程序员

[爬虫] 请教大家爬取小红书、抖音的内容(包括图片、视频)的方法

  •  
  •   xiguaprince · 2024-06-09 21:37:12 +08:00 · 3826 次点击
    这是一个创建于 426 天前的主题,其中的信息可能已经有所发展或是发生改变。
    请问大家有什么帖子教程可以知道小白爬取小红书和抖音的内容吗?

    或者哪位大佬指点下用什么工具可以简单稳定的爬取内容呢?


    [抛砖引玉]

    我能想到的最稳定的方式是:
    在浏览器或者手机端,使用脚本或者什么工具模拟手动点击,然后通过 ocr 或者 dom 提取图片、文本等信息

    但是这种方式怎么获取视频文件,我不太清楚。。。
    也不太清楚具体怎么模拟手动点击。。。

    我这种方式是不是太绕了
    第 1 条附言  ·  2024-06-09 22:15:04 +08:00

    抓取公开数据,原则上不应予以入罪。 https://www.spp.gov.cn/spp/llyj/202202/t20220215_544538.shtml

    第 2 条附言  ·  2024-06-10 15:55:56 +08:00
    另外,用基于 playwright 搭桥的方式去爬取比如小红书的内容,有没有被封号的风险。

    但是用 rpa 的方式就是安全的?只是效率慢点?
    14 条回复    2024-06-10 13:42:47 +08:00
    9c04C5dO01Sw5DNL
        1
    9c04C5dO01Sw5DNL  
       2024-06-09 21:38:36 +08:00
    收手吧,阿祖
    seers
        2
    seers  
       2024-06-09 21:44:36 +08:00 via iPhone
    逆向 native ,找到 sign ,然后为所欲为
    xiguaprince
        3
    xiguaprince  
    OP
       2024-06-09 21:47:33 +08:00
    @giiiiiithub 哈哈哈哈哈 https://zhuanlan.zhihu.com/p/66997586 会时常阅读这个文章的!!
    xiguaprince
        4
    xiguaprince  
    OP
       2024-06-09 21:48:39 +08:00
    @seers 不太懂逆向这一块,感觉很高端,可以详细说下吗!!!
    IDKAFK
        5
    IDKAFK  
       2024-06-09 21:53:25 +08:00   ❤️ 1
    xiguaprince
        6
    xiguaprince  
    OP
       2024-06-09 22:13:51 +08:00
    @IDKAFK 这个可能是我需要的!!!
    Midnight
        7
    Midnight  
       2024-06-09 23:40:04 +08:00
    钓鱼?
    duan602728596
        8
    duan602728596  
       2024-06-09 23:41:21 +08:00
    douyin 爬虫的最大问题是验证码。
    小红书爬虫的最大问题是验证码和加密算法会检查是不是无头浏览器。
    gransh
        9
    gransh  
       2024-06-09 23:42:17 +08:00
    抖音我用的这个 https://github.com/Johnserf-Seed/TikTokDownload 还是挺傻瓜式的。小红书目前还没找到方法。
    喜欢收藏小姐姐能有什么错呢?
    gransh
        10
    gransh  
       2024-06-09 23:44:08 +08:00
    至于你发的那篇文章,它在理论研究栏目而不是通知通告栏目。。。。
    Aicnal
        11
    Aicnal  
       2024-06-10 00:23:50 +08:00
    这可太刑了,感觉这两个公司都挺强硬的,还是小心点
    zanx817
        12
    zanx817  
       2024-06-10 01:30:41 +08:00
    爬没问题, 另外也可以主动交保护费。
    xiguaprince
        13
    xiguaprince  
    OP
       2024-06-10 13:35:48 +08:00
    @gransh 喜欢收藏小姐姐能有什么错呢?
    xiguaprince
        14
    xiguaprince  
    OP
       2024-06-10 13:42:47 +08:00
    @gransh 楼里有人推荐这个 https://github.com/NanmiCoder/MediaCrawler
    其中有小红书
    关于   ·   帮助文档   ·   自助推广系统   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2213 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 22ms · UTC 01:02 · PVG 09:02 · LAX 18:02 · JFK 21:02
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.