我把 AI 用到了爬虫上,做了一款工具

8 天前
 xjiang1982154112

一句话介绍

URL + 一句话,自动监控网页内容更新

猫头鹰 AI mtywatch.com

使用示例

功能说明

操作步骤

超简单,三步搞定

  1. 输入要监控的 URL

  2. 输入你想关心的数据说明

  3. 点击自动分析,创建监控任务

价格

个人日常使用足够了


以上是标准产品介绍,接下来聊聊我的想法。

20 多年前,我刚刚成为程序员,对爬虫技术就很感兴趣,一直觉得爬虫是大有前途的方向。但是我感兴趣的不是大量抓取数据、不是毫秒响应抢茅台~ 而是很多做小生意的人、学生、创业者,他们需要关注一些网站:同行、供应商、政府部门、电商平台、学术论坛等等,我见过他们花几百几千找人写爬虫,用几天就不能用了;也见过他们花时间学爬虫工具,学了几天放弃了。

要满足他们的需求不难,熟练的爬虫工程师可能只要花 1 个小时就能写好代码。难得是这些需求人群过于零散、网页类型千奇百怪。我尝试过很多方法,也尝试过做一个更友好的图形化爬虫配置工具。始终感觉是技术人员的自嗨行为,这样的工具,做的再友好,仍然不是普通人学的会的。

23 年大模型刚出现的时候,重新唤起了我做这件事情的心思,但还是实验失败了; 24 年不死心又实验了一次,能力勉强能落地,但是 tokens 的成本不足以形成商业产品;直到今年,大模型在编程领域的神奇能力,解决我最后一块拼图。

心心念了 20 年的产品,终于把她做出来了。


以上是我的碎碎念,接下来我要寻求帮助了!

我们略懂技术

技术路线我们已经实验成功了,虽然产品刚上线,还需时间打磨,但我相信我们的技术团队能把她做好,也希望大家可以提出宝贵意见,耐心等待我们把她雕刻完美。

我们不太懂市场

我粗浅的理解为,原来饱受爬虫配置工具荼毒的人群,就是我们的客户;那些做小生意的人、学生、创业者,也是我们的客户;我只要把一句话监控网页这个核心能力做好了,应该有我们团队一口汤喝!

如我所说,这很粗浅,我需要大家的看法,我们需要鼓励,更需要批评!!

我们不太懂营销

额,花钱打广告还是会的;嗯,也只会一半:花钱 -_-!

我都不知道应该如何发问,遇到人只能说一句:我要怎么做?你可以从头开始教我的 -_-!

8425 次点击
所在节点    分享创造
69 条回复
shouh
8 天前
要手机注册..算了
doubleweiwei
8 天前
挺好,轻量化。不错的尝试。只是商业舆情现在要求越来越高,譬如全网数据的要求,这里面包括海量数据,而且是通过关键词(短尾词+Ai 联想词)来确定数据范围的。
zhangk23
8 天前
要手机注册的话有点太麻烦了
billccn
8 天前
我之前副业尝试做过这个方向,最后觉得拿出来卖法律问题搞不定,就只有自己用了。

其实主要问题是 AI 算力即使是自己搭建也非常的昂贵。如果要收用户钱那其实很难推广开,因为绝大多数的用户时间不值钱,真正愿意交钱的不少属于灰产,就带来了我说的法律问题。
dearmymy
8 天前
兄弟这玩意是法律问题,现阶段对方用你程序干任何坏事,你必进去,得不偿失的。
Blanke
8 天前
n 年前就想做类似的东西了,xx 更新了通知我,当时想的是普通用户有上手门槛。现在 ai 出来后确实不需要手动写 xpath 或类似解析的代码了。但是几个问题,怎么处理反爬,国内大厂反爬很严重的,比如 贴吧 微博 淘宝 微信公众号等,还有怎么分钟没有网页的信息源,比如只有 app 没有网页的产品,逆向 api 吗,这种手动维护量很大。
lambs13
8 天前
以前有个扩展,监控网页变化的,只能监控某个关键词,不够智能,试试这个
lswlray
8 天前
我还以为又有新人作品,仔细一看,还是昨天看过的。
那我就从我自己的商业需求角度来说说吧:

1 、合规:产品不能随意提供使用,必须要走商务合同形式,在合同中明确约定用途、以及由购买方承担法律责任。
2 、产品建议:
能够解决各种常见类型的登录验证码,能够支持一定程度的 IP 池,能够支持简单的脚本和变量,能够支持采集数据导出,能够支持 API 集成
3 、推广:以企业应用为对象,向企业信息化系统商推销、成为合作伙伴、销售给他们的客户。
xjiang1982154112
8 天前
@shouh @zhangk23 马上上线邮箱登录
xjiang1982154112
8 天前
@lswlray /抱拳/抱拳 多谢建议,您建议的产品功能正在开发中
BingoW
8 天前
挺好的创业思路,并落地。但是法律风险是一方面,另一方面有一些成熟的工具,通过配置也能做到类似的程度,比如八爪鱼、本身就有智能识别网页+rpa 发送通知的功能。当然目前还是有人有公司急需数据会去找人写爬虫代码。我后面会使用看看你的产品,如果它能采集亚马逊,那我觉得这个产品相当能打。
MEIerer
8 天前
为什么要手机注册?我的数据采集产品直接免注册了。
dacapoday
8 天前
搞爬虫的真是一茬又一茬,抓了一批,又冒出一批。没背景没背书的,可能钱还没到账,就已经蹲看守所了。
xjiang1982154112
8 天前
@dacapoday 合理合规使用,没问题的。
最高检,2025 年 11 月 29 号 刚发的解释:厘定边界合理规制网络爬虫行为 https://www.spp.gov.cn//llyj/202511/t20251129_712355.shtml
xjiang1982154112
8 天前
@MEIerer 马上改进
flyme2them00n
8 天前
@BingoW 我试了下监控某个分类的新品榜,其它的没有深入的去搞了
zhangk23
8 天前
xjiang1982154112
8 天前
@Blanke 感谢兄弟的建议
1 、反爬确实是一个核心问题,我们的原则是:首先控制频率(最低 15 分钟一次),不会造成破坏性攻击。然后,我们这个产品是做提醒服务的,不做内容搬运,很难触碰到“实质性替代”原则,如果还出现验证码这样的拦截手段,我们是打算不处理的。
2 、app 这个场景,我们还在研究实验,目前的技术路线是打算通过真机或虚机环境,利用视觉或者 ADB 提取数据。不做逆向 api

实质性替代原则,参考最高检对爬虫行为的最新解释(没有形成实质性替代,很难入罪):
厘定边界合理规制网络爬虫行为
https://www.spp.gov.cn//llyj/202511/t20251129_712355.shtml
necopp
7 天前
要手机号注册 还是算了吧
pyhfuweihong
7 天前
我试用了一下,我要监控某一品类的新品,新品页面有多页,你这个工具没有自动去翻页搜索

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://ex.noerr.eu.org/t/1179345

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX