URL + 一句话,自动监控网页内容更新
猫头鹰 AI mtywatch.com
超简单,三步搞定
输入要监控的 URL
输入你想关心的数据说明
点击自动分析,创建监控任务
个人日常使用足够了
以上是标准产品介绍,接下来聊聊我的想法。
20 多年前,我刚刚成为程序员,对爬虫技术就很感兴趣,一直觉得爬虫是大有前途的方向。但是我感兴趣的不是大量抓取数据、不是毫秒响应抢茅台~ 而是很多做小生意的人、学生、创业者,他们需要关注一些网站:同行、供应商、政府部门、电商平台、学术论坛等等,我见过他们花几百几千找人写爬虫,用几天就不能用了;也见过他们花时间学爬虫工具,学了几天放弃了。
要满足他们的需求不难,熟练的爬虫工程师可能只要花 1 个小时就能写好代码。难得是这些需求人群过于零散、网页类型千奇百怪。我尝试过很多方法,也尝试过做一个更友好的图形化爬虫配置工具。始终感觉是技术人员的自嗨行为,这样的工具,做的再友好,仍然不是普通人学的会的。
23 年大模型刚出现的时候,重新唤起了我做这件事情的心思,但还是实验失败了; 24 年不死心又实验了一次,能力勉强能落地,但是 tokens 的成本不足以形成商业产品;直到今年,大模型在编程领域的神奇能力,解决我最后一块拼图。
心心念了 20 年的产品,终于把她做出来了。
以上是我的碎碎念,接下来我要寻求帮助了!
技术路线我们已经实验成功了,虽然产品刚上线,还需时间打磨,但我相信我们的技术团队能把她做好,也希望大家可以提出宝贵意见,耐心等待我们把她雕刻完美。
我粗浅的理解为,原来饱受爬虫配置工具荼毒的人群,就是我们的客户;那些做小生意的人、学生、创业者,也是我们的客户;我只要把一句话监控网页这个核心能力做好了,应该有我们团队一口汤喝!
如我所说,这很粗浅,我需要大家的看法,我们需要鼓励,更需要批评!!
额,花钱打广告还是会的;嗯,也只会一半:花钱 -_-!
我都不知道应该如何发问,遇到人只能说一句:我要怎么做?你可以从头开始教我的 -_-!
1
shouh 8 天前 要手机注册..算了
|
2
doubleweiwei 8 天前
挺好,轻量化。不错的尝试。只是商业舆情现在要求越来越高,譬如全网数据的要求,这里面包括海量数据,而且是通过关键词(短尾词+Ai 联想词)来确定数据范围的。
|
3
zhangk23 8 天前 要手机注册的话有点太麻烦了
|
4
billccn 8 天前 我之前副业尝试做过这个方向,最后觉得拿出来卖法律问题搞不定,就只有自己用了。
其实主要问题是 AI 算力即使是自己搭建也非常的昂贵。如果要收用户钱那其实很难推广开,因为绝大多数的用户时间不值钱,真正愿意交钱的不少属于灰产,就带来了我说的法律问题。 |
5
dearmymy 8 天前
兄弟这玩意是法律问题,现阶段对方用你程序干任何坏事,你必进去,得不偿失的。
|
6
Blanke 8 天前 via Android
n 年前就想做类似的东西了,xx 更新了通知我,当时想的是普通用户有上手门槛。现在 ai 出来后确实不需要手动写 xpath 或类似解析的代码了。但是几个问题,怎么处理反爬,国内大厂反爬很严重的,比如 贴吧 微博 淘宝 微信公众号等,还有怎么分钟没有网页的信息源,比如只有 app 没有网页的产品,逆向 api 吗,这种手动维护量很大。
|
7
lambs13 8 天前 via iPhone
以前有个扩展,监控网页变化的,只能监控某个关键词,不够智能,试试这个
|
8
lswlray 8 天前 我还以为又有新人作品,仔细一看,还是昨天看过的。
那我就从我自己的商业需求角度来说说吧: 1 、合规:产品不能随意提供使用,必须要走商务合同形式,在合同中明确约定用途、以及由购买方承担法律责任。 2 、产品建议: 能够解决各种常见类型的登录验证码,能够支持一定程度的 IP 池,能够支持简单的脚本和变量,能够支持采集数据导出,能够支持 API 集成 3 、推广:以企业应用为对象,向企业信息化系统商推销、成为合作伙伴、销售给他们的客户。 |
9
xjiang1982154112 OP PRO |
10
xjiang1982154112 OP PRO @lswlray /抱拳/抱拳 多谢建议,您建议的产品功能正在开发中
|
11
BingoW 8 天前 挺好的创业思路,并落地。但是法律风险是一方面,另一方面有一些成熟的工具,通过配置也能做到类似的程度,比如八爪鱼、本身就有智能识别网页+rpa 发送通知的功能。当然目前还是有人有公司急需数据会去找人写爬虫代码。我后面会使用看看你的产品,如果它能采集亚马逊,那我觉得这个产品相当能打。
|
12
MEIerer 8 天前 为什么要手机注册?我的数据采集产品直接免注册了。
|
13
dacapoday 8 天前
搞爬虫的真是一茬又一茬,抓了一批,又冒出一批。没背景没背书的,可能钱还没到账,就已经蹲看守所了。
|
14
xjiang1982154112 OP PRO @dacapoday 合理合规使用,没问题的。
最高检,2025 年 11 月 29 号 刚发的解释:厘定边界合理规制网络爬虫行为 https://www.spp.gov.cn//llyj/202511/t20251129_712355.shtml |
15
xjiang1982154112 OP PRO @MEIerer 马上改进
|
16
flyme2them00n 8 天前
@BingoW 我试了下监控某个分类的新品榜,其它的没有深入的去搞了
|
17
zhangk23 7 天前 @xjiang1982154112 酷!
|
18
xjiang1982154112 OP PRO @Blanke 感谢兄弟的建议
1 、反爬确实是一个核心问题,我们的原则是:首先控制频率(最低 15 分钟一次),不会造成破坏性攻击。然后,我们这个产品是做提醒服务的,不做内容搬运,很难触碰到“实质性替代”原则,如果还出现验证码这样的拦截手段,我们是打算不处理的。 2 、app 这个场景,我们还在研究实验,目前的技术路线是打算通过真机或虚机环境,利用视觉或者 ADB 提取数据。不做逆向 api 实质性替代原则,参考最高检对爬虫行为的最新解释(没有形成实质性替代,很难入罪): 厘定边界合理规制网络爬虫行为 https://www.spp.gov.cn//llyj/202511/t20251129_712355.shtml |
19
necopp 7 天前 via iPhone 要手机号注册 还是算了吧
|
20
pyhfuweihong 7 天前 我试用了一下,我要监控某一品类的新品,新品页面有多页,你这个工具没有自动去翻页搜索
|
21
xjiang1982154112 OP PRO @necopp 马上开放邮箱注册和非登录用户体验功能,抱歉给您带来了不好的体验
|
22
xjiang1982154112 OP PRO @pyhfuweihong 自动翻页和页面下探功能,我们正在实验,要同时保证准确度和 tokens 成本,还是有点难度的,相信我们,请您耐心等待 /抱拳
|
23
vita666 PRO 为什么不支持 US 的号码
|
24
xjiang1982154112 OP PRO @vita666 马上开放邮箱登录
|
25
dacapoday 7 天前
@xjiang1982154112 要么 服务提供方 是 类似企查查 这类有背书 或与数据源有协议的。要么服务受用方 有法律援助,比如为地方政府,企事业单位 做舆情。甲乙都是老百姓,即使法律上占理,也能让你先体验一段时间的免费食宿。
|
26
sojourner 7 天前
@xjiang1982154112 你所面对的不是爬虫的使用是否合法,而是使用了你的爬虫工具干坏事是否会被牵连。
|
27
wellqq 7 天前 via iPhone
監控電商店鋪有無上新可以?
|
28
yb2313 7 天前
红豆生南国,此物最相思
|
29
56way 7 天前 这个场景不错我曾经遇到过类似的需求,楼主可以借鉴一下卖给某些公司,,具体场景就是可以监控一些国内招投标的政府公告,生成摘要做成每日监控啥的。这个场景是有真实的应用场景的。我做了个本地版 Python 的,只是卖给什么人其实需要楼主自己去拓展。。我是给朋友做了一个工具
|
30
xjiang1982154112 OP PRO @wellqq 可以的
|
31
yaodd 7 天前 网站最下面的"用户怎么说"版块,不是真实的吧?看着不太真实,比如凌晨 2 点抢演唱会门票这种···
|
32
mastcer 7 天前 分析失败: 属性提取失败: 服务返回错误: 火山 API 调用失败: HTTP 400 Bad Request: Total tokens of image and text exceed max message tokens. Request id: 021766040844059636b2bbc085fdc04ce653f47fa25fd563dbd23
|
33
DXpro 7 天前 方向错了。 太低频了。
|
36
xjiang1982154112 OP PRO @56way 是这个道理,最后还是拼长线的运营服务能力。有很多生意其实都是:再多人做都不算多的
|
37
xjiang1982154112 OP PRO @DXpro 我觉得不低~~~
|
38
xjiang1982154112 OP PRO @mastcer 马上排查问题 /抱拳
|
39
xjiang1982154112 OP PRO @yaodd 拙劣的营销手段,见笑。
|
40
YJi 7 天前 @56way #35 没有这个意思哈,因为他们的网站做的确实还不错,目前应该也走通商业化了,如果做这个方向可以看一看他们的。 并且我也是做数据采集的,就更明白这个道理了 哈哈。
|
41
xjiang1982154112 OP PRO @YJi 哪个网站?我们去学习学习
|
42
YJi 7 天前
@xjiang1982154112 #41 /t/1056354 这个
|
43
yishidixia 7 天前 |
44
xjiang1982154112 OP PRO @yishidixia 这是我们重点分析的对象,我们切入的就是不会、不想、或者不需要使用这种复杂工具的群体
|
45
sakujo 7 天前 我之前用一个 chrome 插件叫网页更新提醒,明显你这个更好用
|
46
ffxung 7 天前 挺不错的工具👍
|
47
nancheng911 6 天前
不错的工具
|
48
xujinkai 6 天前 via Android 挺好的,我也想过这个,算是 AI 最适合干的事之一
|
50
laojuelv PRO 不错的工具,我试了一下 https://ex.noerr.eu.org/t/1179345 这个地址,提示启用反爬虫机制,搞不定,这种怎么办?
|
51
xjiang1982154112 OP PRO @laojuelv 我们主要业务在国内开展,直接提供翻墙肯定不行~~过几天会发布浏览器插件版本,用户自己翻墙后在本地监控。。后续可能会考虑做海外版本的
|
52
jiandandkl 6 天前
需要登录的可以用吗
|
53
xjiang1982154112 OP PRO @jiandandkl 浏览器插件版本支持这种场景,本月会发布插件版本
|
54
Jirry 6 天前 邮箱重置密码一直提示验证码无效或过期
注册时随机的密码,没保存,找不回了 |
55
xjiang1982154112 OP PRO @Jirry 马上排查问题,稍等
|
56
xjiang1982154112 OP PRO @Jirry 已修复,/抱歉/抱歉
|
57
MozzieW 6 天前
@xjiang1982154112 #18 这个链接写着是理论研究,看作者是检查长,类似论文,“法律解释”这个词不是这样用的,有专门的意义。
爬虫最常见的罪名是“非法入侵系统罪”,这个罪不以后果来衡量,而是以行为是否符合定义评判。如果网站加上了反爬虫手段,百分百符合“入侵”的定义。 @lswlray 犯罪行为,不一定能通过合同完全规避责任。 |
58
Edward4074 5 天前
N 年前 AI 还没起来的时候,有一个叫“后续”的应用,然后就没有然后了
|
59
cheese 4 天前
即刻当年做过一个差不多的 idea ,对微博,闲鱼这类 app 做监控,后来没做下去
|
60
doudouisamomo 3 天前 额。。我式了两个网址,一个是 V2EX ,另一个是 zju 的官网,都提示:web-dumper 服务调用失败:请求失败: 请求失败: Post "http://172.22.213.215:8081/api/fetch": context deadline exceeded (Client.Timeout exceeded while awaiting headers)
|
61
xjiang1982154112 OP PRO @doudouisamomo 感谢体验和反馈,V2EX 是因为 gfw 的原因,我们正在加白名单梯子(人工添加,防止滥用)。
zju 是因为目前很多政府类网站都使用了 WAF ,默认拦截了机房 IP ,我们正在加住宅 IP 代理。 |
62
Sh15 PRO |
63
iorilu 3 天前 不错, 以前我也有类似想法
不过想落地确实不容易的, 很耗费资源 有个问题, 就是国内这种服务到底是否合规是个问题, 尤其是想收费情况下 |
64
wentz 3 天前 新注册的可以填下邀请码,BLKMOYKW ,各多 50 积分,感谢
|
65
xjiang1982154112 OP PRO @iorilu 合理使用,可以合规的
|
66
bingkunzhao 22 小时 22 分钟前 这个 ai 工具打开以后,要一直在前台开着吗?会隐藏到后台吗?
|
67
xjiang1982154112 OP PRO @bingkunzhao 你在网站上创建好任务后,可以关闭浏览器。你如果是在浏览器插件上创建任务,需要保持浏览器开启(可以缩小到后台)
|
68
adguy0228 10 小时 53 分钟前 提个建议,能否支持导入 cookie ,或者能在您的那个创建任务的网页预览界面进行登录之类的身份验证操作?
|
69
xjiang1982154112 OP PRO @adguy0228 马上会发布浏览器插件版本,需要登录的场景,可以使用插件进行抓取。
|