做了一个阿里云盘的搜索引擎

2023-09-01 08:25:41 +08:00
 Justin3go

做了一个阿里云盘的搜索引擎,体验地址pan.justin3go.com

技术细节可以看这两篇文章

  1. 你来你也可以做一个网盘搜索引擎
  2. 浅谈搜索引擎原理

简化了很多搜索引擎的复杂策略,但也算是一个微型搜索引擎了

12451 次点击
所在节点    分享创造
120 条回复
amlee
2023-09-01 13:18:20 +08:00
做的很好啊,再完善完善可以商业化了
usauk1998
2023-09-01 13:21:15 +08:00
搜不了张学友
Justin3go
2023-09-01 13:47:19 +08:00
@amlee 不太敢商业化,就技术分享,免费给大家用吧
Justin3go
2023-09-01 13:48:07 +08:00
@usauk1998 爬虫一直在运行,有可能还没收集到,也有可能互联网上没有人分享这个资源
amlee
2023-09-01 13:51:56 +08:00
@Justin3go 能否问下,你做的这个网盘搜索,服务器用的什么配置?
Equiliu
2023-09-01 13:54:30 +08:00
不能获取提取码
Justin3go
2023-09-01 14:01:40 +08:00
@Equiliu 提取码的获取策略是获取互联网某社区帖子中分享链接附近的,有些没有提供提取码,或者根本不需要提取码,亦或者没有提取码字眼的就没有获取
Justin3go
2023-09-01 14:02:43 +08:00
@amlee 4 核 8g ,但没吃满
Justin3go
2023-09-01 14:06:04 +08:00
@Justin3go 目前的情况来看,2 核 4g 差不多合适
amlee
2023-09-01 14:10:49 +08:00
@Justin3go scrapy es nestjs web 全部都在一台机器上?
Justin3go
2023-09-01 14:23:55 +08:00
@amlee web 应用是单独一台服务器,ES 爬虫是另外一台
amlee
2023-09-01 14:27:46 +08:00
@Justin3go 谢谢
KamL
2023-09-01 14:32:34 +08:00
英文搜不出来,例如 Doctor.Strange 就搜不到了
zololiu
2023-09-01 14:48:50 +08:00
怎么可以这么快,惊呆了
baoei
2023-09-01 14:55:53 +08:00
速度确实是快~ 但是搜索出来的结果太差. 或者说资源太少
heylogo
2023-09-01 15:02:45 +08:00
建议:同意声明并跳转后,原弹出框应该要关闭,不然回到该页还得手动关一下
Sakura0Tears
2023-09-01 15:05:24 +08:00
666666666666 厉害
Justin3go
2023-09-01 15:08:41 +08:00
@baoei 还没做多久,爬虫一直在运行,资源还在搜集
Justin3go
2023-09-01 15:09:26 +08:00
@heylogo 确实,用户体验还是你这样好一点,感谢建议
Justin3go
2023-09-01 15:11:23 +08:00
@baoei 然后就是互联网上的资源可能太多了,对比下来阿里云盘的资源就太少了,爬虫策略可能还得优化一下,但目前没什么思路

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://ex.noerr.eu.org/t/969938

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX