需要一个在浏览器内本地运行的名称分类模型(100MB 内),输入一个或者多个关键词,猜测返回他们的共同属性,有没有好的建议?

2024-05-27 04:18:58 +08:00
 drymonfidelia
例如:

app-main.html app-main.css => app-main, Webpages
angry-birds.apk flippy-birds.apk => Games, Apk Packages
facebook.ipa tiktok.apk => Social App Packages, Apps, Software
foobar2000 vlc => Media Players, Software
rclone foobar2000 => PC Software

实际输入可能是各种各样奇怪的东西。必须浏览器内本地运行,不能上传到服务器。
1427 次点击
所在节点    程序员
8 条回复
BeijingBaby
2024-05-27 04:21:22 +08:00
这不得自己训练?
drymonfidelia
2024-05-27 04:35:40 +08:00
实际输入可能是各种类型的奇怪东西,只是我只想到程序相关的例子,以下这些才是大多数:

Queenie, Reba, Fiasco => TV shows
Avatar, Star Wars => Films
Hermes Epsom Constance 24 Black, Hermès Swift Kelly Retourne => Luxury Handbag, Hermes Bags
Gochiusa, Wataten => JP Anime, JP TV shows

如果用字典肯定放不下。最好能有现成的 AI 模型能猜测这个词大概率是影片的名字来实现。
drymonfidelia
2024-05-27 04:44:22 +08:00
强调三遍浏览器内本地运行了,应该不会还有人扯 GPT 那些大模型了吧
dayeye2006199
2024-05-27 06:22:33 +08:00
分类的规则你可以清楚的定义吗?人看了你的定义之后可以清楚的得到答案吗?
你有标注数据吗?

如果上面都 yes ,那自己搞个模型,输出到 tensorflow.js 这种不难。

上面都是 no ,建议还是老老实实 GPT
murmur
2024-05-27 08:08:16 +08:00
关键词匹配不就完了

这东西没法训练吧

facebook 又不是 face (美颜)也不是 book (书籍)

foobar 也不是 bar (工具栏)

只有长内容,能提取出关键字的,才有分类和聚类的必要

单词或者简单词组只能做关键字匹配
godqueue
2024-05-27 10:11:40 +08:00
如果是生产就老实的用 gpt 吧。。或者其他大模型也可以。。但是大模型有幻觉,输出的内容很可能第一次和第 2 次的内容不一样。。。这个问题好像没有太好的手段。。
godqueue
2024-05-27 10:12:04 +08:00
如果需要非常精确,那好像只能自己写字典来做这个事情。。
forty
2024-05-27 15:56:44 +08:00
浏览器内本地运行,那么不可能存储太大的模型数据吧。
不能上传到服务器,和浏览器内本地运行,还是略有区别的,可以在本地启动服务,供浏览器调用,这样不算纯浏览器内运行,但是没有发送到服务器。

这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。

https://ex.noerr.eu.org/t/1044152

V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。

V2EX is a community of developers, designers and creative people.

© 2021 V2EX