status
type
date
slug
summary
tags
category
icon
password
延续一下之前的UI 增加了用reviews 来做rag
rag 部分可以看一下 做了下总结:
UI 部分可以参考:
github:
Tech stack:
RAG → llamaindex, chromadb
Scraping → selenium IMDB
主要麻烦的是网上现有的IMDB review 爬虫测试一下都不能用了 只能重新分析一下html找内容
这里是selenium 打开网页 → 找到All → 点击后等待reviews加载 (一共用时40s) 大概每个电影可以爬到600+条评论
然后每个电影创建chromadb collection (还有很多别的方法 应该会更好 以后慢慢试)
以后可以用更复杂的工具(graph rag, meta data filter, query pipeline) 在更复杂的数据类型上
下面放几个现在效果:

.jpeg?table=block&id=15971a79-6e22-80a9-b2ce-d7911dd23d57&t=15971a79-6e22-80a9-b2ce-d7911dd23d57&width=707.9896240234375&cache=v2)
.jpeg?table=block&id=15971a79-6e22-8045-a3da-efb8c635aa77&t=15971a79-6e22-8045-a3da-efb8c635aa77&width=707.9896240234375&cache=v2)
.jpeg?table=block&id=15971a79-6e22-808e-8ec2-d3dce1d0c142&t=15971a79-6e22-808e-8ec2-d3dce1d0c142&width=2535&cache=v2)
.jpeg?table=block&id=15971a79-6e22-80e9-a6f0-f2da4607bb04&t=15971a79-6e22-80e9-a6f0-f2da4607bb04&width=2402&cache=v2)
- Author:ran2323
- URL:https://www.blueif.me//article/15871a79-6e22-80ab-8139-f2fd1da0d5ef
- Copyright:All articles in this blog, except for special statements, adopt BY-NC-SA agreement. Please indicate the source!