AI

简介
目录大纲
最新文档

TF-IDF 算法

TF-IDF - TF = Term Frequency，词频 - IDF = Inverse Document Frequency，逆文档频率（文档频率的倒数） TF(词频) = 单词w在所有文档中出现的次数 / 文档的总数 IDF(逆文档频率) = log(语料库的文档总数 / 包含单词w的文档总数) TF-IDF = TF*IDF 得到的结果越大，说明该词的重要性越高。

gaojian - 2024年10月6日 11:15

概述文本检索主要有三种方法： - 关键字检索； - 密集向量相似度（语义检索）； - 稀疏向量相似度；计算文本相似度 ``` import numpy from milvus_model.hybrid import BGEM3EmbeddingFunction bge_m3_ef = BGEM3EmbeddingFunction(use_fp16=False, device="cpu") se……

gaojian - 2024年9月30日 08:51

RAG与向量检索

为什么需要RAG LLM的挑战： - 内容的准确性； - 信息的及时性； - 生成内容的可解释性； RAG的优点： - 补充实时信息； - 增强业务理解； - 纠偏纠错；优化的RAG 在对原始文档切片后，对每个片段进行重写；对用户的查询进行重写，提升质量；向量检索的挑战向量存储成本的挑战；高召回率要求的挑战： ① 召回率从99%增加到99.9%需要增加接近一倍的搜索延迟； ……

gaojian - 2024年9月19日 13:54

关键词提取

0. 概述介绍一些主流的关键词提取方法 1. TF-IDF（针对中文）主页：https://github.com/fxsjy/jieba ``` import jieba.analyse text = "...你的文档内容..." kw = jieba.analyse.extract_tags(text, topK=20, withWeight=True, allo……

gaojian - 2024年9月12日 15:14

langchain（一）

基础案例 ``` from langchain_core.output_parsers import StrOutputParser from langchain_core.prompts import PromptTemplate from langchain_openai import OpenAI prompt_template = "Tell me a {adjective} joke" ……

gaojian - 2024年8月27日 13:32

AI

TF-IDF 算法

RAG与向量检索（二）

RAG与向量检索

关键词提取

langchain（一）