AI


  • 简介
  • 目录大纲
  • 最新文档

    TF-IDF 算法

    TF-IDF - TF = Term Frequency,词频 - IDF = Inverse Document Frequency,逆文档频率(文档频率的倒数) TF(词频) = 单词w在所有文档中出现的次数 / 文档的总数 IDF(逆文档频率) = log(语料库的文档总数 / 包含单词w的文档总数) TF-IDF = TF*IDF 得到的结果越大,说明该词的重要性越高。

    gaojian - 2024年10月6日 11:15


    RAG与向量检索(二)

    概述 文本检索主要有三种方法: - 关键字检索; - 密集向量相似度(语义检索); - 稀疏向量相似度; 计算文本相似度 ``` import numpy from milvus_model.hybrid import BGEM3EmbeddingFunction bge_m3_ef = BGEM3EmbeddingFunction(use_fp16=False, device="cpu") se……

    gaojian - 2024年9月30日 08:51


    RAG与向量检索

    为什么需要RAG LLM的挑战: - 内容的准确性; - 信息的及时性; - 生成内容的可解释性; RAG的优点: - 补充实时信息; - 增强业务理解; - 纠偏纠错; 优化的RAG 在对原始文档切片后,对每个片段进行重写; 对用户的查询进行重写,提升质量; 向量检索的挑战 向量存储成本的挑战; 高召回率要求的挑战: ① 召回率从99%增加到99.9%需要增加接近一倍的搜索延迟; ……

    gaojian - 2024年9月19日 13:54


    关键词提取

    0. 概述 介绍一些主流的关键词提取方法 1. TF-IDF(针对中文) 主页:https://github.com/fxsjy/jieba ``` import jieba.analyse text = "...你的文档内容..." kw = jieba.analyse.extract_tags(text, topK=20, withWeight=True, allo……

    gaojian - 2024年9月12日 15:14


    langchain(一)

    基础案例 ``` from langchain_core.output_parsers import StrOutputParser from langchain_core.prompts import PromptTemplate from langchain_openai import OpenAI prompt_template = "Tell me a {adjective} joke" ……

    gaojian - 2024年8月27日 13:32



    gaojian