AI
一个案例
tokenizer 说明
加载数据集
DatasetDict 类
logits 说明
langchain(一)
关键词提取
RAG与向量检索
RAG与向量检索(二)
TF-IDF 算法
本文档使用 MrDoc 发布
-
+
首页
关键词提取
### 0. 概述 介绍一些主流的关键词提取方法 ### 1. TF-IDF(针对中文) > 主页:https://github.com/fxsjy/jieba ``` import jieba.analyse text = "...你的文档内容..." kw = jieba.analyse.extract_tags(text, topK=20, withWeight=True, allowPOS=('ns', 'n', 'vn', 'v')) # 可选名次、动词、动名词等参数 print(kw) ``` ### 2. keyBERT(英文效果 > 中文) > 参考:https://hidadeng.github.io/blog/keybert_tutorial/ #### ① 使用案例: ``` import spacy import jieba from keybert import KeyBERT zh_model = spacy.load("zh_core_web_sm") bertModel = KeyBERT(model=zh_model) # 中文测试数据 doc = "...你的文档内容..." # 整理成类似于英语这样空格间隔词语形式的文本 doc = ' '.join(jieba.lcut(doc)) # 关键词提取 keywords = bertModel.extract_keywords(doc, keyphrase_ngram_range=(1, 1), stop_words=None, top_n=10) print(keywords) ``` #### ② 函数参数说明: > bertModel.extract_keywords(docs, keyphrase_ngram_range, stop_words, top_n) - `docs`: 文档字符串或列表; - `stop_words`: 停用词列表; - `top_n`: 显示前n个关键词,默认5; - `highlight`: 可视化标亮关键词,默认False; - `use_maxsum`: 默认False;是否使用`Max Sum Similarity`作为关键词提取标准; - `use_mmr`: 默认False;是否使用`Maximal Marginal Relevance(MMR)`作为关键词提取标准; - `diversity`: 如果`use_mmr=True`,可以设置该参数。参数取值范围从0到1; 对于`keyphrase_ngram_range`参数, - (1, 1) 只单个词,默认 - (2, 2) 考虑词组 - (1, 2) 同时考虑以上两者情况 ### 3. YAKE!(对中文效果不好,支持20+外文) > 主页: https://github.com/LIAAD/yake ``` import yake text = "...你的文档内容..." language = "zh" # en, el, pt, ar max_ngram_size = 1 deduplication_threshold = 0.9 # 重复数据删除阈值 deduplication_algo = 'seqm' # 重复数据删除 windowSize = 1 numOfKeywords = 20 with open('stopwords_zh.txt', 'r', encoding='utf-8') as f: stop_words= (f.read()) custom_kw_extractor = yake.KeywordExtractor(lan=language,stopwords=stop_words) keywords = custom_kw_extractor.extract_keywords(text) for kw in keywords: print(kw) ``` ### 4. Rake(英文效果好) > 主页:https://github.com/laserwave/keywords_extraction_rake ### 参考 > [提取关键词的算法](https://www.cnblogs.com/avivi/p/17119666.html)
gaojian
2024年9月12日 15:14
分享文档
收藏文档
上一篇
下一篇
微信扫一扫
复制链接
手机扫一扫进行分享
复制链接
关于 MrDoc
觅思文档MrDoc
是
州的先生
开发并开源的在线文档系统,其适合作为个人和小型团队的云笔记、文档和知识库管理工具。
如果觅思文档给你或你的团队带来了帮助,欢迎对作者进行一些打赏捐助,这将有力支持作者持续投入精力更新和维护觅思文档,感谢你的捐助!
>>>捐助鸣谢列表
微信
支付宝
QQ
PayPal
Markdown文件
分享
链接
类型
密码
更新密码