Happy-Llm
相关资料:
Happy-LLM
Chapter1 NLP基础概念
什么是NLP(自然语言处理)?
- 它专注于让计算机能够理解、解释、操纵和生成人类语言
- 一般分为两大类任务:NLU(自然语言理解)和NLG(自然语言生成)
NLP任务
这些任务包括但不限于中文分词、子词切分、词性标注、文本分类、实体识别、关系抽取、文本摘要、机器翻译以及自动问答系统的开发。
中文分词CWS
中文词相对于英文单词没有明显的分隔(无法直接通过空格来确定词的边界)
1 |
|
中文分词的方法:
- 基于规则的分词方法
- 人工制定一系列规则来切分、
- 虽然这种方法很简单,类似于模式匹配
- 但是中华文化博大精深,很难穷尽,容易出现错误,维护成本高
- 基于统计的分词方法
- 利用大量标注好的文本数据,通过统计学方法学习词语的边界
- 比如:苹的苹经常和果一起出现
- N-gram模型:基于上下文信息来判断词的边界
- 隐马尔可夫模型(HMM):假设词的内部状态(如词的开始、中间、结束)是一个马尔可夫过程,通过状态转移概率来切分词语。
- 条件随机场(CRF):考虑整个句子的上下文信息,通过条件概率来确定词的边界。
- 基于深度学习的分词方法
- 循环神经网络(RNN)及其变体(如LSTM、GRU):能够处理序列数据,适合文本这种序列化的输入。
- Transformer架构:通过自注意力机制捕捉文本中的长距离依赖关系,如BERT模型可以用于分词任务。
- 组合
子词切分
子词切分(Subword Segmentation)是 NLP 领域中的一种常见的文本预处理技术,旨在将词汇进一步分解为更小的单位,即子词。
词性标注
词性标注(Part-of-Speech Tagging,POS Tagging)是 NLP 领域中的一项基础任务,它的目标是为文本中的每个单词分配一个词性标签,如名词、动词、形容词等。
词向量
向量空间模型是NLP领域中一个基础且强大的文本表示方法
向量空间模型通过将文本(包括单词、句子、段落或整个文档)转换为高维空间中的向量来实现文本的数学化表示。
缺点:
数据稀疏性和维数灾难问题
- 一句话中的词语数相比词汇表是很小很小的,导致了词向量特别稀疏。
- 同时词汇表很大–维数很大
语言模型
N-gram模型
- 基于统计的语言模型
- N-gram模型的核心思想是基于马尔可夫假设,即一个词的出现概率仅依赖于它前面的N-1个词。
Word2Vec
- 词嵌入技术
它是一种基于神经网络NNLM的语言模型,旨在通过学习词与词之间的上下文关系来生成词的密集向量表示
Happy-Llm
https://pqcu77.github.io/2025/08/21/happy-llm/