Happy-Llm

Chapter1 NLP基础概念

什么是NLP（自然语言处理）？

它专注于让计算机能够理解、解释、操纵和生成人类语言
一般分为两大类任务：NLU（自然语言理解）和NLG（自然语言生成）

NLP任务

这些任务包括但不限于中文分词、子词切分、词性标注、文本分类、实体识别、关系抽取、文本摘要、机器翻译以及自动问答系统的开发。

中文分词CWS

中文词相对于英文单词没有明显的分隔（无法直接通过空格来确定词的边界）

英文输入：The cat sits on the mat.
英文切割输出：[The | cat | sits | on | the | mat]
中文输入：今天天气真好，适合出去游玩.
中文切割输出：["今天", "天气", "真", "好", "，", "适合", "出去", "游玩", "。"]

中文分词的方法：

基于规则的分词方法
- 人工制定一系列规则来切分、
- 虽然这种方法很简单，类似于模式匹配
- 但是中华文化博大精深，很难穷尽，容易出现错误，维护成本高
基于统计的分词方法
- 利用大量标注好的文本数据，通过统计学方法学习词语的边界
- 比如：苹的苹经常和果一起出现
- N-gram模型：基于上下文信息来判断词的边界
- 隐马尔可夫模型（HMM）：假设词的内部状态（如词的开始、中间、结束）是一个马尔可夫过程，通过状态转移概率来切分词语。
- 条件随机场（CRF）：考虑整个句子的上下文信息，通过条件概率来确定词的边界。
基于深度学习的分词方法
- 循环神经网络（RNN）及其变体（如LSTM、GRU）：能够处理序列数据，适合文本这种序列化的输入。
- Transformer架构：通过自注意力机制捕捉文本中的长距离依赖关系，如BERT模型可以用于分词任务。
组合

子词切分

子词切分（Subword Segmentation）是 NLP 领域中的一种常见的文本预处理技术，旨在将词汇进一步分解为更小的单位，即子词。

词性标注

词性标注（Part-of-Speech Tagging，POS Tagging）是 NLP 领域中的一项基础任务，它的目标是为文本中的每个单词分配一个词性标签，如名词、动词、形容词等。

词向量

向量空间模型是NLP领域中一个基础且强大的文本表示方法
向量空间模型通过将文本（包括单词、句子、段落或整个文档）转换为高维空间中的向量来实现文本的数学化表示。

缺点：
数据稀疏性和维数灾难问题

一句话中的词语数相比词汇表是很小很小的，导致了词向量特别稀疏。
同时词汇表很大–维数很大

语言模型

N-gram模型

基于统计的语言模型
N-gram模型的核心思想是基于马尔可夫假设，即一个词的出现概率仅依赖于它前面的N-1个词。

Word2Vec

词嵌入技术
它是一种基于神经网络NNLM的语言模型，旨在通过学习词与词之间的上下文关系来生成词的密集向量表示

Happy-Llm

https://pqcu77.github.io/2025/08/21/happy-llm/

作者

linqt

发布于

2025年8月21日

许可协议

Curriculum Learning 下一篇