Happy-Llm

相关资料:
Happy-LLM

Chapter1 NLP基础概念

什么是NLP(自然语言处理)?

  • 它专注于让计算机能够理解、解释、操纵和生成人类语言
  • 一般分为两大类任务:NLU(自然语言理解)和NLG(自然语言生成)

NLP任务

这些任务包括但不限于中文分词、子词切分、词性标注、文本分类、实体识别、关系抽取、文本摘要、机器翻译以及自动问答系统的开发。

中文分词CWS

中文词相对于英文单词没有明显的分隔(无法直接通过空格来确定词的边界)

1
2
3
4
英文输入:The cat sits on the mat.
英文切割输出:[The | cat | sits | on | the | mat]
中文输入:今天天气真好,适合出去游玩.
中文切割输出:["今天", "天气", "真", "好", ",", "适合", "出去", "游玩", "。"]

中文分词的方法:

  • 基于规则的分词方法
    • 人工制定一系列规则来切分、
    • 虽然这种方法很简单,类似于模式匹配
    • 但是中华文化博大精深,很难穷尽,容易出现错误,维护成本高
  • 基于统计的分词方法
    • 利用大量标注好的文本数据,通过统计学方法学习词语的边界
    • 比如:苹的苹经常和果一起出现
    • N-gram模型:基于上下文信息来判断词的边界
    • 隐马尔可夫模型(HMM):假设词的内部状态(如词的开始、中间、结束)是一个马尔可夫过程,通过状态转移概率来切分词语。
    • 条件随机场(CRF):考虑整个句子的上下文信息,通过条件概率来确定词的边界。
  • 基于深度学习的分词方法
    • 循环神经网络(RNN)及其变体(如LSTM、GRU):能够处理序列数据,适合文本这种序列化的输入。
    • Transformer架构:通过自注意力机制捕捉文本中的长距离依赖关系,如BERT模型可以用于分词任务。
  • 组合

子词切分

子词切分(Subword Segmentation)是 NLP 领域中的一种常见的文本预处理技术,旨在将词汇进一步分解为更小的单位,即子词。

词性标注

词性标注(Part-of-Speech Tagging,POS Tagging)是 NLP 领域中的一项基础任务,它的目标是为文本中的每个单词分配一个词性标签,如名词、动词、形容词等。

词向量

向量空间模型是NLP领域中一个基础且强大的文本表示方法
向量空间模型通过将文本(包括单词、句子、段落或整个文档)转换为高维空间中的向量来实现文本的数学化表示。

缺点:
数据稀疏性和维数灾难问题

  • 一句话中的词语数相比词汇表是很小很小的,导致了词向量特别稀疏。
  • 同时词汇表很大–维数很大

语言模型

N-gram模型

  • 基于统计的语言模型
  • N-gram模型的核心思想是基于马尔可夫假设,即一个词的出现概率仅依赖于它前面的N-1个词。

Word2Vec

  • 词嵌入技术
    它是一种基于神经网络NNLM的语言模型,旨在通过学习词与词之间的上下文关系来生成词的密集向量表示

Happy-Llm
https://pqcu77.github.io/2025/08/21/happy-llm/
作者
linqt
发布于
2025年8月21日
许可协议