Martian148's blog Martian148's blog
首页
  • ICPC 算法笔记
  • ICPC 算法题解
  • 体系结构
  • 高等数学
  • 线性代数
  • 概率论与数理统计
  • 具体数学
  • Martian148的奇思妙想
  • 游记
  • 通识课笔记
关于
  • useful 网站
  • 友情链接
  • 分类
  • 归档

Martian148

一只热爱文科的理科生
首页
  • ICPC 算法笔记
  • ICPC 算法题解
  • 体系结构
  • 高等数学
  • 线性代数
  • 概率论与数理统计
  • 具体数学
  • Martian148的奇思妙想
  • 游记
  • 通识课笔记
关于
  • useful 网站
  • 友情链接
  • 分类
  • 归档
  • ACM - ICPC

  • 编程语言

  • 体系结构

  • Web

  • 人工智能

    • 机器学习笔记
    • 《python科学计算入门》学习笔记
    • LLM101 NLP学习笔记
      • NLP 基础
  • 计算机网络

  • 数据库

  • 编程工具

  • 计算机科学
  • 人工智能
martian148
2025-06-02
目录

LLM101 NLP学习笔记

# NLP 基础

自然语言处理(Natural Language Processing,NLP)是人工智能的子领域,研究的是如何让计算机处理人类语言

NLP 有两个方向

  • NLU
  • NLG

image-20250602135032619

image-20250602135350693

image-20250602135835133

如何来编码句子?image-20250602140802923

image-20250602141126149

one-hot 来表示句子有一些问题

  • 词太多导致了向量维度太大
  • 没有办法表示词的具体含义

image-20250602141703482

image-20250602142459932

image-20250602142946592

这样就说明词向量本身有一定的意义

image-20250602143424507

image-20250602143838665

image-20250602144540890

image-20250602144733696

image-20250602144934214

image-20250602145056116

image-20250602145343024

这样的方法,我们需要保存的参数数量在 ∣V∣N|V|^N∣V∣N ,这种方法并不是很优

image-20250602145913815

image-20250602150633802

image-20250602151333185

词向量可视化

有一个网站:https://projector.tensorflow.org/ (opens new window)

image-20250602155426431

这里可以看到一些和 "dog" 相似的词

我们需要从词向量得到句子向量

这里介绍了一个网站,提供了很多大模型的 API 接口 硅基流动 (opens new window)

《python科学计算入门》学习笔记
计算机网络笔记

← 《python科学计算入门》学习笔记 计算机网络笔记→

最近更新
01
计算机网络笔记
06-13
02
《python科学计算入门》学习笔记
05-30
03
MySQL 笔记
05-30
更多文章>
Theme by Vdoing | Copyright © 2024-2025 Martian148 | MIT License
  • 跟随系统
  • 浅色模式
  • 深色模式
  • 阅读模式