[AI高频词汇]

AI高频术语词典

本词典涵盖AI领域100+核心术语，按分类整理，包含简称、全称、IPA音标及通俗解释。
适用场景：学习参考、文档附录、团队培训

一、基础概念

简称	全称	全称读音（IPA）	通俗解释
AI	Artificial Intelligence	/ˌɑːrtɪˈfɪʃəl ɪnˈtelɪdʒəns/	让机器模仿人类智能的系统，能看、听、说、决策
AGI	Artificial General Intelligence	/ˌɑːrtɪˈfɪʃəl ˈdʒenrəl ɪnˈtelɪdʒəns/	通用人工智能，在大多数认知任务上达到或超越人类水平的AI
ANI	Artificial Narrow Intelligence	/ˌɑːrtɪˈfɪʃəl ˈnæroʊ ɪnˈtelɪdʒəns/	弱人工智能，只在特定任务上表现优秀（如下棋、识图）
ML	Machine Learning	/məˈʃiːn ˈlɜːrnɪŋ/	机器学习，让机器通过数据自主学习，而非靠硬编码规则
DL	Deep Learning	/diːp ˈlɜːrnɪŋ/	深度学习，使用多层神经网络的机器学习子集，擅长图像/语音
NLP	Natural Language Processing	/ˈnætʃərəl ˈlæŋɡwɪdʒ ˈprɑːsesɪŋ/	自然语言处理，让计算机理解和生成人类语言的技术
NLU	Natural Language Understanding	/ˈnætʃərəl ˈlæŋɡwɪdʒ ˌʌndərˈstændɪŋ/	自然语言理解，NLP的子领域，侧重理解语义和意图
NLG	Natural Language Generation	/ˈnætʃərəl ˈlæŋɡwɪdʒ ˌdʒenəˈreɪʃən/	自然语言生成，NLP的子领域，侧重生成人类可读的文本
GenAI	Generative AI	/ˈdʒenərətɪv eɪ aɪ/	生成式AI，能创造新内容（文字/图片/音视频）的AI分支
CV	Computer Vision	/kəmˈpjuːtər ˈvɪʒən/	计算机视觉，让机器理解和处理图像/视频的技术
DS	Data Science	/ˈdeɪtə ˈsaɪəns/	数据科学，从数据中提取洞察和知识的跨学科领域
DA	Data Analytics	/ˈdeɪtə əˈnælətɪks/	数据分析，检查、清洗和建模数据以发现有用信息

二、模型架构

简称	全称	全称读音（IPA）	通俗解释
LLM	Large Language Model	/lɑːrdʒ ˈlæŋɡwɪdʒ ˈmɑːdəl/	大语言模型，ChatGPT等AI助手的核心技术
Transformer	Transformer	/trænsˈfɔːrmər/	几乎所有现代大模型的基础架构，核心是「自注意力」机制
BERT	Bidirectional Encoder Representations from Transformers	/ˌbaɪdɪˈrekʃənl ɪnˈkoʊdər ˌreprɪzenˈteɪʃənz frəm trænsˈfɔːrmərz/	谷歌出品的双向编码器模型，擅长「理解」类任务
GPT	Generative Pre-trained Transformer	/ˈdʒenərətɪv priː ˈtreɪnd trænsˈfɔːrmər/	OpenAI的生成式模型系列，擅长「续写」和对话
MoE	Mixture of Experts	/ˈmɪkstʃər əv ˈekspɜːrts/	混合专家模型，只激活部分参数推理，效率更高
ANN	Artificial Neural Network	/ˌɑːrtɪˈfɪʃəl ˈnʊrəl ˈnetwɜːrk/	人工神经网络，模拟生物神经元的计算结构
CNN	Convolutional Neural Network	/kənˈvɑːlʊʃənl ˈnʊrəl ˈnetwɜːrk/	卷积神经网络，擅长处理图像数据的网络结构
RNN	Recurrent Neural Network	/rɪˈkɜːrənt ˈnʊrəl ˈnetwɜːrk/	循环神经网络，擅长处理序列数据（如文本、时间序列）
GAN	Generative Adversarial Network	/ˈdʒenərətɪv ˌædvərˈseərɪəl ˈnetwɜːrk/	生成对抗网络，生成器与判别器相互博弈来提升效果
VAE	Variational Autoencoder	/ˌveriˈeɪʃənl ˌɔːtoʊɪnˈkoʊdər/	变分自编码器，用于生成和表示学习的生成模型
Diffusion Model	Diffusion Model	/dɪˈfjuːʒən ˈmɑːdəl/	扩散模型，通过「去噪」生成图像/视频的核心技术
Foundation Model	Foundation Model	/faʊnˈdeɪʃən ˈmɑːdəl/	基础模型，在大规模数据上预训练、可适配多种任务的模型
Agent	AI Agent	/eɪ aɪ ˈeɪdʒənt/	AI智能体，能自主执行多步骤任务的AI系统

三、训练方法

简称	全称	全称读音（IPA）	通俗解释
Training	Training	/ˈtreɪnɪŋ/	训练，让模型从数据中学习规律的过程
Inference	Inference	/ˈɪnfərəns/	推理，使用训练好的模型对新数据进行预测的过程
SFT	Supervised Fine-Tuning	/ˈsuːpərvaɪzd ˈfaɪn ˈtuːnɪŋ/	监督微调，用标注数据对预训练模型进行针对性优化
RL	Reinforcement Learning	/ˌriːɪnˈfɔːrsmənt ˈlɜːrnɪŋ/	强化学习，通过试错和奖励反馈来学习最优策略
RLHF	Reinforcement Learning from Human Feedback	/ˌriːɪnˈfɔːrsmənt ˈlɜːrnɪŋ frəm ˈhjuːmən ˈfiːdbæk/	人类反馈强化学习，让模型学习人类偏好，ChatGPT成功的关键
DPO	Direct Preference Optimization	/dɪˈrekt ˈprefrəns ˌɑːptɪmaɪˈzeɪʃən/	直接偏好优化，RLHF的简化替代方案
LoRA	Low-Rank Adaptation	/loʊ ræŋk ˌædæpˈteɪʃən/	低秩适应，极省显存的微调方法
RAG	Retrieval-Augmented Generation	/rɪˈtriːvəl ɔːɡˈmentɪd ˌdʒenəˈreɪʃən/	检索增强生成，先搜资料库再回答，解决幻觉问题
CoT	Chain of Thought	/tʃeɪn əv θɔːt/	思维链，让模型分步推理，提高逻辑正确率
Distillation	Knowledge Distillation	/ˈnɑːlɪdʒ ˌdɪstɪˈleɪʃən/	知识蒸馏，用大模型教小模型，实现模型轻量化
Instruction Tuning	Instruction Tuning	/ɪnˈstrʌkʃən ˈtuːnɪŋ/	指令微调，训练模型理解并遵循人类指令
Transfer Learning	Transfer Learning	/trænsˈfɜːr ˈlɜːrnɪŋ/	迁移学习，将已学知识应用到新任务上
Self-Supervised Learning	Self-Supervised Learning	/self ˈsuːpərvaɪzd ˈlɜːrnɪŋ/	自监督学习，从数据自身构造监督信号进行学习
AutoML	Automated Machine Learning	/ˈɔːtəmeɪtɪd məˈʃiːn ˈlɜːrnɪŋ/	自动化机器学习，自动完成模型选择和超参数调优

四、评估指标

简称	全称	全称读音（IPA）	通俗解释
Accuracy	Accuracy	/ˈækjərəsi/	准确率，分类正确的样本占总样本的比例
Precision	Precision	/prɪˈsɪʒən/	精确率，预测为正的样本中实际为正的比例
Recall	Recall	/rɪˈkɔːl/	召回率，实际为正的样本中被正确预测的比例
F1 Score	F1 Score	/ef wʌn skɔːr/	F1分数，精确率和召回率的调和平均数
BLEU	BLEU	/bluː/	双语评估替补，机器翻译质量的自动评估指标
ROUGE	ROUGE	/ruːʒ/	面向召回，文本摘要质量的评估指标
Benchmark	Benchmark	/ˈbentʃmɑːrk/	基准测试，用于评估AI模型性能的标准任务和数据集
Cross-Validation	Cross-Validation	/krɔːs ˌvælɪˈdeɪʃən/	交叉验证，将数据集分成多份轮流训练和验证
Overfitting	Overfitting	/ˌoʊvərˈfɪtɪŋ/	过拟合，模型过度学习训练数据，在新数据上表现差
Underfitting	Underfitting	/ˌʌndərˈfɪtɪŋ/	欠拟合，模型未能学习到数据中的规律

五、输入输出

简称	全称	全称读音（IPA）	通俗解释
Token	Token	/ˈtoʊkən/	词元/标记，模型处理的最小文本单位
Prompt	Prompt	/prɑːmpt/	提示/指令，用户输入给模型的问题或描述
Completion	Completion	/kəmˈpliːʃən/	补全/回答，模型输出的结果文本
Context	Context Window	/ˈkɑːntekst ˈwɪndoʊ/	上下文窗口，模型一次能处理的最大token数量
Hallucination	Hallucination	/həˌluːsɪˈneɪʃən/	幻觉，模型编造不存在的事实
Embedding	Embedding	/ɪmˈbedɪŋ/	嵌入/向量化，将文字/图像转为数学向量
Parameters	Parameters	/pəˈræmɪtərz/	参数，模型中可学习的权重，规模用B（十亿）表示
Attention	Attention Mechanism	/əˈtenʃən ˈmekənɪzəm/	注意力机制，让模型关注输入中的重要部分
Cache	KV Cache	/keɪʃ/	键值缓存，存储中间计算结果以加速推理
Label	Label	/ˈleɪbəl/	标签，监督学习中的正确答案（标注）
Logits	Logits	/ˈloʊdʒɪts/	逻辑值，模型最后一层输出的原始分数（未归一化）

六、数据结构

简称	全称	全称读音（IPA）	通俗解释
Structured Data	Structured Data	/ˈstrʌktʃərd ˈdeɪtə/	结构化数据，有固定格式的数据（如表格）
Unstructured Data	Unstructured Data	/ʌnˈstrʌktʃərd ˈdeɪtə/	非结构化数据，无固定格式（如文本、图片、视频）
Semi-Structured Data	Semi-Structured Data	/ˈsemaɪ ˈstrʌktʃərd ˈdeɪtə/	半结构化数据，介于两者之间（如JSON、XML）
Dataset	Dataset	/ˈdeɪtəset/	数据集，用于训练/评估的样本集合
Big Data	Big Data	/bɪɡ ˈdeɪtə/	大数据，规模巨大、传统工具难以处理的数据集
Labeled Data	Labeled Data	/ˈleɪbəld ˈdeɪtə/	标注数据，带有正确答案标签的数据
Unlabeled Data	Unlabeled Data	/ʌnˈleɪbəld ˈdeɪtə/	无标注数据，未标记的原始数据

七、工程部署

简称	全称	全称读音（IPA）	通俗解释
API	Application Programming Interface	/ˌæplɪˈkeɪʃən ˈproʊɡræmɪŋ ˈɪntərfeɪs/	应用程序接口，让不同软件相互通信的协议
LLMOps	Large Language Model Operations	/lɑːrdʒ ˈlæŋɡwɪdʒ ˈmɑːdəl ɑːps/	大语言模型运维，LLM的全生命周期管理
MLOps	Machine Learning Operations	/məˈʃiːn ˈlɜːrnɪŋ ɑːps/	机器学习运维，ML模型的开发、部署和维护流程
GPU	Graphics Processing Unit	/ˈɡræfɪks ˈprɑːsesɪŋ ˈjuːnɪt/	图形处理器，AI训练的核心硬件（并行计算能力强）
TPU	Tensor Processing Unit	/ˈtensər ˈprɑːsesɪŋ ˈjuːnɪt/	张量处理器，谷歌专为AI设计的芯片
FPGA	Field-Programmable Gate Array	/fiːld ˈproʊɡræməbəl ɡeɪt əˌreɪ/	现场可编程门阵列，可重构的AI加速硬件
Cloud Computing	Cloud Computing	/klaʊd kəmˈpjuːtɪŋ/	云计算，按需租用计算资源而非自建机房
Model Hub	Model Hub	/ˈmɑːdəl hʌb/	模型中心，共享预训练模型的平台（如Hugging Face）
Vector Database	Vector Database	/ˈvektər ˈdeɪtəbeɪs/	向量数据库，存储和检索Embedding向量的数据库
Quantization	Quantization	/ˌkwɑːntɪˈzeɪʃən/	量化，将模型参数从高精度转为低精度以减小体积
Pruning	Pruning	/ˈpruːnɪŋ/	剪枝，移除模型中不重要的连接以压缩模型

八、热门产品

简称	全称	全称读音（IPA）	通俗解释
ChatGPT	ChatGPT	/ˈtʃætˈdʒiːˈpiːˈtiː/	OpenAI的对话AI产品，基于GPT架构
GPT-4o	GPT-4 Omni	/ˈdʒiː piː tiː fɔːr ˈɑːmni/	GPT-4全能版，支持实时语音和图像理解
Claude	Claude	/klɔːd/	Anthropic出品，长上下文、安全性高的模型
Gemini	Gemini	/ˈdʒemɪnaɪ/	Google多模态模型，原生支持文字/图像/视频
Llama	Llama	/ˈlɑːmə/	Meta开源模型系列，开源社区最流行
Qwen	Qwen	/tʃjuːˈen/	阿里通义千问，中文能力强、开源
DeepSeek	DeepSeek	/diːp siːk/	深度求索，高性价比、开源MoE架构
Mistral	Mistral	/ˈmɪstrəl/	欧洲开源模型，「小体积强性能」著称
DALL-E	DALL-E	/ˈdɔːli/	OpenAI的图片生成模型，文字遵从度高
SD	Stable Diffusion	/ˈsteɪbəl dɪˈfjuːʒən/	最流行的开源图片生成模型
Sora	Sora	/ˈsɔːrə/	OpenAI的视频生成模型（尚未全面开放）

九、风险与治理

简称	全称	全称读音（IPA）	通俗解释
Bias	Bias	/ˈbaɪəs/	偏见，因训练数据问题导致的歧视性输出
Automation Bias	Automation Bias	/ˌɔːtəˈmeɪʃən ˈbaɪəs/	自动化偏见，人类过度相信AI输出而忽视自身判断
Model Drift	Model Drift	/ˈmɑːdəl drɪft/	模型漂移，模型因环境变化而性能下降
Prompt Injection	Prompt Injection	/prɑːmpt ɪnˈdʒekʃən/	提示注入，黑客通过特殊指令操控AI输出
Data Poisoning	Data Poisoning	/ˈdeɪtə ˈpɔɪzənɪŋ/	数据投毒，攻击者在训练数据中注入恶意样本
Jailbreak	Jailbreak	/ˈdʒeɪlbreɪk/	越狱，绕过AI的安全限制使其输出违规内容
XAI	Explainable AI	/ɪkˈspleɪnəbəl eɪ aɪ/	可解释AI，让人理解AI的决策逻辑
Guardrails	Guardrails	/ˈɡɑːrdreɪlz/	护栏/安全围栏，限制AI输出的安全机制
Alignment	Alignment	/əˈlaɪnmənt/	对齐，确保AI行为符合人类价值观和意图
Black Box	Black Box	/blæk bɑːks/	黑箱，内部推理过程不可见的系统
Responsible AI	Responsible AI	/rɪˈspɑːnsəbəl eɪ aɪ/	负责任AI，确保AI有益、安全、合乎伦理的实践

十、开发工具

简称	全称	全称读音（IPA）	通俗解释
PyTorch	PyTorch	/ˈpaɪtɔːrtʃ/	Meta出品的主流深度学习框架，动态计算图
TensorFlow	TensorFlow	/ˈtensərfloʊ/	Google出品的主流深度学习框架
Scikit-learn	Scikit-learn	/ˈsaɪkɪt lɜːrn/	Python经典机器学习库，适合传统ML算法
Jupyter	Jupyter Notebook	/ˈdʒuːpɪtər ˈnoʊtbʊk/	交互式编程环境，数据科学常用
Google Colab	Google Colab	/ˈɡuːɡəl ˈkoʊlæb/	谷歌免费云端GPU编程环境
Hugging Face	Hugging Face	/ˈhʌɡɪŋ feɪs/	模型和数据集的共享平台，AI的「GitHub」
LangChain	LangChain	/læŋ tʃeɪn/	用于构建LLM应用的开源框架（RAG、Agent等）

附录：发音速查表

常见难词	音标	读音要点
Transformer	/trænsˈfɔːrmər/	重音在 `for`，不是 `trans`
Reinforcement	/ˌriːɪnˈfɔːrsmənt/	`ri` 和 `en` 之间轻微停顿
Hallucination	/həˌluːsɪˈneɪʃən/	重音在 `nei`
Embedding	/ɪmˈbedɪŋ/	开头是 `ɪm`，不是 `em`
Quantization	/ˌkwɑːntɪˈzeɪʃən/	注意 `kwan` 的发音

📅 生成日期：2026年5月
📝 版本：v2.0

currentDiggType = 0;

posted @ 2026-05-14 11:57 疯狂的石头czx 阅读(26) 评论(0) [收藏](javascript:void(0)) 举报