提示工程涉及到的基本概念(第一波er)

提示工程涉及到的基本概念(第一波er)

编码文章call10242025-08-01 16:29:452A+A-

咋滴?一看俺发带货就不乐意了嘛…..

别骂俺,点进去看看就知道俺是一个多么有良心的博主了

行啦,俺知道俺不是一个合格的带货博主,俺还是乖乖的跟大家讲讲俺仅有的一点芝士吧~

我想想咋接入主题尼?

那么,俺今天主要就讲三点…

好了,讲完了,谢谢!

等等,别动手,刚才只是没加载出来。


第一点:Temperature

是滴,这么一个语言模型,跟特么温度有啥关系?!

俺来帮你回忆一下你的高中知识:熵!

是不是提到这个词,有些朋友就明白了?

熵值越高,混乱度越高,温度越高…

这个概念和命名俺查了半天也没查到出处是哪里,但是根据之前俺看的关于Gpt的进化史,差不多应该也就是从这里来的。(当然,如果有同好能告知俺真实的出处是哪里,俺更感激不尽)

温度升高,则熵增,混乱程度越高,随机值越高,命中概率越低。

反之亦然。

以下是它的定义:

Temperature The temperature in machine learning, particularly in the context of generative models like Large Language Models (LLMs), is a hyperparameter that controls the randomness and creativity of the model's output during inference (the generation phase).

工作原理:

Softmax 函数将 logits 转换为所有可能的下一个 token 的概率分布。温度参数 (T) 的应用方式是在计算 Softmax 之前,将 logits (zi) 除以 T:

其中:

  • qi 是第 i 个 token 的概率。
  • zi 是第 i 个 token 的 logit。
  • T 是温度。

温度值的影响:

  • 低温度(例如,0 到 0.5): 低温度会使概率分布更加尖锐。模型对其最高概率的预测变得更加确定自信。它很可能会选择最有可能的下一个 token,从而产生更可预测、连贯和集中的输出。这通常适用于需要准确性和事实正确性的任务。
  • 高温度(例如,0.7 到 1.0 或更高): 高温度会使概率分布更加平坦。模型变得更加随机具有探索性。它增加了选择较低概率 token 的可能性,从而产生更多样化、更具创造性,有时甚至是令人惊讶的输出。然而,它也可能增加生成无意义或语法不正确的文本的风险。
  • 温度为 1.0: 这通常是默认设置,代表模型输出的原始概率分布,没有任何缩放。它旨在在确定性和随机性之间取得平衡。

本质上,温度就像一个旋钮,您可以用来控制在生成的文本中,利用模型学习到的模式(低温度)和探索新的可能性(高温度)之间的平衡。


第二点:Top-K

其实呢,它的全称叫 Top-K Sampling。

这个东西理解起来稍微有点不那么困难,俺先不从别的输出格式来说,LLM作为GPT的最基础的模型,也是最能直观展现AI输出的结果滴。俺就先从LLM模型说一下。

恁使用GPT聊天时,是不是看到模型就像在跟你在电脑上打字时一样,一点点的输出给恁,然后标点,换行….cuacuacua

有时候,前面输出之后,在后面某部分正在输出的时候,前面的文字还会偷偷变一下…..

是滴,这个过程中,就是Top-K在起主要滴作用。

某歌是这么给它定义滴:

Top-K Sampling Top-K sampling is a decoding strategy used during the text generation process in Mou-gle's AI models (such as those in the Gemini family, PaLM, and others). At each step of generating the next token, instead of considering the entire probability distribution over the vocabulary, the model focuses on the K most likely tokens predicted by the neural network.

忒难理解….

俺稍微简化下,那么就

这天,恁请俺去吃饭,到了饭庄,服务员拿来菜单问:“这是菜单,恁二位想吃点啥?”

恁说:“那恁给俺报个菜名吧”

恁期望的大概是“蒸熊掌,蒸鹿尾儿,烧花鸭….”

其实是:

要想不被papapa打脸,恁最好这样说:

“俺们不吃辣,不吃鱼,俩人就三菜一汤就中啦”

服务员说“嗯,那这样,一个炒山药,一个土豆丝儿,一个排骨,外加一个胡辣汤,恁看中部中?”

菜单就是这个AI知识库,“三菜一汤”就是Top-K sampling,它的主要功能是根据概率从上到下排列下一个输出的token,然后限制这个输出的前XX个token!

Top-K Sampling的关键特点和工作方式:

  • 固定大小的候选集: Top-K 的一个关键特点是候选集的大小 K 是固定的。无论模型的概率分布如何,它总是只考虑概率最高的 K 个选项。
  • 控制随机性: 较小的 K 值(例如,K=1): 这实际上等同于贪婪搜索 (Greedy Search),模型总是选择概率最高的下一个 token。这会产生非常可预测和连贯的输出,但缺乏创造性和多样性,并且可能陷入重复或局部最优。 较大的 K 值(例如,K=50 或更高): 这会扩大候选集,允许模型在更多可能的 token 中进行选择,从而增加输出的随机性和多样性。但也可能引入更多不连贯或不相关的词语。
  • 平衡连贯性和多样性: Top-K 采样旨在通过限制候选集的大小,在生成文本的连贯性和引入一定程度的随机性以避免过于重复之间取得平衡。K 的选择是一个需要根据具体任务和期望输出特性进行调整的超参数。

是滴,记住,它的主要功能是在你带有精确目标性的提示时,择优!

第三点:Top-P


好了,要上难度了!

注意了,这个概念俺也弄不懂!

但是俺还是打算水一波~

它滴全称是 Top-P Sampling,也称为核采样(Nucleus Sampling)。

下面是它的较官方的定义:

Top-P Sampling

Top-P sampling is a decoding strategy where the model considers only the smallest set of tokens whose cumulative probability exceeds a predefined threshold P. This allows for more diverse and creative outputs while avoiding low-probability outliers.

与 Top-K 采样不同,Top-P 针对的是一个符合条件的token的集合。

是不是晕了?那就对了,关于阈值和随机,恁最好像俺那样去好好学学《概率论与数理统计》(最好也像俺那样考了三次才考过!)

那么,俺就再举个例子:

Hmmmm…….

一时还真想不出来啥好例子。

欸嘿,对了,恁看过《赌侠》木?

Hmmm,这个不好,赌博不好

Hmmm,恁会掷骰子不?

这个也不好…..

但是还是绕不过这个东西,其实就是概率。

看电影里那些牌桌上,啥同花、葫芦、顺子、同花顺啥的,他们之间是如何比大小的尼?其实就是这些组合出现的概率!组合出现的概率越小,这个组合的价值就越高,也就是“物以稀为贵”!

不能把这个例子说完了,因为俺不知道是不是会越啥界啥的。 俺把原理大概一讲就得了。

关键特点和工作方式:

  • 动态大小的候选集: 与 Top-K 固定大小的候选集不同,Top-P 的候选集大小是动态变化的。如果模型的概率分布非常集中在少数几个 token 上,候选集会很小。如果概率分布比较分散,候选集会更大。
  • 关注高概率区域: Top-P 的目标是保留最有可能的 token 集合,同时排除那些概率极低的、不太可能产生有意义结果的 token。它试图创建一个包含模型认为最相关的选项的“核心”(nucleus)。
  • 控制生成文本的连贯性和多样性: 较低的 P 值(例如,0.5): 会导致较小的候选集,模型更倾向于选择概率较高的 token,生成更连贯但可能多样性较低的文本。 较高的 P 值(例如,0.95): 会导致较大的候选集,模型有更多机会选择概率较低但仍然合理的 token,生成更多样化、更具创造性的文本,但也可能增加生成不连贯或不相关内容的风险

这三个概念非常重要,虽然很多直接使用LLM的模型的同好可能都没有接触过,但是这三个概念相当重要,其实他们决定了你使用的模型的体验度。

今天,俺没水,全是用心写滴,下篇,俺还不水…..

点击这里复制本文地址 以上内容由文彬编程网整理呈现,请务必在转载分享时注明本文地址!如对内容有疑问,请联系我们,谢谢!
qrcode

文彬编程网 © All Rights Reserved.  蜀ICP备2024111239号-4