【Python】LangChain Modelsとは？｜LLM・チャットモデル・Embeddingsの実装方法

相关文章推荐

心软的茄子 · php通过curl方式实现发送接收xml数据 ...· 8 月前 ·

英俊的松球 · PaddleX、PP-Yolo：手把手教你训 ...· 2 年前 ·

俊逸的充值卡 · YOLOv5来了！基于PyTorch，体积比 ...· 2 年前 ·

月球上的镜子 · 存储过程打印sql语句-掘金· 2 年前 ·

睿智的墨镜 · Google推荐的图片加载库Glide介绍_ ...· 2 年前 ·

from langchain.llms import OpenAI
# =============================================================================
# LLMモデル作成
# =============================================================================
LLM = OpenAI(
            model_name        = "text-davinci-003", # OpenAI社のモデル名
            temperature       = 0.5,                # 出力する単語のランダム性（0から2の範囲） 0であれば毎回返答内容固定
            max_tokens        = 256,                # 生成する単語の最大単語数
            top_p             = 1,                  # 核サンプリング：値が高いほど正確・事実に基づく回答、低いほど多様な回答を生成
            frequency_penalty = 0,                  # 単語の繰り返し頻度。[-2:2]の範囲で設定し値が大きいほど繰り返し回数低下
            presence_penalty  = 0,                  # 単語をもう一度使うかどうか。[-2:2]で設定し値が大きいほど再出現率が低下
            n                 = 1,                  # いくつの返答を生成するか
            best_of           = 1,                  # 最善の返答をいくつ返すか
            batch_size        = 20,                 # バッチサイズ
            max_retries       = 6,                  # API呼出失敗時の最大リトライ回数              
上記で利用したlangchain.llms.OpenAIの引数情報について言及します。
スクロールできます 

引数名 概要
model_name OpenAI社が提供するGPTモデル名。
temperature 0から2の範囲の範囲で出力する単語のランダム性を設定。値が低けほど最も確率が高い回答が常に選択されるため、結果はより決定論的になる。値が大きいほど、ランダム性が増し、多様で創造的な出力を得る。事実に基づくQAモデル作成の場合、この値を低くし、詩や創造的なタスクの場合、高い値の設定を推奨。
max_tokens 生成する文章の最大単語数。
top_p 核サンプリングと呼ばれるサンプリング手法。モデルの応答生成際して決定性を制御できる。値が低いほど正確で事実に基づいた回答が得やすく、値が高いほど多様な回答を得やすい。
frequency_penalty 同じ単語の繰り返し頻度。[-2:2]の範囲で値を設定。値が大きいほど繰り返しにおけるペナルティが増加するため、単語の繰り返し回数は低下。一方、値が小さいほどペナルティも小さくなるため、同じ単語を繰り返し利用する回数が増加傾向にある。
presence_penalty 単語をもう一度使うかどうか。[-2:2]の範囲で値を設定。値が大きいほど、2回目以降の単語の再出現率が低下。一方、値が小さいほどペナルティも小さくなるため、単語の再出現率は増加傾向にある。
n 最大いくつの返答を生成するか。
best_of 生成した返答数のうち、関連度の高い最善の返答をいくつまで出力するか。
batch_size バッチサイズ
max_retries API呼出失敗時の最大リトライ回数
LLM実行｜質疑応答
前述のLLMを実際に利用しましょう。LLMを用いた質疑応答は入力テキストを渡すと実現できます。
# =============================================================================
# LLMモデル実行
# =============================================================================
# 入力文章
text     = "日本の首都はどこ？"
# LLM実行
response = LLM(text)
出力イメージ
print(response)
# 出力イメージ
# 日本の首都は東京都です。

LLM実行｜質疑応答

出力イメージ

LLM実行｜文章生成

出力イメージ

【参考】応答メッセージ

出力イメージ

チャットモデル実行｜SystemMessage×HumanMessage

出力イメージ

チャットモデル実行｜文章生成

出力イメージ

【Python】LangChain Models｜Embeddingモデルの実装方法

Pythonライブラリのインストール

Embeddingモデル作成

Embeddingモデル実行

出力イメージ

【参考】PythonによるLLM実装｜ChatGPT・LangChain

引数名	概要
model_name	OpenAI社が提供するGPTモデル名。
temperature	0から2の範囲の範囲で出力する単語のランダム性を設定。値が低けほど最も確率が高い回答が常に選択されるため、結果はより決定論的になる。値が大きいほど、ランダム性が増し、多様で創造的な出力を得る。事実に基づくQAモデル作成の場合、この値を低くし、詩や創造的なタスクの場合、高い値の設定を推奨。
max_tokens	生成する文章の最大単語数。
top_p	核サンプリングと呼ばれるサンプリング手法。モデルの応答生成際して決定性を制御できる。値が低いほど正確で事実に基づいた回答が得やすく、値が高いほど多様な回答を得やすい。
frequency_penalty	同じ単語の繰り返し頻度。[-2:2]の範囲で値を設定。値が大きいほど繰り返しにおけるペナルティが増加するため、単語の繰り返し回数は低下。一方、値が小さいほどペナルティも小さくなるため、同じ単語を繰り返し利用する回数が増加傾向にある。
presence_penalty	単語をもう一度使うかどうか。[-2:2]の範囲で値を設定。値が大きいほど、2回目以降の単語の再出現率が低下。一方、値が小さいほどペナルティも小さくなるため、単語の再出現率は増加傾向にある。
n	最大いくつの返答を生成するか。
best_of	生成した返答数のうち、関連度の高い最善の返答をいくつまで出力するか。
batch_size	バッチサイズ
max_retries	API呼出失敗時の最大リトライ回数

引数名	概要
model	OpenAI社のモデル名
embedding_ctx_length	エンコーディング時の最大コンテキスト長
chunk_size	チャンクの最大サイズ
max_retries	API呼出失敗時の最大リトライ回数