[PYTHON/LLAMA-INDEX] Settings 클래스 : embed_model 정적 변수를 사용해 허깅 페이스 임베딩(HuggingFaceEmbeddings) 커스텀 설정하기

■ Settings 클래스의 embed_model 정적 변수를 사용해 허깅 페이스 임베딩(HuggingFaceEmbeddings)을 커스텀 설정하는 방법을 보여준다.

▶ main.py


import os

from langchain_huggingface    import HuggingFaceEmbeddings
from llama_index.core         import Settings, SimpleDirectoryReader, GPTVectorStoreIndex
from llama_index.llms.openai  import OpenAI

os.environ["OPENAI_API_KEY"] = "<OPENAI_API_KEY>"

simpleDirectoryReader = SimpleDirectoryReader(input_dir = "/home/king/data")

documentList = simpleDirectoryReader.load_data()

Settings.llm = OpenAI(
    model       = "gpt-4", # 모델명
    temperature = 0.1      # 온도
)

Settings.max_input_size    = 4096 # LLM 입력의 최대 토큰 수
Settings.num_output        = 256  # LLM 출력의 토큰 수
Settings.max_chunk_overlap = 20   # 청크 오버랩의 최대 토큰 수

Settings.embed_model = HuggingFaceEmbeddings(model_name = "bongsoo/moco-sentencedistilbertV2.1")

vectorStoreIndex = GPTVectorStoreIndex.from_documents(documentList)

retrieverQueryEngine = vectorStoreIndex.as_query_engine()

answer1 = retrieverQueryEngine.query("미코의 소꿉친구 이름은?"      )
answer2 = retrieverQueryEngine.query("울프 코퍼레이션의 CEO 이름은?")
answer3 = retrieverQueryEngine.query("미코의 성격은?"               )

print(f"미코의 소꿉친구 이름     : {answer1}")
print(f"울프 코퍼레이션 CEO 이름 : {answer2}")
print(f"미코의 성격은            : {answer3}")

import os

from langchain_huggingface import HuggingFaceEmbeddings

from llama_index.core import Settings, SimpleDirectoryReader, GPTVectorStoreIndex

from llama_index.llms.openai import OpenAI

os.environ["OPENAI_API_KEY"] = "<OPENAI_API_KEY>"

simpleDirectoryReader = SimpleDirectoryReader(input_dir = "/home/king/data")

documentList = simpleDirectoryReader.load_data()

Settings.llm = OpenAI(

model = "gpt-4", # 모델명

temperature = 0.1 # 온도

)

Settings.max_input_size = 4096 # LLM 입력의 최대 토큰 수

Settings.num_output = 256 # LLM 출력의 토큰 수

Settings.max_chunk_overlap = 20 # 청크 오버랩의 최대 토큰 수

Settings.embed_model = HuggingFaceEmbeddings(model_name = "bongsoo/moco-sentencedistilbertV2.1")

vectorStoreIndex = GPTVectorStoreIndex.from_documents(documentList)

retrieverQueryEngine = vectorStoreIndex.as_query_engine()

answer1 = retrieverQueryEngine.query("미코의 소꿉친구 이름은?" )

answer2 = retrieverQueryEngine.query("울프 코퍼레이션의 CEO 이름은?")

answer3 = retrieverQueryEngine.query("미코의 성격은?" )

print(f"미코의 소꿉친구 이름 : {answer1}")

print(f"울프 코퍼레이션 CEO 이름 : {answer2}")

print(f"미코의 성격은 : {answer3}")

▶ 실행 결과


미코의 소꿉친구 이름     : 미코의 소꿉친구의 이름은 료입니다.
울프 코퍼레이션 CEO 이름 : 울프 박사입니다.
미코의 성격은            : 문맥에 따르면 미코는 끈기 있고 용감한 성격을 가진 것으로 보입니다. 그녀는 상황이 엄중한 데도 굴하지 않고 울프 박사와 싸우었으며, 그의 약점을 찾아 그를 이길 수 있었습니다.

미코의 소꿉친구 이름 : 미코의 소꿉친구의 이름은 료입니다.

울프 코퍼레이션 CEO 이름 : 울프 박사입니다.

미코의 성격은 : 문맥에 따르면 미코는 끈기 있고 용감한 성격을 가진 것으로 보입니다. 그녀는 상황이 엄중한 데도 굴하지 않고 울프 박사와 싸우었으며, 그의 약점을 찾아 그를 이길 수 있었습니다.

▶ requirements.txt


aiohttp==3.9.5
aiosignal==1.3.1
annotated-types==0.7.0
anyio==4.4.0
async-timeout==4.0.3
attrs==23.2.0
beautifulsoup4==4.12.3
certifi==2024.6.2
charset-normalizer==3.3.2
click==8.1.7
dataclasses-json==0.6.6
Deprecated==1.2.14
dirtyjson==1.0.8
distro==1.9.0
exceptiongroup==1.2.1
filelock==3.14.0
frozenlist==1.4.1
fsspec==2024.6.0
greenlet==3.0.3
h11==0.14.0
httpcore==1.0.5
httpx==0.27.0
huggingface-hub==0.23.3
idna==3.7
Jinja2==3.1.4
joblib==1.4.2
jsonpatch==1.33
jsonpointer==2.4
langchain==0.2.3
langchain-community==0.2.4
langchain-core==0.2.5
langchain-huggingface==0.0.3
langchain-text-splitters==0.2.1
langsmith==0.1.75
llama-index==0.10.43
llama-index-agent-openai==0.2.7
llama-index-cli==0.1.12
llama-index-core==0.10.43
llama-index-embeddings-langchain==0.1.2
llama-index-embeddings-openai==0.1.10
llama-index-indices-managed-llama-cloud==0.1.6
llama-index-legacy==0.9.48
llama-index-llms-openai==0.1.22
llama-index-multi-modal-llms-openai==0.1.6
llama-index-program-openai==0.1.6
llama-index-question-gen-openai==0.1.3
llama-index-readers-file==0.1.23
llama-index-readers-llama-parse==0.1.4
llama-parse==0.4.4
llamaindex-py-client==0.1.19
MarkupSafe==2.1.5
marshmallow==3.21.3
mpmath==1.3.0
multidict==6.0.5
mypy-extensions==1.0.0
nest-asyncio==1.6.0
networkx==3.3
nltk==3.8.1
numpy==1.26.4
nvidia-cublas-cu12==12.1.3.1
nvidia-cuda-cupti-cu12==12.1.105
nvidia-cuda-nvrtc-cu12==12.1.105
nvidia-cuda-runtime-cu12==12.1.105
nvidia-cudnn-cu12==8.9.2.26
nvidia-cufft-cu12==11.0.2.54
nvidia-curand-cu12==10.3.2.106
nvidia-cusolver-cu12==11.4.5.107
nvidia-cusparse-cu12==12.1.0.106
nvidia-nccl-cu12==2.20.5
nvidia-nvjitlink-cu12==12.5.40
nvidia-nvtx-cu12==12.1.105
openai==1.32.0
orjson==3.10.3
packaging==23.2
pandas==2.2.2
pillow==10.3.0
pydantic==2.7.3
pydantic_core==2.18.4
pypdf==4.2.0
python-dateutil==2.9.0.post0
pytz==2024.1
PyYAML==6.0.1
regex==2024.5.15
requests==2.32.3
safetensors==0.4.3
scikit-learn==1.5.0
scipy==1.13.1
sentence-transformers==3.0.0
six==1.16.0
sniffio==1.3.1
soupsieve==2.5
SQLAlchemy==2.0.30
striprtf==0.0.26
sympy==1.12.1
tenacity==8.3.0
threadpoolctl==3.5.0
tiktoken==0.7.0
tokenizers==0.19.1
torch==2.3.1
tqdm==4.66.4
transformers==4.41.2
triton==2.3.1
typing-inspect==0.9.0
typing_extensions==4.12.1
tzdata==2024.1
urllib3==2.2.1
wrapt==1.16.0
yarl==1.9.4

100

101

102

103

104

105

106

107

108

109

110

aiohttp==3.9.5

aiosignal==1.3.1

annotated-types==0.7.0

anyio==4.4.0

async-timeout==4.0.3

attrs==23.2.0

beautifulsoup4==4.12.3

certifi==2024.6.2

charset-normalizer==3.3.2

click==8.1.7

dataclasses-json==0.6.6

Deprecated==1.2.14

dirtyjson==1.0.8

distro==1.9.0

exceptiongroup==1.2.1

filelock==3.14.0

frozenlist==1.4.1

fsspec==2024.6.0

greenlet==3.0.3

h11==0.14.0

httpcore==1.0.5

httpx==0.27.0

huggingface-hub==0.23.3

idna==3.7

Jinja2==3.1.4

joblib==1.4.2

jsonpatch==1.33

jsonpointer==2.4

langchain==0.2.3

langchain-community==0.2.4

langchain-core==0.2.5

langchain-huggingface==0.0.3

langchain-text-splitters==0.2.1

langsmith==0.1.75

llama-index==0.10.43

llama-index-agent-openai==0.2.7

llama-index-cli==0.1.12

llama-index-core==0.10.43

llama-index-embeddings-langchain==0.1.2

llama-index-embeddings-openai==0.1.10

llama-index-indices-managed-llama-cloud==0.1.6

llama-index-legacy==0.9.48

llama-index-llms-openai==0.1.22

llama-index-multi-modal-llms-openai==0.1.6

llama-index-program-openai==0.1.6

llama-index-question-gen-openai==0.1.3

llama-index-readers-file==0.1.23

llama-index-readers-llama-parse==0.1.4

llama-parse==0.4.4

llamaindex-py-client==0.1.19

MarkupSafe==2.1.5

marshmallow==3.21.3

mpmath==1.3.0

multidict==6.0.5

mypy-extensions==1.0.0

nest-asyncio==1.6.0

networkx==3.3

nltk==3.8.1

numpy==1.26.4

nvidia-cublas-cu12==12.1.3.1

nvidia-cuda-cupti-cu12==12.1.105

nvidia-cuda-nvrtc-cu12==12.1.105

nvidia-cuda-runtime-cu12==12.1.105

nvidia-cudnn-cu12==8.9.2.26

nvidia-cufft-cu12==11.0.2.54

nvidia-curand-cu12==10.3.2.106

nvidia-cusolver-cu12==11.4.5.107

nvidia-cusparse-cu12==12.1.0.106

nvidia-nccl-cu12==2.20.5

nvidia-nvjitlink-cu12==12.5.40

nvidia-nvtx-cu12==12.1.105

openai==1.32.0

orjson==3.10.3

packaging==23.2

pandas==2.2.2

pillow==10.3.0

pydantic==2.7.3

pydantic_core==2.18.4

pypdf==4.2.0

python-dateutil==2.9.0.post0

pytz==2024.1

PyYAML==6.0.1

regex==2024.5.15

requests==2.32.3

safetensors==0.4.3

scikit-learn==1.5.0

scipy==1.13.1

sentence-transformers==3.0.0

six==1.16.0

sniffio==1.3.1

soupsieve==2.5

SQLAlchemy==2.0.30

striprtf==0.0.26

sympy==1.12.1

tenacity==8.3.0

threadpoolctl==3.5.0

tiktoken==0.7.0

tokenizers==0.19.1

torch==2.3.1

tqdm==4.66.4

transformers==4.41.2

triton==2.3.1

typing-inspect==0.9.0

typing_extensions==4.12.1

tzdata==2024.1

urllib3==2.2.1

wrapt==1.16.0

yarl==1.9.4

※ pip install openai langchain llama-index langchain-community langchain-huggingface sentence-transformers 명령을 실행했다.

data.zip

Post Views: 5

AI HUGGING FACE LLAMA-INDEX LLM PYTHON

icodebroker

[PYTHON/LLAMA-INDEX] Settings 클래스 : embed_model 정적 변수를 사용해 허깅 페이스 임베딩(HuggingFaceEmbeddings) 커스텀 설정하기

분류

보관함