IT 세계의 후아
[error]ModuleNotFoundError: No module named 'pillow_heif' 본문
https://hoooa.tistory.com/67 에서 UnstructuredPDFLoader 실습하던 중 만난 오류,,
from langchain_community.document_loaders import UnstructuredPDFLoader
pdf = '/content/drive/MyDrive/재정정보경진대회/data/train_source/1-1 2024 주요 재정통계 1권.pdf'
loader = UnstructuredPDFLoader(pdf, mode='elements')
pages = loader.load()
print(len(pages))
pages[20].page_content[:10]
pillow_heif 처음 들어보는 모듈인데 뭘까..찾아봐도 모르겠던 와중
pip install unstructured[all-docs]
이 아이를 다시 설치해보라는 얘기가 있어서 했더니 성공,,,ㅎㅎㅎ
파이썬 Unsturctured 라이브러리
unstructed data → structured data로 변환
PDF, HTML, JSON, XML 등
'pip install unstructured[파일 형태]' # or [all-docs]
- Data Loader로 다양하게 쓰임
ex) from langchain_unstructured import UnstructuredLoader
from langchain_community.document_loaders import UnstructuredCSVLoader
cf)
https://python.langchain.com/v0.2/docs/integrations/providers/unstructured/
'Coding > Study' 카테고리의 다른 글
[논문]QLoRA: Efficient Finetuning of Quantized LLMs (1) | 2024.08.22 |
---|---|
[AI]RAG 기본 이론&실습(3) (0) | 2024.08.05 |
[AI]RAG 기본 이론&실습(2) (0) | 2024.08.01 |
[AI]RAG 기본 이론&실습(1) (0) | 2024.08.01 |
[error]ValidationError: 1 validation error for ChatOpenAI (0) | 2024.08.01 |