Coding/Study

[error]ModuleNotFoundError: No module named 'pillow_heif'

후__아 2024. 8. 1. 17:46

https://hoooa.tistory.com/67 에서 UnstructuredPDFLoader 실습하던 중 만난 오류,,

from langchain_community.document_loaders import UnstructuredPDFLoader

pdf = '/content/drive/MyDrive/재정정보경진대회/data/train_source/1-1 2024 주요 재정통계 1권.pdf'
loader = UnstructuredPDFLoader(pdf, mode='elements')
pages = loader.load()

print(len(pages))
pages[20].page_content[:10]

pillow_heif 처음 들어보는 모듈인데 뭘까..찾아봐도 모르겠던 와중

pip install unstructured[all-docs]

이 아이를 다시 설치해보라는 얘기가 있어서 했더니 성공,,,ㅎㅎㅎ

 

파이썬 Unsturctured 라이브러리

unstructed data → structured data로 변환

PDF, HTML, JSON, XML 등

'pip install unstructured[파일 형태]'   # or [all-docs]

 

- Data Loader로 다양하게 쓰임

ex) from langchain_unstructured import UnstructuredLoader

from langchain_community.document_loaders import UnstructuredCSVLoader

 

cf) 

https://python.langchain.com/v0.2/docs/integrations/providers/unstructured/