HTML을 로드하는 방법

하이퍼텍스트 마크업 언어(HyperText Markup Language, HTML)는 웹 브라우저에 표시되도록 설계된 문서의 표준 마크업 언어입니다.

이는 다운스트림에서 사용할 수 있는 LangChain 문서 개체에 HTML 문서를 로드하는 방법을 다룹니다.

HTML 파일을 구문 분석하려면 특수 도구가 필요한 경우가 많습니다. 여기서는 pip를 통해 설치할 수 있는 Unstructured 및 BeautifulSoup4를 통한 구문 분석을 보여줍니다. Azure AI Document Intelligence 또는 FireCrawl과 같은 추가 서비스와의 통합을 찾으려면 통합 페이지로 이동하세요.