[AI] Chonkie: 가볍고 빠른 RAG 청킹 라이브러리
Chonkie는 귀여운 피그미 하마를 마스코트로 한 가볍고 빠른 RAG 청킹(chunking) 라이브러리입니다.
이 라이브러리는 "I like them big, I like them chonkie"라는 Moto Moto의 유명한 문구를 모토로 삼고 있으며, 복잡한 의존성이나 불필요한 기능 없이 RAG 시스템에 필요한 텍스트 분할 기능을 효율적으로 제공합니다.
주요 특징
- 가벼운 용량: 기본 설치 시 9.7MB로, 다른 대안들(80-171MB)보다 훨씬 가벼움
- 빠른 속도: 토큰 청킹은 33배, 문장 청킹은 2배, 시맨틱 청킹은 2.5배 더 빠름
- 사용 편의성: 설치와 임포트가 매우 간단함
지원하는 청킹 방식
- TokenChunker: 고정된 크기의 토큰 단위로 분할
- WordChunker: 단어 기반 분할
- SentenceChunker: 문장 기반 분할
- SemanticChunker: 의미적 유사도 기반 분할
- SDPMChunker: Semantic Double-Pass Merge 방식 사용[2]
설치 방법
pip install chonkie
모든 기능을 사용하려면:
pip install chonkie[all]
Posted through the ECblog app (https://blog.etain.club)
[광고] STEEM 개발자 커뮤니티에 참여 하시면, 다양한 혜택을 받을 수 있습니다.
Upvoted! Thank you for supporting witness @jswit.