学校网站制作推荐,什么网站可以做实验室,网络推广经典和常用的方法,网站运营网站建设今天给大家推荐一款文本处理工具#xff0c;可以Extract、Redact、Summarize、Refine、Translate、Interrogate#xff0c;这个工具就是文档转换框架doctran。
欢迎关注公众号 doctran基于OpenAI的GPT模型和开源的NLP库来剖析文本数据。该工具也可以在LangChain框架document…今天给大家推荐一款文本处理工具可以Extract、Redact、Summarize、Refine、Translate、Interrogate这个工具就是文档转换框架doctran。
欢迎关注公众号 doctran基于OpenAI的GPT模型和开源的NLP库来剖析文本数据。该工具也可以在LangChain框架document_transformers模块内使用。本质上是对LLM和NLP库的封装 Github: https://github.com/psychic-api/doctran
Example: https://github.com/psychic-api/doctran/blob/main/examples.ipynb
1. 安装
pip install doctran2. 使用
初始化设置
from doctran import DoctranOPENAI_API_KEY
OPENAI_MODEL doctran Doctran(openai_api_keyOPENAI_API_KEYopenai_modelOPENAI_MODEL)
document doctran.parse(contentyour_content_as_string)注修改openai_api_base、使用其他LLM等可在源码中修改即可。
Extract
针对任何有效的JSON模式使用OpenAI的函数调用从文档中提取结构化数据。
from doctran import ExtractPropertyproperties ExtractProperty(namemillenial_or_boomer, descriptionA prediction of whether this document was written by a millenial or boomer,typestring,enum[millenial, boomer],requiredTrue
)
document await document.extract(propertiesproperties).execute()Redact
使用spaCy模型从文档中删除姓名、电子邮件、电话号码和其他敏感信息。在本地运行以避免将敏感数据发送到第三方API。
document await document.redact(entities[PERSON, EMAIL_ADDRESS, PHONE_NUMBER, US_SSN]).execute()Summarize
总结文档中的信息。可以传递token_limit以配置摘要的大小然而OpenAI可能不会遵循此限制。
document await document.summarize().execute()Refine
除非与特定主题相关否则从文档中删除所有信息。
document await document.refine(topics[marketing, meetings]).execute()Translate
将文本翻译成另一种语言。
document await document.translate(languagespanish).execute()Interrogate
将文档中的信息转换成问答格式。最终用户的查询通常以问题的形式提出因此将信息转换为问题并从这些问题创建索引通常在使用向量数据库进行上下文检索时能够产生更好的结果。
document await document.interrogate().execute()Interrogate可以帮助构造大模型有监督微调阶段的问答对。
3. 总结
doctran使用简单可以用于日常工作中的数据处理。