构建安全强化的RAG基础内部LLM应用环境

通过AIR Studio和AWS OpenSearch基础的RAG架构，构建了安全利用内部文档的聊天机器人环境，并验证了根据资料有无自动切换RAG或仅LLM响应的安全中心LLM应用体系。

Automotive (D Company)

Client :汽车（D公司）

Industry :Automotive / Manufacturing

Service Area :Data & AI

1. Overview（项目背景）

本项目随着公司内部生成式AI应用的扩散，为了
最小化可能发生的技术信息泄露风险和数据学习问题，构建安全的LLM使用环境而推进。

内部员工在利用ChatGPT等公开LLM的过程中
提出了企业内部数据可能向外泄露或被用于模型学习的担忧，
因此需要以安全为中心的生成式AI应用方式。

此外，不仅是简单的问答，
通过基于内部文档和嵌入数据的RAG（Retrieval-Augmented Generation）聊天机器人实现，
目标是构建根据资料有无自动切换响应方式的结构。

存在内部文档时 → 基于RAG的响应
不存在内部文档时 → 仅LLM响应

2. Solution（解决方案）

目标定义

验证基于安全解决方案的数据泄露防止结构
与GPT-4o相比，进行AWS基础LLM的性能·质量比较及基准测试

主要验证课题

验证确保内部数据不被用于外部学习的架构
验证利用AWS LLM模型的响应质量及准确度

3. Result（成果）

构建基于RAG的数据处理管道

建立将各种形式的文档转换为适合RAG的结构的预处理流程
将预处理的数据在AWS OpenSearch中进行向量索引，确保搜索准确度

文档解析及索引高度化

利用基于LLM的OCR进行文档内容解析
将解析的文档加载到VectorDB（OpenSearch）中，构成可利用RAG的结构

聊天API业务逻辑实现

用户查询输入时进行意图分类
（公司规定 / ESG / 其他）
根据分类结果自动选择RAG管道或仅LLM响应路径

文档校正功能验证

实现利用LLM进行拼写错误·表达错误校正的管道
完成文档质量改进可能性验证

预期效果

基于RAG的聊天机器人应用

通过AIR Studio提供内部文档RAG聊天机器人及Web RAG聊天机器人
支持按存储库的文档管理及设置管理功能
建立基于预期问答集的聊天机器人验证体系

文档校正自动化

提供基于Streamlit的UI
文档上传时自动检查全部内容并输出校正结果

Automotive (D Company)

Key Takeaway

构建安全强化的RAG基础内部LLM应用环境

Automotive (D Company)

1. Overview（项目背景）

2. Solution（解决方案）

目标定义

主要验证课题

3. Result（成果）

构建基于RAG的数据处理管道

文档解析及索引高度化

聊天API业务逻辑实现

文档校正功能验证

预期效果

基于RAG的聊天机器人应用

文档校正自动化

Related

Case Stories

HANATOUR

hy

Hansol Paper

MORAI

Jeju Beer

HAPPY CAMPUS

Let's build intelligent data solutions that drive real business value through advanced analytics and AI.