면접이 얼마 안남았다. 발등에 불 떨어졌다.
지금 내가 분석하고 있는 주제, 곧 도입될 예정이라
다들 관심있게 보고 있는 LLM을 정리해보도록 하자....
LLM
LLM 이란 Large Language Model로, 대규모 데이터를 학습하여 사람과 같은 텍스트를 생성해주는 기술이다.
LLM은 생성형 AI 중 텍스트 기반이다.
생성형 AI란 주어진 데이터를 학습한 후 새로운 콘텐츠 (텍스트, 이미지, 음성, 코드 등)를 생성할 수 있는 AI 모델을 의미한다.
동작방식은
1. 데이터 학습 (Pretraining): 방대한 양의 데이터를 학습하여 패턴을 이해함
2. 패턴 분석 및 확률 기반 예측: 사용자의 입력을 분석하고, 가장 적절한 출력을 확률적으로 예측함
3. 새로운 콘텐츠 생성: 학습한 데이터를 기반으로 완전히 새로운 문장, 이미지, 코드 등을 생성함
그래서 LLM의 특징으로는
방대한 데이터 학습-> 수십억 개의 문서를 학습하여 다양한 언어 패턴을 익힘
딥러닝 기반 자연어 처리(NLP) 모델-> 트랜스포머 아키텍처를 사용하여 문맥을 이해함
확률적 응답 생성-> 정해진 답변이 아니라 가장 가능성 높은 출력을 예측하여 응답을 생성
이 있다.
여기서 주목할 점은 학습을 "어떻게"하는지 이다.
LLM의 핵심 기술은
1. 트랜스포머 모델
2. Pretraining & Fine-tuning
3. RLHF (Reinforcement Learning from Human Feedback)
Copilot
지금 도입하려는 코파일럿은 LLM을 기반으로 한 특정 업무를 보조하는 AI 시스템이다.
단순한 자동완성 수준을 넘어, 문맥을 이해하고 사용자의 의도를 해석하여 업무를 지원하는 인공지능이다.
하지만 감당해야 할 리스크가 많긴한다.
1. 프롬프트 인젝션 -> 보안 정책 우회 가능
2. 데이터 유출 -> 기밀 데이터 마스킹, 클라우드 보안 설정 강화
3. API 및 권한 관리 -> 외부 API와 통신할 때 인증 및 접근 제어가 미흡할 경우 보안 위험 발생
4. 코드 보안 취약점 -> 코파일럿이 생성한 코드에 SQL 인젝션, XSS 보안 결함이 포함될 가능성
5. 허위 정보 및 오탐
이러한 리스크가 있음에도 왜 이것을 도입하려고 할까.
-> 당연히 생성성 향상. 루틴 업무를 대신 수행하면 직원들은 더 중요한 업무에 집중할 수 있을 것이다.
그럼 왜 딥시크는 사용하지 않을까.
개인적으로 딥시크를 써보면 GPT-3.5까지는 기술력이 도달한 것 같다. 실제로는 4까지라고는 하지만,,
근데 딥시크가 과도한 데이터 수집과 보안 우려로 인해 국내외 사용 제한 조치를 받고 있다.
딥시크는 이용자의 기기정보, IP, 주소 등 민감한 데이터를 수집하여 중국 내 서버로 저장하는 것이 알려져 있어서다. 아 무서
그래서 결론으로 자체 구축(온프레미스 LLM)은 통제권이 있기 때문에 보안적으로 더 좋다.
하지만 SaaS 기반 Copilot과 같은 AI서비스에서는 완전한 통제권이 없기 때문에, 사용자가 직접 완벽히 차단하는 것은 어려울 수 있다.
그래서 SaaS 기반의 정책에서 Enterprise 정책이 있다면 그 기능을 설정하는 방법밖에는 없다.
그리고 중요한건 클라우드 보안 정책을 강화해서 - > Copilot이 실행되는 환경에서 네트워크 보안 정책을 적용해서 불필요한 데이터 유출을 차단하는 방식이 있다. 발표를 할 때는 온프레미스와 클라우드 환경의 차이점과 각각 다른 환경에서 LLM을 이용하는 방법에 대해 말할 예정이다.
어쨌든 양날의 검이다. 보안 리스크가 크지만 이 서비스를 가져가는 데에는 확실한 이점이 있다. 그래서 도입하는 데 신중하게 생각하고 체계적으로 점검하자

챗봇 개발 후기는 다음 글에 쓰도록 하겠다....
'개발 노트 > Security' 카테고리의 다른 글
ASM(공격표면관리)로 클라우드 자산 확인해보기 (2) | 2025.01.25 |
---|
면접이 얼마 안남았다. 발등에 불 떨어졌다.
지금 내가 분석하고 있는 주제, 곧 도입될 예정이라
다들 관심있게 보고 있는 LLM을 정리해보도록 하자....
LLM
LLM 이란 Large Language Model로, 대규모 데이터를 학습하여 사람과 같은 텍스트를 생성해주는 기술이다.
LLM은 생성형 AI 중 텍스트 기반이다.
생성형 AI란 주어진 데이터를 학습한 후 새로운 콘텐츠 (텍스트, 이미지, 음성, 코드 등)를 생성할 수 있는 AI 모델을 의미한다.
동작방식은
1. 데이터 학습 (Pretraining): 방대한 양의 데이터를 학습하여 패턴을 이해함
2. 패턴 분석 및 확률 기반 예측: 사용자의 입력을 분석하고, 가장 적절한 출력을 확률적으로 예측함
3. 새로운 콘텐츠 생성: 학습한 데이터를 기반으로 완전히 새로운 문장, 이미지, 코드 등을 생성함
그래서 LLM의 특징으로는
방대한 데이터 학습-> 수십억 개의 문서를 학습하여 다양한 언어 패턴을 익힘
딥러닝 기반 자연어 처리(NLP) 모델-> 트랜스포머 아키텍처를 사용하여 문맥을 이해함
확률적 응답 생성-> 정해진 답변이 아니라 가장 가능성 높은 출력을 예측하여 응답을 생성
이 있다.
여기서 주목할 점은 학습을 "어떻게"하는지 이다.
LLM의 핵심 기술은
1. 트랜스포머 모델
2. Pretraining & Fine-tuning
3. RLHF (Reinforcement Learning from Human Feedback)
Copilot
지금 도입하려는 코파일럿은 LLM을 기반으로 한 특정 업무를 보조하는 AI 시스템이다.
단순한 자동완성 수준을 넘어, 문맥을 이해하고 사용자의 의도를 해석하여 업무를 지원하는 인공지능이다.
하지만 감당해야 할 리스크가 많긴한다.
1. 프롬프트 인젝션 -> 보안 정책 우회 가능
2. 데이터 유출 -> 기밀 데이터 마스킹, 클라우드 보안 설정 강화
3. API 및 권한 관리 -> 외부 API와 통신할 때 인증 및 접근 제어가 미흡할 경우 보안 위험 발생
4. 코드 보안 취약점 -> 코파일럿이 생성한 코드에 SQL 인젝션, XSS 보안 결함이 포함될 가능성
5. 허위 정보 및 오탐
이러한 리스크가 있음에도 왜 이것을 도입하려고 할까.
-> 당연히 생성성 향상. 루틴 업무를 대신 수행하면 직원들은 더 중요한 업무에 집중할 수 있을 것이다.
그럼 왜 딥시크는 사용하지 않을까.
개인적으로 딥시크를 써보면 GPT-3.5까지는 기술력이 도달한 것 같다. 실제로는 4까지라고는 하지만,,
근데 딥시크가 과도한 데이터 수집과 보안 우려로 인해 국내외 사용 제한 조치를 받고 있다.
딥시크는 이용자의 기기정보, IP, 주소 등 민감한 데이터를 수집하여 중국 내 서버로 저장하는 것이 알려져 있어서다. 아 무서
그래서 결론으로 자체 구축(온프레미스 LLM)은 통제권이 있기 때문에 보안적으로 더 좋다.
하지만 SaaS 기반 Copilot과 같은 AI서비스에서는 완전한 통제권이 없기 때문에, 사용자가 직접 완벽히 차단하는 것은 어려울 수 있다.
그래서 SaaS 기반의 정책에서 Enterprise 정책이 있다면 그 기능을 설정하는 방법밖에는 없다.
그리고 중요한건 클라우드 보안 정책을 강화해서 - > Copilot이 실행되는 환경에서 네트워크 보안 정책을 적용해서 불필요한 데이터 유출을 차단하는 방식이 있다. 발표를 할 때는 온프레미스와 클라우드 환경의 차이점과 각각 다른 환경에서 LLM을 이용하는 방법에 대해 말할 예정이다.
어쨌든 양날의 검이다. 보안 리스크가 크지만 이 서비스를 가져가는 데에는 확실한 이점이 있다. 그래서 도입하는 데 신중하게 생각하고 체계적으로 점검하자

챗봇 개발 후기는 다음 글에 쓰도록 하겠다....
'개발 노트 > Security' 카테고리의 다른 글
ASM(공격표면관리)로 클라우드 자산 확인해보기 (2) | 2025.01.25 |
---|