austin-distel-rxpThOwuVgE-unsplash.jpg

AI연구회

경남ICT협회 AI 연구 모임

다른 LLM 모델(Gemini, Claude LLM)에서 만든 임베딩을 Paired Data 없이도 사용가능할까?

아래 코드는 구글뉴스에서 생성하고 이미 학습된 단어 임베딩(벡터)인 GoogleNews-vectors-negative300 에서 "Everything In Life Is Happening For You, Not To You" 문장에서 EverythingHappening 단어 사이의 거리를 계산하는 것입니다.

여기서 임베딩(벡터: GoogleNews-vectors-negative300)을 다른 임베딩(벡터)을 사용할 경우도 유사하게 나온다면 어떨까? 이는 어떤 의미일까? 

이는 상호 다른 LLM Embedding(vector)에서 유사성을 가질까? 

만약 가능하다면 이는 서로 다른 AI 모델들이 만든 임베딩(텍스트의 수치 표현)을 paired data 없이도 번역할 수 있는 첫 번째 방법 논문 "Harnessing the Universal Geometry of Embeddings"(Rishi Jha, Collin Zhang, Vitaly Shmatikov, John X. Morris, Cornell University, 2025) 입니다. 

논문 요약: Cornell University 연구팀이 개발한 Vec2Vec은 서로 다른 AI 모델의 임베딩을 페어링 데이터, 인코더, 미리 정의된 매칭 없이 번역할 수 있는 최초의 무감독 방법입니다. 강한 플라톤 표현 가설에 기반하여, 적대적 손실과 순환 일관성을 통해 서로 다른 아키텍처와 훈련 데이터를 가진 모델들 간에 최대 0.92의 코사인 유사도를 달성했습니다. 이 기술은 벡터 데이터베이스의 보안에 중대한 영향을 미치며, 임베딩 만으로도 원본 문서의 민감한 정보를 추출할 수 있음을 보여줍니다.  

기존에 알고 있는 방법들은 모두 대응 관계(correspondence) 를 필요로 했습니다. 즉, 같은 입력에 대한 두 모델의 출력 쌍이 미리 있어야 했죠. 만약 논문에서 처럼 된다면 Vec2Vec의 혁신입니다

- 페어링 데이터 완전 불필요
- 인코더 접근 불필요
- 미리 정의된 매칭 세트 불필요
- 완전 무감독 학습

 

논문의 실험 결과를 보면 정말 놀랍습니다:실제 성능: 수치로 증명된 혁신

참고: 랜덤 베이스라인의 평균 순위는 4,096 (완전 무작위 수준)

 

도메인 간 일반화 성능으로 Natural Questions (Wikipedia 기반) 훈련 → 다른 도메인 테스트로 Tweet Topic (소셜미디어) 결과:

- stella → gte: 코사인 유사도 **0.90**, Top-1 정확도 **100%**
- granite → e5: 코사인 유사도 **0.83**, Top-1 정확도 **87%**

 

심지어 의료 전문 용어와 같이 훈련 데이터에 없던 도메인에서도 높은 성능을 보인다고 하네요

심지어 MIMIC (의료 기록) 결과:

- stella → gte: 코사인 유사도 **0.91**, Top-1 정확도 **100%**
- granite → gtr: 코사인 유사도 **0.74**, Top-1 정확도 **60%**

> 주목할 점: 의료 전문 용어와 같이 훈련 데이터에 없던 도메인에서도 높은 성능!

 

보안의 새로운 패러다임으로 벡터만으로 원본 정보 복원된다고 하네요 

 충격적인 발견: 벡터만으로 원본 정보 복원

기존 인식: "임베딩은 그냥 숫자 배열이니까 안전하겠지?"

현실: "숫자만으로도 원본 정보의 대부분을 복원할 수 있다!"

 

논문으로 해결할 수 있는 것은 Vec2Vec은 단순한 기술적 혁신을 넘어서, AI들이 서로 소통하는 방식을 근본적으로 바꾸고 있을 것 같다. 이는 

- 기존에 불가능했던 AI 시스템 간 연동이 현실화
- 사일로화된 데이터의 진정한 통합 분석 가능
- 레거시 시스템도 최신 AI와 대화할 수 있는 시대 

- "숫자는 안전하다"는 기존 인식의 완전한 전환 필요
- 임베딩 벡터도 민감한 정보자산으로 관리해야
- 선제적 보안 대응이 competitive advantage

- AI 모델의 상호 운용성이 스마트 팩토리의 핵심 인프라
- 데이터 중심의 제조업 혁신 가속화
- 새로운 비즈니스 모델과 서비스 기회 창출

만약 제조 Specific Language Model 하나를 구축하고 그 모델을 제조 공정별 파급하여 사용도 가능하는 의미 입니다. 물론 보안 문제가 아직 존재 하지만…    

첨부는 논문자료 입니다. 

기업 홍보를 위한 확실한 방법
협회 홈페이지에 회사정보를 보강해 보세요.