우주의 강력한 방사선 속에서도 안전하게 작동하면서 동시에 빠른 속도를 낼 수 있는 인공지능 칩이 등장했다. 해당 논문에 따르면, 이탈리아 볼로냐대학교(University of Bologna) 연구팀이 개발한 'Safe-NEureka'는 지구 주변을 도는 위성에 탑재될 AI 칩으로, 안전이 중요한 작업과 속도가 중요한 작업을 상황에 따라 바꿔가며 처리할 수 있다.
위성 AI가 동시에 해결해야 하는 두 가지 문제
지구 주변을 도는 인공위성이 늘어나면서 위성에 탑재되는 AI의 역할이 커지고 있다. 하지만 위성 컴퓨터는 서로 반대되는 두 가지 요구를 동시에 충족해야 한다. 첫째, 다른 위성과의 충돌을 피하는 것 같은 안전이 중요한 기능에서는 단 하나의 계산 실수도 용납할 수 없다. 작은 오류 하나가 잘못된 판단으로 이어져 위성이 파괴될 수 있기 때문이다. 둘째, 지구를 관측하는 고성능 카메라의 데이터를 처리할 때는 가끔 발생하는 작은 오류는 감수하더라도 최대한 빠른 처리 속도가 필요하다. 실시간으로 쓸모없는 데이터를 걸러내야 지구로 보낼 데이터의 양을 줄일 수 있기 때문이다.
문제는 우주 환경의 강력한 방사선이 반도체 칩에 계속해서 오류를 일으킨다는 점이다. 방사선 입자가 칩 속 트랜지스터를 통과하면 전기적 성질이 변하면서 원치 않는 전압 변화가 생긴다. 이로 인해 칩 안에 저장된 0과 1의 디지털 정보가 뒤바뀌는 현상이 발생한다. 특히 여러 개의 연산 장치가 동시에 일하는 AI 칩에서는 한 곳에서 발생한 오류가 다른 곳으로 퍼져나가 최종 계산 결과를 망치거나 칩 전체가 멈춰버리는 상황까지 초래할 수 있다.
필요에 따라 모습을 바꾸는 똑똑한 칩
Safe-NEureka의 핵심 아이디어는 하나의 칩을 두 가지 방식으로 사용할 수 있다는 점이다. 원래 4×4 크기로 배치된 16개의 계산 장치를 두 개의 4×2 그룹으로 나누어, 필요에 따라 다르게 작동시킨다. '안전 모드'에서는 두 그룹이 똑같은 계산을 한 뒤 결과를 서로 비교해서 오류를 찾아낸다. 만약 두 결과가 다르면 칩이 자동으로 오류를 고친다. 이때 한 그룹의 입력 데이터와 다른 그룹의 출력 데이터를 1사이클씩 늦춰서 처리하는데, 이는 같은 순간에 두 그룹이 동시에 오류를 일으키는 것을 막기 위해서다.
반대로 '고속 모드'에서는 두 그룹이 각각 서로 다른 데이터를 동시에 처리해 작업 속도를 최대한 높인다. 각 그룹은 자체 제어 장치로 움직이며, 하나의 중앙 관리 장치가 전체를 조율한다. 중요한 점은 학습된 가중치 데이터를 전달하는 부분은 어떤 모드에서든 똑같이 작동한다는 것이다. 가중치는 항상 모든 계산 장치에 동일하게 전달되기 때문에 복잡도를 낮출 수 있다.
두 모드를 바꾸는 것은 간단하다. 위성의 중앙 컴퓨터가 칩이 쉬고 있을 때 설정 값을 바꾸면 된다. 이후 칩에 맡겨지는 모든 작업은 새로 선택된 모드로 실행된다. 사용자는 같은 설정으로 작업을 실행하며, 모드 전환은 뒤에서 자동으로 처리된다.
오류 발생 시 90-330사이클 만에 빠른 복구
Safe-NEureka는 오류를 발견하면 즉시 고치는 기능이 있다. 두 그룹이 계산한 결과를 비교했을 때 서로 다르면, 칩이 자동으로 오류 복구 모드로 바뀐다. 미리 저장해둔 백업 지점으로 돌아가서 잘못된 부분만 다시 계산한다. 마치 게임에서 세이브 포인트로 돌아가는 것과 비슷하다.
복구에 걸리는 시간은 입력 데이터의 채널 수에 따라 정해진다. 채널이 1- 32개일 때는 90사이클이 걸리고, 채널이 32개씩 늘어날 때마다 60사이클씩 더 필요하다. 3×3 크기 계산의 경우는 32채널 기준 330사이클에서 시작해 채널이 32개 늘 때마다 300사이클씩 증가한다. 이미지 크기는 복구 시간과 상관이 없다.
칩 전체를 보호하기 위해 여러 보안 장치도 설치했다. 명령을 내리는 제어 장치는 전체 칩의 10%밖에 안 되지만 매우 중요해서 3개로 복제했다. 3개 중 2개 이상이 같은 결과를 내면 그것을 채택하는 '다수결 투표' 방식이다. 하나가 고장 나도 나머지 둘이 정상 작동을 보장한다. 데이터를 주고받는 부분과 메모리에도 오류 검사 코드를 붙여서 이중으로 보호한다.
칩 크기 15% 증가로 오류 96% 제거, 고속 모드는 속도 5% 손실만
연구팀은 GlobalFoundries라는 회사의 12나노미터 제조 기술로 Safe-NEureka를 실제로 만들 수 있는 수준까지 개발했다. 보호 기능이 없는 기존 칩과 비교했을 때 Safe-NEureka는 크기가 약 15% 더 크다. 전체 시스템으로 보면 6% 미만의 크기 증가에 그친다.
각 부분별로 보면 계산을 담당하는 엔진 부분은 6% 커졌다. 두 가지 작동 방식을 지원하고, 결과를 검사하고, 시간차를 두는 회로를 추가했기 때문이다. 명령을 내리는 제어 장치는 3개로 복제하면서 240%나 커졌지만, 원래 전체 칩의 10%만 차지하던 작은 부분이라 전체적인 영향은 크지 않다. 데이터를 주고받는 부분은 오류 검사 기능을 추가해 19% 커졌다. 그래도 계산 부분이 여전히 칩 전체의 86%를 차지한다.
성능은 어떨까? 연구팀은 세 가지 종류의 계산 작업으로 테스트했다. 고속 모드에서 Safe-NEureka는 기존 칩과 비교해 속도가 5-13% 정도만 느려졌다. 안전 모드에서는 같은 계산을 두 번 해야 하므로 작업 시간이 70-90% 더 걸린다.
전력 소비는 제어 장치를 3개로 만들었기 때문에 기존보다 늘어난다. 하지만 가장 복잡한 계산을 할 때도 전력 증가는 8% 미만이다. 에너지는 전력과 시간을 곱한 값인데, 안전 모드에서는 작업에 따라 88-123% 더 소비한다. 효율성으로 따지면 기존 칩은 전기 1와트로 초당 2.1조 번의 계산을 한다. Safe-NEureka는 고속 모드에서 1.9조 번(11% 감소), 안전 모드에서 1.0조 번(53% 감소)을 처리한다.
가장 중요한 오류 방어 능력 테스트 결과는 이렇다. 연구팀은 칩 설계도에 일부러 10만 개의 오류를 넣어보는 시뮬레이션을 했다. 보호 기능이 없는 기존 칩은 6.5-7.6%의 오류가 최종 결과를 망쳤다. 반면 Safe-NEureka의 안전 모드는 이를 0.20-.25%로 줄였다. 즉, 문제가 될 수 있는 오류의 96%를 제거한 것이다. 게다가 오류를 감지할 때마다 자동으로 성공적으로 수정했다.
전 세계 최초 우주용 전환형 AI 가속 칩
연구팀은 Safe-NEureka를 최근 연구 결과들과 비교했다. FSA나 HyCA 같은 방법은 영구적으로 고장 난 부분을 보완하기 위해 여분의 계산 장치를 활용하지만, 미리 또는 주기적으로 고장을 찾아내는 방식이라 실시간으로 발생하는 우주 방사선 오류를 막기에는 너무 느리다. HAp-FT는 근사 검사 방식으로 오류를 완화하지만, 이 방법은 소수점 계산에 특화되어 있어 대부분의 에지 AI에서 사용하는 정수 계산에는 덜 효과적이다.
Aphelios NPU는 전체 계산 장치를 복제하면 비용이 너무 많이 든다는 점을 인식하고, 선택된 부분에만 축소된 배열로 복제 방식을 사용해 크기를 줄였다. 하지만 이 복제 방식은 고정되어 있고 일부분만 보호하며 바꿀 수 없다. 더 중요하게는 Aphelios가 계산 부분과 제어 로직을 보호하지만, 제어 장치가 오류를 감지한 후 자동으로 복구하는 기능이 없다. Silvaco 15나노미터 공정으로 만들어져 크기가 30.6%, 에너지가 33% 증가했다.
Safe-NEureka는 칩 내부 구조에 기반한 세밀하고 완전히 확실한 방사선 방어 방법을 제시한다. 고정된 복제 방식의 엄청난 비용 없이 복제 방식의 신뢰성을 달성한다. 경험적 판단이나 일부 보호, 특정 데이터 특성에 의존하는 방법과 달리, 어떤 AI 모델을 사용하든 관계없이 하드웨어 복구를 통한 정확한 실시간 복구를 보장한다. 또한 전환형 구조를 오류 검사 코드로 보호되는 메모리 연결 부분 및 3개로 복제된 제어 장치와 결합하여 칩 전체를 보호한다. 제안된 방법의 전력, 성능, 크기는 GlobalFoundries 12나노미터 실제 제작 가능 수준 구현을 통해 철저히 검증되었으며, 설계도에 대한 오류 방어 분석도 수행되었다.
연구팀에 따르면 이것은 전환형 중복 방식을 지원하는 최초의 우주용 에지 AI 칩이다. 전체 설계를 누구나 볼 수 있도록 공개했다.
FAQ (※ 이 FAQ는 본지가 리포트를 참고해 자체 작성한 내용입니다.)
Q1. 우주 환경이 반도체 칩에 왜 위험한가요?
A. 우주의 방사선 입자가 반도체를 통과하면 전기적 성질이 변하면서 원치 않는 전압 변화가 생깁니다. 이로 인해 칩 안에 저장된 0과 1의 정보가 뒤바뀌는 현상이 발생합니다. 지구 주변 궤도에서는 비트당 하루 약 5억분의 1 확률로 오류가 발생하지만, 강력한 태양 폭발이 있을 때는 100분의 1 수준까지 급증할 수 있습니다.
Q2. 두 가지 모드는 어떻게 바뀌나요?
A. 위성의 중앙 컴퓨터가 칩이 쉬고 있을 때 설정 값을 바꾸면 됩니다. 이후 칩에 맡겨지는 모든 작업은 새로 선택된 모드로 실행됩니다. 사용자는 같은 설정으로 작업을 실행하며, 모드 전환은 뒤에서 자동으로 처리됩니다.
Q3. 왜 3개가 아닌 2개 복제 방식을 사용했나요?
A. 계산 부분을 3개로 복제하면 칩 크기가 200% 이상 증가해 작은 위성에 탑재하기 어렵습니다. 연구팀은 2개 복제로 오류를 찾아내고 자동 복구로 고치는 방식을 선택해, 크기 증가를 15%로 제한하면서도 잘못된 계산 결과를 96% 줄였습니다. 다만 제어 장치는 전체 크기의 10%만 차지하면서도 중요한 역할을 하기 때문에 3개로 복제해서 보호했습니다.
기사에 인용된 논문 원문은 arXiv에서 확인 가능하다.
논문명: Safe-NEureka: a Hybrid Modular Redundant DNN Accelerator for On-board Satellite AI Processing
해당 기사는 챗GPT와 클로드를 활용해 작성되었습니다.
■ 이 기사는 AI 전문 매체 ‘AI 매터스’와 제휴를 통해 제공됩니다. (☞ 기사 원문 바로가기)
AI 리포터 (Aireporter@etnews.com)

2 hours ago
1
![[컨콜종합] 1600억원 벌어들인 '아이온2'…엔씨소프트 자존심 살렸다](https://image.inews24.com/v1/70c6f9900ae721.jpg)
![이통3사 영업익 4조 회복…해킹 직격탄 SKT 주춤, KT·LGU+ 역대급[종합]](https://image.inews24.com/v1/a4f4265e5435cd.jpg)















English (US) ·