연구진은 트랜스포머 숨겨진 상태의 표준 기저가 훈련 없이도 아키텍처 일반적인 특징 기저 역할을 한다는 것을 밝혔습니다.
각 차원은 부호(+/-1)를 통해 의미 콘텐츠를 인코딩하고 크기를 통해 신뢰도를 나타내며 독립적인 이진 레지스터로 작동합니다.
연구진은 언어(Qwen 3.5-4B, Gemma 3-4B, Mistral 7B, Qwen3-32B), 비전(DINOv2, ViT-Base), 오디오(AST) 모델을 포함한 7개 모델에서 이 Bag of Dims 프레임워크를 검증했습니다.
부호만으로 예측 콘텐츠를 담을 수 있으며, 단위 크기의 부호 패턴은 LM 헤드를 통해 상위 5개 다음 토큰 정확도를 60~93% 유지하며, 디코더 없는 Hamming 점수는 상위 4096개를 80~90% 달성합니다.