tenstorrent/tt-metal: Tenstorrent AI 가속기용 오픈소스 소프트웨어

주요 내용

저장소 개요
- 소유자: Tenstorrent (https://github.com/tenstorrent)
- 저장소: tt-metal (공개)
- 라이선스: Apache-2.0
- 포크: 481, 스타: 1.5k
- 기여자: 523명
- 최근 커밋: 2026년 6월 5일 (총 27,419 커밋)
- 브랜치: 5133, 태그: 1105
- 사용 언어: C++ 50.4%, Python 44.0%, C 4.0%, Shell 0.6%, CMake 0.5%, Jupyter Notebook 0.4%, 기타 0.1%
주요 구성 요소
- TT-NN: Python 및 C++ 기반 신경망 연산(Neural Network OP) 라이브러리
- TT-Metalium: Tenstorrent 하드웨어를 위한 저수준 커널 개발 프로그래밍 모델
- API 문서: docs.tenstorrent.com/tt-metal/latest/ttnn/
지원 모델 및 성능 벤치마크
- 입력 시퀀스 길이 128 기준, TTFT(Time to First Token), T/S/U(Tokens per Second per User), T/S(Tokens per Second) 포함
- Llama 3.3 70B (TP=32)
  - Galaxy(Wormhole) 하드웨어, 배치 32: TTFT 53ms, T/S/U 72.5, T/S 2268.8
- Qwen 2.5 7B (TP=2)
  - n300(Wormhole) 하드웨어, 배치 32: TTFT 109ms, T/S/U 22.1, T/S 707.2
- Qwen 2.5 72B (TP=8)
  - QuietBox(Wormhole) 하드웨어, 배치 32: TTFT 223ms, T/S/U 15.4, T/S 492.8
- Whisper (distil-large-v3)
  - n150(Wormhole): TTFT 163ms, T/S/U 105.0
  - p150(Blackhole): TTFT 63ms, T/S/U 263.4
- Mixtral 8x7B (TP=8)
  - QuietBox(Wormhole) 배치 32: TTFT 122ms, T/S/U 24.9, T/S 796.8
모델 디렉토리 및 업데이트
- 전체 모델 목록: models/README.md (Model Matrix)
- 모델 업데이트: models/docs/MODEL_UPDATES.md
- 모델 초기 설정 절차: models/docs/model_bring_up.md
- 데모: models/demos/
TT-NN 기술 보고서
- Advanced Performance Optimizations for Models (2025-03-04)
- ViT Implementation in TT-NN on GS (2024-09-22)
- LLMs Bring up in TT-NN (2024-10-29)
- CNN Bring up & Optimization in TT-NN (2025-01-22)
벤치마크
- Matrix Multiply FLOPS on Wormhole and Blackhole (2025-06-17)
TT-Metalium 기술 보고서
- Matrix Engine, Data Formats, Tensor Layouts, Flash Attention on Wormhole, Ethernet and Multichip Basics, Blackhole Bring-Up Programming Guide, Sub-Devices 등
Scaleout 기술 보고서
- Programming Mesh of Devices (Scale-Up)
- Programming Multiple Meshes (Scale-Out)
- TT-Fabric Architecture
- TT-Distributed Architecture
프로그래밍 예제
- Hello World (Compute Kernel, Data Movement Kernel)
- Add Integers (Baby RiscV, Compute Kernel)
- Simple Tensor Manipulation (Sharding, Padding)
- DRAM Data Movement (Dram Loopback)
- Eltwise (Unary in SFPU, Binary in FPU)
- Matmul (Single core, Multi core basic, Multi core optimized with data reuse/multicast)
도구 및 계측
- TT-NN Visualizer: 모델 실행 시각화 및 분석 도구
- TT-Exalens (TT-Lensium): 저수준 디버깅 도구 (Wormhole/Blackhole)
- TT-SMI: 시스템 관리 인터페이스 (장치/텔레메트리/펌웨어 정보)
- Model Explorer: 계층적 모델 그래프 시각화 도구
- Tracy Profiler: 실시간 나노초 해상도 프로파일러
- Device Print Debug: 커널 출력 디버깅 (DPRINT)
- Watcher: 펌웨어/커널 오류 모니터링
- Inspector: 호스트 런타임 정보 제공
관련 Tenstorrent 프로젝트
- TT-Forge, TT-Forge-FE, TT-Torch, TT-XLA, TT-MLIR, TT-TVM
최신 릴리스
- v0.68.0 (예정: 2026-04-30, FW 19.2.0, KMD 2.5.0, SMI 3.0.38)
- v0.67.4 (2026-03-30)
- 최신 태그: v0.71.2 (2026-05-28)
- 릴리스 상세: releases 폴더 참조
설치 및 시작
- INSTALLING.md: FW 19.8.1, KMD 2.8.0, SMI 5.0.0 업데이트 (2026-06-02)
- METALIUM_GUIDE.md: 저수준 프로그래밍 가이드
- build_metal.sh, create_venv.sh, install_dependencies.sh 빌드 스크립트 제공
- Dockerfile: 최적화된 도커 레이어 캐싱 포함
기여 및 보상 프로그램
- CONTRIBUTING.md: 기여 가이드 (2026-05-28 업데이트)
- Bounty Program: 'bounty' 태그가 붙은 이슈 참여 가능 (docs.tenstorrent.com/bounty_terms.html)
토픽
- ai, metal, gpu, accelerator, cuda, llama, kernels, scale-out, llm, stable-diffusion, deepseek, tenstorrent, video-gen, img-gen

tenstorrent/tt-metal: Tenstorrent AI 가속기용 오픈소스 소프트웨어

주요 내용

링크 공유, 이제 더 스마트하게