주요 내용

  • 저장소 개요

    • 소유자: Tenstorrent (https://github.com/tenstorrent)
    • 저장소: tt-metal (공개)
    • 라이선스: Apache-2.0
    • 포크: 481, 스타: 1.5k
    • 기여자: 523명
    • 최근 커밋: 2026년 6월 5일 (총 27,419 커밋)
    • 브랜치: 5133, 태그: 1105
    • 사용 언어: C++ 50.4%, Python 44.0%, C 4.0%, Shell 0.6%, CMake 0.5%, Jupyter Notebook 0.4%, 기타 0.1%
  • 주요 구성 요소

    • TT-NN: Python 및 C++ 기반 신경망 연산(Neural Network OP) 라이브러리
    • TT-Metalium: Tenstorrent 하드웨어를 위한 저수준 커널 개발 프로그래밍 모델
    • API 문서: docs.tenstorrent.com/tt-metal/latest/ttnn/
  • 지원 모델 및 성능 벤치마크

    • 입력 시퀀스 길이 128 기준, TTFT(Time to First Token), T/S/U(Tokens per Second per User), T/S(Tokens per Second) 포함
    • Llama 3.3 70B (TP=32)
      • Galaxy(Wormhole) 하드웨어, 배치 32: TTFT 53ms, T/S/U 72.5, T/S 2268.8
    • Qwen 2.5 7B (TP=2)
      • n300(Wormhole) 하드웨어, 배치 32: TTFT 109ms, T/S/U 22.1, T/S 707.2
    • Qwen 2.5 72B (TP=8)
      • QuietBox(Wormhole) 하드웨어, 배치 32: TTFT 223ms, T/S/U 15.4, T/S 492.8
    • Whisper (distil-large-v3)
      • n150(Wormhole): TTFT 163ms, T/S/U 105.0
      • p150(Blackhole): TTFT 63ms, T/S/U 263.4
    • Mixtral 8x7B (TP=8)
      • QuietBox(Wormhole) 배치 32: TTFT 122ms, T/S/U 24.9, T/S 796.8
  • 모델 디렉토리 및 업데이트

    • 전체 모델 목록: models/README.md (Model Matrix)
    • 모델 업데이트: models/docs/MODEL_UPDATES.md
    • 모델 초기 설정 절차: models/docs/model_bring_up.md
    • 데모: models/demos/
  • TT-NN 기술 보고서

    • Advanced Performance Optimizations for Models (2025-03-04)
    • ViT Implementation in TT-NN on GS (2024-09-22)
    • LLMs Bring up in TT-NN (2024-10-29)
    • CNN Bring up & Optimization in TT-NN (2025-01-22)
  • 벤치마크

    • Matrix Multiply FLOPS on Wormhole and Blackhole (2025-06-17)
  • TT-Metalium 기술 보고서

    • Matrix Engine, Data Formats, Tensor Layouts, Flash Attention on Wormhole, Ethernet and Multichip Basics, Blackhole Bring-Up Programming Guide, Sub-Devices 등
  • Scaleout 기술 보고서

    • Programming Mesh of Devices (Scale-Up)
    • Programming Multiple Meshes (Scale-Out)
    • TT-Fabric Architecture
    • TT-Distributed Architecture
  • 프로그래밍 예제

    • Hello World (Compute Kernel, Data Movement Kernel)
    • Add Integers (Baby RiscV, Compute Kernel)
    • Simple Tensor Manipulation (Sharding, Padding)
    • DRAM Data Movement (Dram Loopback)
    • Eltwise (Unary in SFPU, Binary in FPU)
    • Matmul (Single core, Multi core basic, Multi core optimized with data reuse/multicast)
  • 도구 및 계측

    • TT-NN Visualizer: 모델 실행 시각화 및 분석 도구
    • TT-Exalens (TT-Lensium): 저수준 디버깅 도구 (Wormhole/Blackhole)
    • TT-SMI: 시스템 관리 인터페이스 (장치/텔레메트리/펌웨어 정보)
    • Model Explorer: 계층적 모델 그래프 시각화 도구
    • Tracy Profiler: 실시간 나노초 해상도 프로파일러
    • Device Print Debug: 커널 출력 디버깅 (DPRINT)
    • Watcher: 펌웨어/커널 오류 모니터링
    • Inspector: 호스트 런타임 정보 제공
  • 관련 Tenstorrent 프로젝트

    • TT-Forge, TT-Forge-FE, TT-Torch, TT-XLA, TT-MLIR, TT-TVM
  • 최신 릴리스

    • v0.68.0 (예정: 2026-04-30, FW 19.2.0, KMD 2.5.0, SMI 3.0.38)
    • v0.67.4 (2026-03-30)
    • 최신 태그: v0.71.2 (2026-05-28)
    • 릴리스 상세: releases 폴더 참조
  • 설치 및 시작

    • INSTALLING.md: FW 19.8.1, KMD 2.8.0, SMI 5.0.0 업데이트 (2026-06-02)
    • METALIUM_GUIDE.md: 저수준 프로그래밍 가이드
    • build_metal.sh, create_venv.sh, install_dependencies.sh 빌드 스크립트 제공
    • Dockerfile: 최적화된 도커 레이어 캐싱 포함
  • 기여 및 보상 프로그램

    • CONTRIBUTING.md: 기여 가이드 (2026-05-28 업데이트)
    • Bounty Program: 'bounty' 태그가 붙은 이슈 참여 가능 (docs.tenstorrent.com/bounty_terms.html)
  • 토픽

    • ai, metal, gpu, accelerator, cuda, llama, kernels, scale-out, llm, stable-diffusion, deepseek, tenstorrent, video-gen, img-gen

링크 공유, 이제 더 스마트하게

어떤 URL이든 AI가 핵심 내용을 요약하고 미리보기를 자동 생성해 드립니다. 🤖