본문 바로가기
Can LLMs generate Enterprise Quality Code? — Prasenjit Sarkar, Sonar

Can LLMs generate Enterprise Quality Code? — Prasenjit Sarkar, Sonar

AIAI Engineer· 2026-05-31

Sonar는 4,444개의 Java 프로그래밍 과제를 53개 모델로 평가하여 LLM이 생성한 코드의 품질, 보안, 유지보수성을 측정했습니다. GPT-4o는 25만 줄 미만, GPT-5.4는 120만 줄, Claude Sonnet 4.6은 62만 7천 줄의 코드를 생성했으며, Claude Sonnet 4.6은 백만 줄당 300개의 보안 이슈 비율로 가장 높은 위험도를 보였습니다. Sonar는 ACDC(Guide, Verify, Solve) 프레임워크를 제시하며 LLM 생성 코드의 품질 문제를…

핵심 요약

  • Sonar는 4,444개의 Java 프로그래밍 과제를 53개 LLM으로 평가하여 기능 정확성, 코드 라인 수, 복잡성, 버그 밀도, 보안 이슈 등을 측정했습니다.
  • Claude Sonnet 4.6은 627,000줄의 코드를 생성했고 백만 줄당 300개의 보안 이슈로 가장 높은 위험도를 보였습니다.
  • GPT-5.4는 4,444개의 Java 과제를 해결하기 위해 120만 줄의 코드를 생성하는 등, 최신 모델일수록 생성되는 코드의 양이 많아지는 경향을 보입니다.

전체 요약과 종목별 의견·실시간 분석을 보려면 로그인하세요.

로그인 / 회원가입