Anthropic社内では、研究者を含む全従業員がClaude Codeを利用しており、そのフィードバックがモデルの改善に繋がっている。例えば、モデルが特定の編集作業で失敗する傾向が見られれば、それを学習データとして取り込み、改善を図る。
モデルの性能評価において、SWE-benchやT-benchのようなベンチマークも存在するが、ソフトウェアエンジニアリングの複雑さを全て捉えるのは難しいため、開発者が実際に使ってみて「賢くなったか」「使いやすいか」といった「バイブス」が最も重要な指標となっている。
https://youtu.be/iF9iV4xponk?si=olAalLbKeWX_yOum