Gemma 4-31Bも一応 1 tok/s くらいだけど動きはした
会話
関連する投稿
- author @BD1pt0ZCnY
5/26/2026, 11:08:08 PM 今現在だと、無料でそれなりのLLMのAPIを叩きたい場合: Opencode ZenでDeepseek-V4-Flash-free さくらのAI EngineでKimi-K2.6 Gemini APIでGemma-4-31B (OR 26B-A4B) あたり? あと試していないけどOpenrouter? Tier上げのための課金を許容できるならOpenAIのデータ共有でもらえるやつとかもありかも
- author @BD1pt0ZCnY
4/13/2026, 3:51:16 PM LLMの速度について最近思っているのは、Token per secじゃなくて、Task per secか、Turn per secを問題にすべき時期だと思うんだよね。 パッパといろんなtoolや操作をしてもらいたいし、状況を見てすぐに判断させようとすると数秒ごとに判断させる必要がある。 もっと別の言い方をすれば、1ループの速さを測定して、それをもっと早くすべき
- author @BD1pt0ZCnY
4/7/2026, 11:26:29 PM Gemma 4-26B-A4B、だいぶ使い勝手がいいモデルだな。これをスマホとかで動かせる人マジで羨ましいな
- author @BD1pt0ZCnY
4/6/2026, 11:25:13 PM Gemma 4-26B-A4Bを動かしてみてる。 8GB VRAMしかないのでまあ8〜10 tok/s くらいしか出ないのだけど、正直意外とそこまでストレスがない。 リアルタイムなやり取りが必要なら流石に30〜40 tok/s くらい欲しくなるけど、別にテキストでのやり取りならこれくらいで十分なんだな
- author @BD1pt0ZCnY
4/6/2026, 9:01:05 PM Gemma 4 31B ITをAI Studioで試してみているんだけど思ったより感触がいい このくらいの性能のやつがこのサイズで公開されるのすごすぎるな