こんばんにちは!酒人です。

最近どんどん定着してきた生成AI。仕事の効率化や愚痴聞きのお供などと便利に使いつつも、進化が止まらないAIに仕事を奪われる日も近いのではと戦々恐々とする私でございます。
私はいつもはChatGPT、Gemini、Grok、Claude、Le Chatというデータ保護が保証できるAIツールを複数併用しながら、校閲作業やメール作成、果ては法律相談まで便利に使っております。ただ、多くの人が感じているはずの疑問が「AIっていっぱいあるけどどれが賢いの?」「AIって噓をつくらしいけどどのくらい信用できるの?」ということだろうと思います。
そこで、今回は主要な大規模言語モデルを使った12種類の生成AIに離島クイズを出題し、その正答数で性能を試していこうと思います。
※今回使用したうち、DeepSeekとQwenはデータ保護が機能として存在しません。利用時は入力するデータに一層の注意を要します。
ちなみに!以前AIに問題を出させて僕が回答する実験もやっているので、よければそちらの記事もご覧ください!
shimatabi-japan.hatenablog.com
- 【ルール】今回のプロンプトはこちら!
- 【基礎解説】そもそも生成AIと大規模言語モデル(LLM)って?
- 【参戦AI一覧】最新AIモデルを徹底解説!
- 【生成AI徹底比較】o3のスコアがレベチ!
- オタク対AI開幕!クイズにご挑戦を!!
【ルール】今回のプロンプトはこちら!
まずは、ルールを説明します。初めに以下のプロンプトを送り、その後問題を7問ずつ送付し、回答を生成させます。なお、問題は僕が何も参照せずに作成(掲載前にファクトチェック済み)ですので、僕の知識対AIの対決でもあったりします。
【以下、プロンプト】
あなたはクイズの回答者です。
私はこれから、日本の有人離島に関するクイズを一回につき7問出題します。
回答は一意に定まるように設定されていますので、回答してください。回答は短答式です。
離島の定義ですが、本州などと架橋によって接続されていても離島とみなします。
問題に間違いはないはずですが、間違いがあると考える場合には理由も示して指摘してください。
【プロンプトここまで】
さて、スコアは以下の二軸でカウントします。
①AI同士の比較
単純に正答数で比較します。35点が満点になります。
②対人間の比較
私自身、ネット検索を使用せず問題を作成しています。(掲載前にファクトチェックは実施しました)ですので、AIの誤答数がそのままオタクとの差、と考えていただけますと!
【基礎解説】そもそも生成AIと大規模言語モデル(LLM)って?
AIと一口に言っても様々な形式のものが登場してきました。その中でも、現在主要になっているのはLLMによるもの。LLMとは大量の言語データをディープラーニング技術を使って学習させ、学習したデータを統計的に処理した確率論で、自然言語による処理が可能になるというモデルのこと。
学習の量(パラメーター)を増やすことで飛躍的に賢くなっていくとされます。そして、生成AIとは文章や画像などを生成することができるAIの総称です。現在の生成AIはほとんどLLMをベースにして構築されています。そして、近年では推論モデルが登場。LLMが生成した回答を基に新たなデータと合わせて推論を組み立てるモデルだそうで、従来の学習モデルよりも高度な推論が可能だといわれています。
【参戦AI一覧】最新AIモデルを徹底解説!
今回参加したAIは以下です。ChatGPT o3、ChatGPT 4.5、Gemini2.5Pro、Gemini2.5 Flash、 Grok3(Thinkモード)、Claude3.7 Sonnet、DeepSeek R1(検索機能ON)、Le Chat、Qwen2.5 MAX(深い思考、検索)、Qwen3(深い思考、検索)、Granaite3.3、ELYZA LLM(デモ版)の12種類です。それぞれ簡単に解説していきます。
ちなみに選定基準は、独自の(基本的には自社の)LLMを使用した対話型の生成AIのうち主要かつ、ブラウザ上で日本国内で利用可能なものを選定しました。
①ChatGPT o3
OpenAIの最新モデルです。ChatGPTが有名で、生成AIのトップ企業であるOpenAI。その中でも推論モデルを使用するのがChatGPTのoシリーズです。
o1が展開されてきましたが、これの代わりに最近登場したのがo3。なんとIQは136とのことで、人間の平均100を大幅に上回ります。IQが30違うと会話が成立しなくなる、といわれますが平均的な人類とはすでに会話が成立しなくなりつつあるのがo3です。
②ChatGPT 4.5
OpenAIの学習モデルでの最新版でPlusやProのユーザー向けに先行公開されています。推論モデルのo3に比べると、思考の深さでは劣る傾向がありますがその生成速度は段違いに早いです。うまく使い分けるのがGPT上級者!
③Gemini2.5Pro
Googleが展開するAIの最新モデルです。強みはGoogle関係のアプリにガンガン関与できる部分。Gmailの代筆や、メールのスクリーニング、ドキュメント作成などGoogleのアプリ機能に関与できます。
④Gemini2.5Flash
Gemini2.5の軽量版です。Proでは一定程度出力に時間を要するのに対して、Flashは素早い生成が強み。その分精度は落ちてくるので、今回はやや期待薄です。
⑤Grok3
イーロンマスクが率いるxAIの最新モデルです。SNSの「X」にも搭載されていて、身近な存在になってきています。Grok2に比べて計算能力が約10倍と飛躍的に向上。実際に使ってみると、たしかに大幅に賢くなった性能を体感することができます。
なお、Thinkボタンを選択すると推論モデルに切り替えることが可能。今回は性能が期待できる推論モデルで計測しています。
⑥Claude3.7 Sonnet
OpenAIのライバル企業と目される米国のテックベンチャーであるAnthropicが開発した最新モデルです。(当時)
推論モデルの段階的な思考力を持ちつつも、素早い生成を可能にしたハイブリット推論モデルという特徴を持つAIです。
⑦DeepSeek R1
中国企業のDeepSeekが開発したAIのDeepSeek。その中でもR1モデルは推論モデルによる高度な推論を売りにしています。DeepSeekの最大の特徴は学習の効率性です。アメリカからの禁輸措置で、学習用の半導体チップが手に入りにくい中で、学習の省力化に成功したと主張。少ないチップ数で大きいパラメーター数を実現しています。ただし、大人気のため、サーバーエラーが多く、生成の成功確率がかなり低いのは大きな難点です。
⑧Le Chat
フランス企業の「Mistral」が開発する後発のLLMです。「MistralAI」をベースにしているのがLe Chatなのですが、実際の回答にどのモデルが使用されているのか判然とせずこの表記になっています。
なお、後発組なので各種スコアリングでは後塵を拝していますが、最大の特徴はデータ保護。GDPRなどの各種規制が厳しい欧州基準に適合したAIとして注目を集めています。
⑨Qwen2.5 MAX
中国のテック企業、アリババが開発しているLLMです。その特徴はMoEと呼ばれるシステムにあるんだとか。MoEでは、まずは質問内容からどの分野の回答を生成するかのあたりをつけ、専門に最適化されたAIに回答を振り分けることで高度な回答を容易にしているということらしいです。チャット画面では「深い思考」と「検索」モードをオンにできます。
⑩Qwen3
こちらはQwen2.5 MAXの進化版。思考過程の公開非公開を選択可能なったほか、より高効率な生成が可能になったとされています。
⑪Granaite3.3
アメリカの大手テック企業のIBMが開発しているオープンソースの生成AIです。どちらかというと企業が自社向けに専用環境を構築して使用する想定の様子で、サイト上でもチャットは可能ですが、回数も限定的なテスト環境という状態。やや今回は不利な形です。
⑫ELYZA LLM
日本企業のELYZAがMetaのAIであるLlamaをベースに開発した「Llama-3.1-ELYZA-JP-70B」のデモ環境版です。日本企業のLLMはチャットで気軽に試せないものが多いため、やや例外的ですが採用しました。
【生成AI徹底比較】o3のスコアがレベチ!
さて、せっかちな読者のために先に生成AI同士の比較の点数を公開しちゃいましょう!結論から言えば、ChatGPTのo3はまじレベチでした。
注意事項として、LLMによって生成される結果は入力の度に変化します。多少のブレや順位の変動は生じる場合があり、今回の点数は絶対的な指標とはなりえない点をご理解ください。
スコアランキング
1位
ChatGPTo3(検索機能ON)
正答数:34/35
2位
Gemini2.5 Pro
正答数:26/35
3位
ChatGPT4.5(検索機能ON)
正答数:21/35
4位
DeepSeekR1(検索機能ON)
正答数:15/35
5位
Gemini2.5 Flash
正答数:13/35
6位
Grok3(Think)
正答数:11/35
7位タイ
Claude3.7 Sonnet
正答数:10/35
Qwen3(深い思考、検索)
正答数:10/35
9位
ELYZA
正答数:6/35
10位
Qwen2.5 MAX(深い思考、検索)
正答数:5/35
11位
Le Chat(Mistral)
正答数:4/35
12位
Granite3.3
正答数:0/35
スコアの解説!

さて、スコアをご覧いただきましたがいかがでしょうか?o3ちょっと圧倒的ですね。唯一間違えた問題は4-2。この問題は「環住」というキーワードを特定しないと三宅島と回答したくなるひっかけ問題です。正直、ウェブ検索ありで人間が回答しても、普通は同程度かこれ以下なのでは?という難易度なのですごいとしか言いようがないです。
そして2位は8点差と大きく離されてはいますが、Gemini2.5Proでした。実際に使っていて感じる「ほしい答えが得られる」という実感とほぼ即してるのではないかなと思います。
ちなみにLe Chatもスコアは低いですが、会話自体はスムーズですので、使えるには使えます。Granaite3.3くらいですかね、会話にも大きな違和感があるのは。文字化けや日本語の崩壊が頻繁に起こるため、テスト環境で確認する限りでは実用に耐えるようには思えませんでした。
中国勢も健闘していますが、データ保護ポリシーに問題があるため、実用に向かないのは先に説明した通りです。ChatGPTo3でもハルシネーションは起こすので、単独使用はややキケン。ChatGPTとGeminiの併用、余裕があればGrokかClaudeを組み合わせるのが現状の最適解ではないでしょうか?
オタク対AI開幕!クイズにご挑戦を!!
さて、いよいよオタク VS AIです!ここからは、問題と解答、各AIの正答数と誤答した問題を載せていきますので、クイズに挑戦してみてください!!
第1回
1-1
干潮時のみ出現することでも知られる温泉の、平内海中温泉が位置する島はどこでしょう?
1-2
琉球泡盛の照島などが生産されていることでも知られる、沖縄県の島の名前は?
1-3
日本酒を蒸留して製造する、新たな和酒と銘打つ浄酎を製造・販売している株式会社ナオライが本社を置く島はどこでしょう?
1-4
長崎県に属する有人離島の中で、島の全域が自衛隊基地となっているため、民間人の立ち入りが原則禁止されている島はどこでしょう?
1-5
沖縄島から架橋されている有人島で、付近の海水から赤い塩が製塩されることでも知られる島はどこでしょう?
1-6
ウニの産地として有名で、乱獲によって漁獲高が大場に減少し、漁獲制限が設けられた現在でも、島内には他地域産のウニなどを活用してウニ料理を提供する飲食店が多数存在する沖縄の離島は?
1-7
捕鯨の島としても知られ、沿岸部に現れるクジラを小舟に乗って狩猟してきた歴史を持つ島で、なつみかんの原木があることでも知られるのはどこでしょう?
回答
1-1:屋久島、1-2:伊平屋島、1-3:三角島、1-4:海栗島、1-5:屋我地島、1-6:古宇利島、1-7:青海島
ChatGPTo3(検索機能ON)
正答数:7/7
誤答:なし
ChatGPT4.5(検索機能ON)
正答数:1/7
誤答:1-2、1-3、1-4、1-5、1-6、1-7
Gemini2.5 Pro
正答数:4/7
誤答:1-3、1-4、1-5、
Gemini2.5 Flash
正答数:1/7
誤答:1-2、1-3、1-4、1-5、1-6、1-7
Grok3(Think)
正答数:1/7
誤答:1-2、1-3、1-4、1-5、1-6、1-7
Claude3.7 Sonnet
正答数:1/7
誤答:1-1、1-3、1-4、1-5、1-6、1-7
DeepSeekR1(検索機能ON)
正答数:3/7
誤答:1-3、1-4、1-5、1-6
Le Chat(Mistral)
正答数:0/7
誤答:全問
Qwen3(深い思考、検索)
正答数:1/7
誤答:1-2、1-3、1-4、1-5、1-6、1-7
Qwen2.5 MAX(深い思考、検索)
正答数:1/7
誤答:1-2、1-3、1-4、1-5、1-6、1-7
ELYZA
正答数:0/7
誤答:全問
Granite
正答数:0/7
誤答:全問
第2回
2-1
島の中央に〇〇島タッチューと呼ばれる尖った山が位置しており、さとうきびの栽培でも有名な沖縄の島は?
2-2
兵庫県に属する有人離島で、採石場があるほか、県立いえしま自然体験の家というアウトドア施設があることでも知られる有人離島はどこでしょう?
2-3
日本海の有人離島であり、わっぱに入れた磯魚等の具材に味噌などを加え、焼けた石で加熱する、わっぱ煮で知られる島はどこでしょう?
2-4
広島県の離島で、三谷春という日本酒を製造する林酒造が位置するのは何島でしょう?
2-5
アカインコの出生地であるという伝説が残されている沖縄県の離島で、ニンジンの栽培でも知られるのはどこでしょう?
2-6
2024年1月1日の能登半島地震に被災した際には数人の島民が灯台に取り残されて救出され、現在も定期船が運休している有人離島は?
2-7
東京都に属する有人島で唯一、複数の動物を展示する動物園を有する島は?
回答
2-1:伊江島、2-2:西島、2-3:粟島、2-4:倉橋島、2-5:津堅島、2-6:舳倉島、2-7:伊豆大島(または単に大島)
ChatGPTo3(検索機能ON)
正答数:7/7
誤答:なし
ChatGPT4.5(検索機能ON)
正答数:5/7
誤答:2-2、2-5
Gemini2.5 Pro
正答数:6/7
誤答:2-4
Gemini2.5 Flash
正答数:4/7
誤答:2-2、2-4、2-5
Grok3(Think)
正答数:2/7
誤答:2-2、2-3、2-4、2-5、2-6
Claude3.7 Sonnet
正答数:2/7
誤答:2-1、2-2、2-3、2-4、2-5
DeepSeekR1(検索機能ON)
正答数:3/7
誤答:2-2、2-3、2-4、2-5
Le Chat(Mistral)
正答数:2/7
誤答:2-1、2-2、2-3、2-4、2-5
Qwen3(深い思考、検索)
正答数:2/7
誤答:2-2、2-3、2-4、2-5、2-6
Qwen2.5 MAX(深い思考、検索)
正答数:0/7
誤答:2-1、2-2、2-3、2-4、2-5、2-6、2-7
ELYZA
正答数:1/7
誤答:2-1、2-2、2-3、2-4、2-5、2-7
Granite
正答数:0/7
誤答:全問
第3回
3-1
アカハタの歯磨き体験が有名な水生生物の展示などを行う施設があるのは何島でしょうか?
3-3
鹿児島県で最も人口が少ない有人離島で、近年、元島民が再定住したことで有人化したのはどこでしょう?
3-4
薩摩焼酎のしま美人が製造されている島の名前は何でしょう?
3-5
大坂城の築城時に切り出された石材の残りが島内にあることでも知られる、牛窓港からフェリーが運航しているのは何島でしょう?
3-6
瀬戸大橋でつながれた有人離島のうち、唯一SAを持つのは何島でしょう?
3-7
利尻島や礼文島の特産品として有名な、ある海産物を使った焼酎はなんでしょう?
回答
3-1:父島、3-2:宮城島、3-3:新島、3-4:長島、3-5:前島、3-6:与島、3-7:昆布焼酎
ChatGPTo3(検索機能ON)
正答数:7/7
誤答:なし
ChatGPT4.5(検索機能ON)
正答数:5/7
誤答:3-2、3-3
Gemini2.5 Pro
正答数:5/7
誤答:3-1、3-3
Gemini2.5 Flash
正答数:3/7
誤答:3-1、3-2、3-3、3-5
Grok3(Think)
正答数:2/7
誤答:3-1,3-2、3-3、3-4、3-5
Claude3.7 Sonnet
正答数:3/7
誤答:3-1、3-2、3-3、3-4
DeepSeekR1(検索機能ON)
正答数:3/7
誤答:3-1、3-3、3-4、3-5
Le Chat(Mistral)
正答数:1/7
誤答:3-1,3-2、3-3、3-4、3-5、3-7
Qwen3(深い思考、検索)
正答数:3/7
誤答:3-3、3-4、3-5、3-6
Qwen2.5 MAX(深い思考、検索)
正答数:1.5/7
誤答:3-1,3-3、3-4、3-5、3-6、3-7(3-3について新島の可能性を指摘しており、0.5加点とした。)
ELYZA
正答数:2/7
誤答:3-1,3-2、3-3、3-4、3-5
Granite
正答数:0/7
誤答:全問
第4回
4-1
古くから山籠もりの修行場として有名で、現在も神社に宿泊する形でしか宿泊できない離島は?
4-2
環住、というキーワードを掲げ、火山の噴火に伴う全島避難から、島民が島に戻った東京の離島は?
4-3
芋焼酎のメンドンに用いられる芋の産地である鹿児島県の離島は?
4-4
画家の田中佐知男氏が、画廊やアトリエを歴史保存地区に構えているのは何島でしょう?
4-5
岡山県に属する離島で、ひじきや牡蠣といった地域の産品を使ったビールを醸す醸造所がある島はどこでしょう?
4-6
2025年に40年以上務めた町長が引退したことでも話題となった大分県の有人離島はどこでしょう?
4-7
美崎牛などの和牛の産地としても知られる、美しい海や鍾乳洞が観光地として人気の島はどこでしょう?
回答:4-1:金華山、4-2:青ヶ島、4-3:硫黄島(薩摩硫黄島)、4-4:大崎下島。4-5:六島、4-6:姫島、4-7:石垣島
ChatGPTo3(検索機能ON)
正答数:6/7
誤答:4-2
ChatGPT4.5(検索機能ON)
正答数:5/7
誤答:4-1、4-4
Gemini2.5 Pro
正答数:6/7
誤答:4-2
Gemini2.5 Flash
正答数:2/7
誤答:4-1、4-2、4-3、4-4、4-5
Grok3(Think)
正答数:2/7
誤答:4-1、4-2、4-3、4-4、4-5
Claude3.7 Sonnet
正答数:1/7
誤答:4-1、4-2、4-3、4-4、4-5、4-7
DeepSeekR1(検索機能ON)
正答数:2/7
誤答:4-1、4-3、4-4、4-5、4-6
Le Chat(Mistral)
正答数:1/7
誤答:4-1、4-3、4-4、4-5、4-6、4-7
Qwen3(深い思考、検索)
正答数:1/7
誤答:4-1、4-2、4-3、4-5、4-6、4-7
Qwen2.5 MAX(深い思考、検索)
正答数:0.5/7
誤答:4-1、4-2、4-3、4-4、4-5、4-6、4-7(4-6について姫島の可能性を示唆したので0.5加点とした。)
ELYZA
正答数:1/7
誤答:4-1、4-2、4-3、4-4、4-5、4-7
Granite
正答数:0/7
誤答:全問
第5回
5-1
靖国神社の大鳥居の石材を産出したことで知られる岡山県に属する離島はどこでしょう?
5-2
粟島で栽培されたジャガイモから作る焼酎の名前は何でしょう?
5-3
瀬戸内海の有人離島で、付近の特産である牡蠣やひじきを使ったビールを製造するブルワリーがあるのは何島でしょうか?
5-4
その島の特産品を食べて育つ、赤身肉がおいしいその島の名前を冠したブランド牛が有名な瀬戸内海の島はどこでしょう?
5-5
鹿児島県の離島で、ウミガメの展示やリュウキュウアユの展示が行われている水族館を有するのは何島でしょう?
5-6
交通手段が、島に2軒ある民宿の渡船か釣り船しかない岡山県に属する離島で、象岩が有名なのは何島でしょう?
5-7
五島列島で唯一、ジンを製造している蒸留所があるのは何島でしょう?
回答:5-1:北木島、5-2:んっぽん、5-3:六島、5-4:小豆島、5-5:奄美大島、5-6:六口島、5-7:福江島
ChatGPTo3(検索機能ON)
正答数:7/7
誤答:なし
ChatGPT4.5(検索機能ON)
正答数:5/7
誤答:5-2、5-4
Gemini2.5 Pro
正答数:5/7
誤答:5-5、5-6
Gemini2.5 Flash
正答数:3/7
誤答:5-2、5-3、5-6、5-7
Grok3(Think)
正答数:4/7
誤答:5-2、5-3、5-6
Claude3.7 Sonnet
正答数:3/7
誤答:5-2、5-3、5-4、5-6
DeepSeekR1(検索機能ON)
正答数:4/7
誤答:5-3、5-4、5-5
Le Chat(Mistral)
正答数:0/7
誤答:5-1、5-2、5-3、5-4、5-5、5-6、5-7
Qwen3(深い思考、検索)
正答数:3/7
誤答:5-2、5-4、5-5、5-6
Qwen2.5 MAX(深い思考、検索)
正答数:2/7
誤答: 5-2、5-4、5-5、5-6、5-7
ELYZA
正答数:2/7
誤答:5-1、5-2、5-3、5-5、5-6
Granite
正答数:0/7
誤答:全問
いかがでしたでしょうか?皆さんはAIに勝てましたか?単純な調べ物や作業でメキメキ力をつけてきている生成AI。うまく活用しながら、つきあっていきたいものですね!!



コメント