我們解決了較簡單的 渡河問題 1,接下來我們來看
渡河問題2 (statement),Problem via 許元銘
如何驗證結果
Claude solution non-reasoning (incorrect)
ChatGPT o1 solution 1
- backtracking observed
- cannot work independently
- some human corrections required
- overall, it is helpful
ChatGPT fails (4o or o1)
(use Claude to visualize the issue or debug)
Code Gen
Use ChatGPT o1 to generate A* search
4o fails to generate A* search that works
Use Claude second time to generate A*
it takes 15 steps. (thanks to the python code generated by Claude)
心得
打開Sonnet 3.7推理模式
我目前還沒有辦法完全正確渡河
最好的一次用了2:57,錯在第12步,不過是個小失誤,不花腦筋很容易改
至於跑到耗盡token那次4:47,居然沒有給出答案
可以這麼說,這題渡河用 python 寫 A*
可以找到最佳解 15 步
我目前使用所有 no code 方式, 無論 ChatGPT, grok, Claude 各種推理模式,沒有一次能得到完美無瑕的解
沒有留言:
張貼留言