The Sorrento Meeting - DOAgent: Towards Observable Multi-Agent Systems

DOAgent

Policy Factorisation decomposes the agent's policy into reasoning and action (Wei et al., 2026).

: history at step ; : internal reasoning; : external action.

z (reasoning): chain-of-thought, tool-use traces, confidence scores
a (action): the environment-specific primitive

LLM-based policies produce z in natural language. Is that a particular feature of Agentic AI?

{
  "actor": "agent_3",
  "kind": "agent_update",
  "payload": {
    "decision": {
      "response": {
        "choice": {"status": "act", "action": 1},
        "reasoning": {
          "confidence": 0.8,
          "source": "llm",
          "text": "Moving left is the least
            explored direction...",
          "tool_steps": [{"kind": "tool",
            "name": "llm", "elapsed_s": 1.24}]
        }
      },
      "explanation": "Moving left — least explored."
    }
  }
}

LLM record: action + observable reasoning (z).

DOAgent: Towards Observable Multi-Agent Systems

AI-based Systems

AI-based Systems

AI-based Systems

AI-based Systems

AI-based Systems

AI as a Service

AI as a Service

AI as a Service

AI as a Service

AI as a Service

AI as a Service

AI as a Service

Data-Orientation

Data-Orientation

Data-Orientation

Data-Orientation

Data-Orientation

Data-Orientation

Multi-Agent Systems

Multi-Agent Systems

Multi-Agent Systems

DOAgent

DOAgent

DOAgent

DOAgent

DOAgent

DOAgent

DOAgent

DOAgent

DOAgent

DOAgent

DOAgent

DOAgent

DOAgent

DOAgent

DOAgent

DOAgent

DOAgent

DOAgent

Conclusions

Many Thanks!