WiMi Hologram Cloud Inc. ha annunciato di aver sviluppato un algoritmo di pianificazione delle attività nel cloud computing basato sul deep reinforcement learning, per migliorare le prestazioni e l'utilizzo delle risorse dei sistemi di cloud computing. L'apprendimento di rinforzo profondo può risolvere problemi decisionali complessi attraverso l'apprendimento e l'ottimizzazione di strategie. Utilizzando l'apprendimento di rinforzo profondo, il problema di pianificazione delle attività può essere trasformato in un problema di apprendimento di rinforzo, addestrando una rete neurale profonda per imparare la strategia ottimale per la pianificazione delle attività. Il vantaggio dell'apprendimento per rinforzo è che può regolare automaticamente la politica in base ai cambiamenti dell'ambiente e può essere adattato a scenari complessi di pianificazione delle attività.

L'apprendimento di rinforzo profondo ha i vantaggi dell'adattabilità, della modellazione non lineare, dell'apprendimento end-to-end e della capacità di generalizzazione nella programmazione dei compiti, e può considerare in modo completo fattori come il tempo di esecuzione del compito, la domanda di risorse, la situazione di carico della macchina virtuale e la latenza della rete, in modo da eseguire la programmazione dei compiti in modo più accurato e migliorare le prestazioni del sistema e il tasso di utilizzo delle risorse. L'algoritmo di programmazione delle attività basato sull'apprendimento rinforzato profondo di WiMi nel cloud computing comprende la rappresentazione dello stato, la selezione dell'azione, la funzione di ricompensa e la formazione e ottimizzazione dell'algoritmo. La rappresentazione dello stato è un collegamento importante.

Trasformando le varie informazioni nell'ambiente del cloud computing in una forma che può essere elaborata dal modello di apprendimento automatico, può aiutare il modello a comprendere meglio la situazione attuale di pianificazione delle attività, in modo da prendere decisioni più ragionevoli e accurate. Anche la selezione dell'azione è una fase chiave, in cui ad ogni passo temporale, l'agente deve selezionare un'azione da eseguire per decidere la strategia di pianificazione delle attività al momento attuale. Tale algoritmo può selezionare un'azione ottimale in base allo stato attuale del sistema, per ottenere una programmazione efficiente delle attività di cloud computing.

La funzione di ricompensa, invece, viene utilizzata per valutare il valore di ricompensa ottenuto dall'agente dopo aver eseguito un'azione, che a sua volta guida il processo decisionale dell'agente. La funzione di ricompensa può consentire all'agente di imparare e ottimizzare meglio durante il processo di pianificazione delle attività. Inoltre, anche la formazione e l'ottimizzazione dell'algoritmo di pianificazione delle attività basato sull'apprendimento per rinforzo profondo nel cloud computing sono molto critiche.

In primo luogo, è necessario costruire un ambiente di apprendimento per rinforzo applicabile al problema di pianificazione delle attività, compresa la definizione di stati, azioni e funzioni di ricompensa. Lo stato può includere informazioni come la situazione attuale del carico del sistema, gli attributi e la priorità dell'attività; l'azione può scegliere di assegnare l'attività a una determinata macchina virtuale o decidere se ritardare l'elaborazione dell'attività; e la funzione di ricompensa può essere definita in base al tempo di completamento dell'attività, all'utilizzo delle risorse e ad altre metriche. L'algoritmo viene poi addestrato utilizzando un algoritmo di apprendimento di rinforzo profondo come Deep Q-Network (DQN), un algoritmo di apprendimento di rinforzo basato su rete neurale che può prendere decisioni apprendendo una funzione di valore.

Durante il processo di formazione, interagendo con l'ambiente, l'algoritmo aggiorna continuamente i parametri della rete neurale per ottimizzare la strategia decisionale per la programmazione dei compiti. Inoltre, alcune tecniche di ottimizzazione, come la riproduzione dell'esperienza e le reti di obiettivi, possono essere utilizzate per migliorare ulteriormente le prestazioni e la stabilità dell'algoritmo. Attraverso l'addestramento e l'ottimizzazione continui, l'algoritmo apprenderà gradualmente la strategia ottimale per la programmazione dei compiti, migliorando così le prestazioni e l'efficienza del sistema.