
L'addestramento di un modello di apprendimento automatico può richiedere più cicli CPU, memoria e larghezza di banda I/O rispetto a qualunque altra attività software. Un singolo modello all'avanguardia è in grado di leggere e scrivere centinaia di terabyte di dati in più fasi, andando ben oltre i limiti anche degli array di storage più veloci. L'emergere della corsa all'intelligenza artificiale ha portato ogni settore industriale e ogni agenzia governativa a competere per riuscire a sfruttare al massimo le prestazioni dell'IA, facendo emergere l'assoluta necessità di un metodo affidabile e ripetibile, che consenta di definire le risorse hardware specificamente richieste per i carichi di lavoro di ML (Machine Learning). Il gruppo MLCommons è stato un apripista con il suo MLPerf Storage v2.0, che ha introdotto metodi innovativi per valutare le prestazioni dello storage durante l'addestramento e l'inferenza del machine learning. Questo white paper analizza le prestazioni registrate dagli SSD DC3000ME PCIe Gen5 NVMe U.2 di Kingston nell'ambito del benchmark MLPerf, senza l'impiego di costoso hardware GPU. Utilizzando l'emulazione dello stato di sospensione, MLPerf simula carichi di lavoro reali di IA, permettendo così alle organizzazioni di testare le prestazioni dello storage in modo conveniente e scalabile.
Perché è importante? Uno storage veloce preserva la produttività delle GPU, fornendo loro rapidamente i dati così da ridurre al minimo i tempi di inattività e massimizzare l'efficienza di calcolo. I drive DC3000ME di Kingston si dimostrano un investimento intelligente per le moderne implementazioni di IA, perché aiutano le organizzazioni a velocizzare i cicli di training, riducendo i costi infrastrutturali grazie a un numero inferiore di unità e ottenendo al contempo prestazioni scalabili.
In questo whitepaper:
- Esaminiamo il nuovo metodo di test di emulazione dello stato di sospensione dello storage MLPerf v2
- Spieghiamo i diversi carichi di lavoro di training e checkpointing svolti dallo storage in ambito MLPerf v2
- Analizziamo i risultati ottenuti dal drive Kingston DC3000ME nei carichi di lavoro di training e checkpointing all'interno di piattaforme PCIe Gen5 e Gen4.
I risultati dimostrano che i drive NVMe PCIe Gen5 come il DC3000ME rappresentano una soluzione interessante per le organizzazioni che puntano a massimizzare l'utilizzo dell'acceleratore e il numero di ore di attività della GPU nei loro flussi di lavoro di machine learning. Approfondiamo inoltre i parametri regolabili, la metodologia di test e la messa a punto post-mortem e il loro impatto sui diversi carichi di lavoro.
Gli SSD NVMe U.2 DC3000ME PCIe Gen5 di Kingston sono una soluzione ad alto rendimento per i carichi di lavoro tipici dell'IA. Questi drive infatti offrono la velocità, l'affidabilità e l'efficienza necessarie per rimanere al comando nella corsa all'intelligenza artificiale, che si tratti di addestrare modelli di deep learning oppure ottimizzare modelli LLM.
Scarica il libro bianco