SSD corporativo versus cliente

Profesional frente a pared con dos flechas blancas: una hacia la izquierda y otra hacia la derecha.

Un número cada vez mayor de centros de datos, que requieren un rendimiento elevado en la transferencia de datos y una latencia baja de las transacciones, se están encontrando cuellos de botella en su rendimiento tras depender de unidades de disco duro (HDD) en sus servidores. Ahora buscan soluciones en las unidades de estado sólido (SSD) para mejorar la eficiencia, la fiabilidad y el rendimiento de sus centros de datos, al mismo tiempo que reducen los gastos operativos (OpEx).

Para entender las diferencias entre las dos clases de unidades SSD, debemos distinguir los dos principales componentes que las conforman: el procesador de almacenamiento de la memoria Flash (o controlador SSD) y la memoria Flash no volátil de tecnología NAND que se utiliza para almacenar datos.

Actualmente el mercado de las unidades SSD y de los componentes de memoria Flash NAND se divide en tres grupos principales:
  • Dispositivos para consumidores: tablets, cámaras, teléfonos celulares,
  • Sistemas cliente: computadoras portátiles de distintos formatos (netbook, notebook, ultrabook), dispositivos AIO todo en uno, computadoras personales de escritorio, aplicaciones integradas/industriales (quioscos de juegos, sistemas a la medida, señalización digital),
  • Plataformas empresariales de procesamiento: servidores de centros de datos y HPC.

Escoger el dispositivo SSD de almacenamiento adecuado para los centros de datos empresariales puede ser un proceso prolongado y difícil de obtención de información y de evaluación de los múltiples proveedores de las muchas y distintas unidades SSD y de los tipos de productos. No todas las unidades SSD de memoria Flash de tecnología NAND se han creado del mismo modo.

Las unidades SSD se fabrican para que se puedan implementar de un modo sencillo, ya sea como sustitutas o como complementos de las unidades HDD. Las SSD están disponibles en distintos formatos físicos, incluido el de 2,5", Además, utilizan distintos protocolos de comunicación e interfaces para la transferencia de datos a la unidad central de procesamiento (CPU) del servidor y desde esta, entre los que se incluyen el Serial ATA (SATA), el Serial Attached SCSI (SAS) y, más recientemente, el NVMe PCIe.

No obstante, que sean sencillas de implementar no garantiza que todas las unidades SSD sean adecuadas a largo plazo para la aplicación empresarial a la que se haya incorporado. El coste de elegir una unidad SSD incorrecta puede anular los ahorros iniciales y los beneficios de rendimiento obtenidos, ya sea por desgaste prematuro debido a escrituras excesivas, un rendimiento sostenido de escritura muy por debajo de lo previsto a lo largo de su vida útil o la introducción de latencia adicional en la matriz de almacenamiento, lo que puede requerir un reemplazo antes de tiempo.

En este artículo analizaremos las tres principales características que distinguen a una unidad SSD de clase empresarial de una de clase cliente, con el objetivo de facilitar la toma de decisiones al momento de reemplazar o agregar almacenamiento en un servidor.

Rendimiento

Gracias a su arquitectura de canales múltiples y al acceso en paralelo entre el controlador de la unidad SSD y los chips de memoria Flash NAND, las unidades SSD pueden ofrecer un rendimiento de lectura y escritura increíblemente alto tanto para solicitudes secuenciales como aleatorias de datos procedentes de la CPU.

En un escenario típico de centro de datos, donde se procesan millones de bytes de datos aleatorios de una empresa, como la colaboración en dibujos técnicos de CAD, el análisis de datos sísmicos (por ejemplo, Big Data) o el acceso a datos de clientes a nivel mundial para transacciones bancarias (como OLTP), los dispositivos de almacenamiento deben ser accesibles con la menor latencia posible. Esto implica que varios clientes puedan necesitar acceder simultáneamente a los mismos datos sin que haya ninguna degradación en el tiempo de respuesta. La experiencia del usuario se basa en una baja latencia, lo que incrementa su productividad. Si multiplicamos esto por toda una plantilla, es fácil ver cómo los beneficios de una latencia baja se acumulan rápidamente.

Las aplicaciones de la clase cliente involucran el acceso por un único usuario o aplicación a la vez. En esos casos, pudiera ser mayor la tolerancia a deltas más altas entre el tiempo de respuesta (o latencia) mínimo y el máximo, de las acciones del usuario o del sistema.

Las complejas matrices físicas de almacenamiento en las que se utilizan las unidades SSD, como las de los tipos NAS (Network Attached Storage), Direct Attached Storage y Storage Area Network, también se ven afectadas de manera adversa por diferencias en sus rendimientos individuales, que pudieran causar caos en la latencia del sistema de almacenamiento, en el rendimiento sostenido y en última instancia, en la calidad del servicio.

A diferencia de las unidades SSD de clase cliente, las SSD de clase empresarial de Kingston están optimizadas no solo para ofrecer un rendimiento máximo en los primeros segundos de acceso, sino que, gracias a una mayor área de sobreaprovisionamiento (OP), también brindan un rendimiento sostenido y estable durante períodos más prolongados. En el sitio web de Kingston, en la sección de unidades SSD de clase empresarial, encontrará más información sobre unidades específicas.{{Footnote.N48213}}

Esto garantiza que el rendimiento de la matriz de almacenamiento se mantenga consistente con los requisitos de de calidad de servicio de la organización, incluso durante picos de carga de tráfico de datos.

Una consola LED montada en bastidor en una sala de servidores.

Fiabilidad

La memoria Flash NAND tiene varios problemas inherentes. Los dos más importantes incluyen una vida útil finita, ya que las celdas Flash NAND se desgastan con escrituras repetidas, y una tasa de error natural.

Durante el proceso de producción de la memoria Flash de tecnología NAND, cada chip Flash NAND, que se obtiene del corte de las obleas de silicio, se prueba y se le asigna una cifra de tasa natural de errores de bit (BER o RBER).

La tasa natural de errores de bit (BER) define con qué frecuencia se producen dichos errores en los chips Flash NAND, sin el uso de tecnologías de corrección de errores (ECC). Los controladores SSD utilizan tecnologías avanzadas de ECC (denominadas BCH ECC, Strong ECC o LDPC según cada fabricante de controladores) a fin de corregir errores sobre la marcha para que el acceso de los usuario y del sistema no se vea afectado.

La capacidad de los controladores SSD de corregir errores de bit puede ser cuantificada mediante la relación de errores de bit no corregibles (UBER), un parámetro de medición de la tasa de daños en los datos y cuyo valor es igual a la cantidad de errores por bits leídos, después de aplicar todo método incorporado de corrección de errores. {{Footnote.N48213}}

Las unidades SSD de clase empresarial difieren en varios factores de las de la clase cliente, entre otras en la capacidad de admitir mayores cargas de trabajo de escritura, resistir condiciones de entorno más extremas y brindar mayor capacidad de recuperación ante tasas BER más altas. Dichos factores fueron definidos y estandarizados por el comité JEDEC en 2010, a través de los documentos JESD218A (que habla de los requisitos y del método de prueba de la resistencia de las unidades SSD) y JESD219 (que habla de la cargas de trabajo de medición de la resistencia de las unidades SSD).{{Footnote.N52081}}{{Footnote.N52082}}

Clase de aplicacionesCarga de trabajo (consulte JESD219)Uso activo (encendida)Uso de retención (apagada)Requisito de UBER
Cliente Cliente 40° C
8 horas/día
30° C
1 año
≤10 -15
Empresarial Empresarial 55° C
24 horas/día
40° C
3 meses
≤10 -16

Tabla 1 - JESD218A: Requisitos y método de prueba de la resistencia de las unidades SSD
Copyright de JEDEC. Reproducido con el permiso del JEDEC.

A partir del requisito de UBER propuesto por el JEDEC para las unidades SSD empresariales frente a las de cliente, se exige que las primeras experimenten solamente una relación UBER de 1 error de bit no corregible por cada 10 cuatrillones de bits (equivalente a 1,11 petabytes) procesados, en comparación con las segundas cuya exigencia es de una relación UBER de 1 error de bit por cada cuatrillón de bits (equivalente a 0,11 petabytes) procesados.

Las unidades SSD de clase empresarial de Kingston incorporan además otras tecnologías, que permiten la recuperación de bloques dañados de datos con el uso de información de paridad almacenada en otros chips NAND (un procedimiento como el de los arreglos RAID y que permite la recuperación de bloques específicos a partir de su reconstrucción con base en la información de paridad almacenada en otros bloques).

Como complemento de las tecnologías de reconstrucción de bloques de datos incorporadas a las unidades SSD de clase empresarial de Kingston, se ha implementado también un esquema de protección interna extremo a extremo, que incluyen la creación periódica de puntos de control, las pruebas cíclicas de redundancia (CRC) y la corrección de errores mediante ECC. Dicho esquema garantiza la integridad de datos entre el host hasta la memoria Flash y de vuelta al host. La protección de extremo a extremo de los datos significa comprobar la integridad de los datos recibidos del host al almacenarlos en la caché interna de la unidad SSD, y también cuando se escriben o se leen de las zonas de almacenamiento NAND.

Al igual que las unidades SSD de clase empresarial que mejoran la protección ECC contra errores de bits, las unidades SSD también pueden contener circuitos físicos para la detección de fallos de energía que gestionan los condensadores de almacenamiento de energía en las unidades SSD. La función Power Fail en hardware monitoriza la alimentación de electricidad a la SSD. Al ocurrir la pérdida de la alimentación, dicha función suministra temporalmente energía eléctrica almacenada en condensadores, a efectos de finalizar toda escritura pendiente, ya sea emitida interna o externamente, antes de que se apague la unidad. Por lo general, el circuito de protección contra pérdida de energía se exige en el caso de aplicaciones en las que la pérdida de datos es irrecuperable.

La protección contra pérdida de energía también se puede implementar en el firmware de la unidad SSD mediante el vaciado frecuente de los datos almacenados en las áreas de la memoria caché del controlador (por ejemplo, mediante una tabla de capa de traducción Flash) al almacenamiento NAND. Esto no garantiza que no se pierdan datos durante una interrupción de energía, pero intenta minimizar el impacto de un apagado inseguro. La protección contra pérdida de energía en firmware también asegura que la unidad SSD no quede inutilizable después de un apagado inseguro.

En muchas situaciones, el uso de las tecnologías SDS (Software Defined Storage) y de clústeres de servidores podría reducir la necesidad de esquemas Power Fail basados en hardware, dado que los datos en su totalidad se reflejan en dispositivos aparte e independientes, en uno o varios servidores distintos. Los centros de datos de escala web a menudo prescinden de los recursos Power Fail utilizando SDS para servidores RAID para almacenar copias redundantes de los mismos datos.

Resistencia

Profesional interactúa con un hexágono en una gráfica de hexágonos entrelazados con símbolos de conceptos tecnológicos, como computación en la nube.

Todos los chips de memoria NAND contenidos en los dispositivos de almacenamiento Flash se degradan con cada ciclo de escritura-borrado-escritura (P/E), en cuanto a su capacidad de almacenar bits de datos de manera fiable. Llega el momento en que bloques de memoria NAND ya no son capaces de almacenar datos de una manera fiable y se deben eliminar del grupo de almacenamiento direccionable por el usuario. Su correspondiente dirección de bloque lógico (LBA) se traslada a una nueva dirección en la matriz física de almacenamiento de memorias Flash NAND. Nuevos bloques de almacenamiento sustituyen a los dañados. Los bloques sustitutos son los de reserva que forman parte del almacenamiento de OP (sobre-dotación) de la unidad SSD.

A medida que la celda se programa o borra constantemente, la tasa BER también aumenta de manera lineal. Por esta razón, se debe implementar un conjunto complejo de técnicas de gestión en el controlador de las unidades SSD de clase empresarial para gestionar la capacidad de la celda de almacenar datos de manera fiable durante la vida útil prevista de la unidad.{{Footnote.N52083}}

La resistencia a los ciclos de escritura-borrado-escritura de la memoria Flash NAND pudiera variar notablemente entre un chip y otro, dependiendo del proceso en uso de fabricación mediante litografía y del tipo de chip NAND producido.

Tipo de memoria Flash NANDQLCTLCMLCSLC
Arquitectura 4 bits por celda 3 bits por celda 2 bits por celda 1 bit por celda
Capacidad Capacidad más alta Más capacidad Capacidad alta Capacidad más baja
Resistencia (escritura-borrado-escritura, PE) Resistencia más baja Menos resistencia Resistencia intermedia Resistencia más alta
Coste $ $$ $$$ $$$$
Tasa aproximada de errores de bit (BER), chips NAND 10^4 10^4 10^7 10^9

Tabla 2 – Tipos de memoria Flash NAND {{Footnote.N52084}}{{Footnote.N52085}}

Las unidades SSD de clase empresarial también difieren de las de clase cliente en cuanto a su ciclo de servicio. Una unidad SSD de clase empresarial debe ser capaz de soportar una actividad intensa de lectura o escritura en situaciones típicas de un servidor de centro de datos, que requiere acceso constante a los datos y de manera ininterrumpida. En comparación, una unidad SSD de clase cliente suele estar en uso completo solo 8 horas al día durante la semana.

El ciclo de servicio de las unidades SSD de clase empresarial es 24x7, mientras que el de las de clase cliente es 20/80 (activa el 20% del tiempo, e inactiva o en modo de suspensión el 80% del tiempo que se utiliza el ordenador).

Entender la resistencia de escritura de una aplicación o de una unidad SSD puede ser complejo, por lo que el comité JEDEC también propuso un parámetro de medición de la resistencia basado en el valor de terabytes escritos (TBW), que indica la cantidad de datos sin procesar escritos desde el host a la unidad SSD antes de que la memoria Flash NAND contenida en la unidad se vuelva un medio de almacenamiento poco fiable y deba retirarse.

Con los métodos de prueba propuestos por JEDEC en JESD218A y las cargas de trabajo de clase empresarial en JESD219, se facilita la interpretación de los cálculos de resistencia de un fabricante de unidades SSD mediante TBW, lo que permite extrapolar una medida de resistencia más comprensible y aplicable a cualquier centro de datos.

Tal y como se indica en los documentos JESD218 y JESD219, las cargas de trabajo de diferentes clases de aplicaciones también pueden sufrir, a raíz de un factor de amplificación de escritura (WAF), un orden de magnitud mayor que las escrituras reales enviadas por el host. Esto puede generar un desgaste incontrolable de la memoria Flash NAND, un aumento en la tasa BER por escrituras excesivas a lo largo del tiempo y un rendimiento más lento debido a la extensa distribución de páginas no válidas en la unidad SSD.

Aunque el valor de TBW es un tema importante que debe tenerse en cuenta al analizar unidades SSD de clase empresarial y de clase cliente, el parámetro TBW es solo un modelo de predicción de resistencia a nivel de la memoria Flash NAND. El tiempo medio entre fallos (MTBF) debe observarse como un modelo de predicción de resistencia y fiabilidad a nivel de componente basado en la fiabilidad de los componentes empleados en el dispositivo. Se espera que los componentes de las unidades SSD de clase empresarial tengan una vida útil más larga y trabajen más intensamente para gestionar los voltajes que alimentan a toda la memoria Flash NAND durante la vida útil de la unidad. Todas las unidades SSD empresariales deben tener un MTBF nominal de al menos dos millones de horas, lo que equivale a más de 230 años. Las especificaciones de las unidades SSD de Kingston son muy conservadoras y no es raro ver valores de MTBF más altos en sus SSD. Es importante señalar que 2 millones de horas son más que suficientes como punto de partida para las unidades SSD de clase empresarial.

La monitorización y la generación de notificaciones S.M.A.R.T. de las SSD de clase empresarial permite que se les pueda hacer consultas de manera sencilla antes de que ocurran fallos, a efectos de estimar su expectativa de vida con base en el factor actual de amplificación de la escritura (WAF) y en el nivel de desgaste. A menudo también están incorporadas las notificaciones predictivas con anterioridad a las situaciones de fallo, tales como las interrupciones de la alimentación de electricidad, errores de bit en la interfaz física y las distribuciones disparejas del desgaste. La utilidad SSD Manager de Kingston puede descargarse desde el sitio web de Kingston y utilizarse para visualizar el estado de las unidades.

Las unidades SSD de la clase cliente solo incorporan un mínimo de notificaciones S.M.A.R.T. de monitorización de las unidades SSD durante el uso estándar y también después de fallos.

Dependiendo de la clase de la aplicación y de la capacidad de la unidad SSD, también puede asignarse una mayor capacidad de reserva de la memoria flash basada en NAND como almacenamiento sobreaprovisionado (OP). La capacidad OP está oculta tanto del usuario como del sistema operativo, y se puede utilizar como un búfer temporal de escritura para lograr un rendimiento sostenido más alto y como reemplazo de las celdas defectuosas de la memoria Flash durante la vida útil prevista de la unidad SSD, mejorando así su fiabilidad y resistencia (con un mayor número de bloques de reserva).

Conclusión

Existen diferencias claras entre las unidades SSD de clase empresarial y las de clase cliente, que van desde la resistencia a los ciclos de escritura-borrado-escritura de la memoria Flash NAND hasta sus complejas técnicas de gestión para adaptarse a las cargas de trabajo de diferentes clases de aplicaciones.

Comprender estas diferencias en las clases de aplicaciones puede ser un arma eficaz para minimizar y gestionar el riesgo de tiempos de inactividad disruptivos en entornos empresariales exigentes y, a menudo, críticos para la misión.

Si tiene más preguntas o desea obtener más información sobre las unidades SSD de clase empresarial de Kingston, póngase en contacto con su representante de Kingston, nuestro equipo de Pregunte a un experto o nuestro chat de soporte técnico.

¿Esto le ha resultado útil?

Vídeos relacionados

Artículos relacionados