Google อัปเดตเทคโนโลยีที่อยู่เบื้องหลังการค้นหาด้วยเสียงเพื่อให้เร็วขึ้นและแม่นยำยิ่งขึ้น

Google ได้สร้างเทคโนโลยีใหม่เพื่อเพิ่มประสิทธิภาพในการค้นหาด้วยเสียงซึ่งทาง บริษัท กล่าวว่าจะทำให้เร็วขึ้นและแม่นยำขึ้น เทคโนโลยีใหม่ใช้ Connectionist Temporal Classification (CTC) และเทคนิคการฝึกอบรมจำแนกตามลำดับ ในปี 2012 Google ได้เปลี่ยนจากรูปแบบการผสมแบบเกาส์เซียน (GMM) เป็น Deep Neural Networks (DNNs) ซึ่งทำให้ บริษัท สามารถประเมินได้ดีขึ้นว่าเสียงที่ผู้ใช้กำลังผลิตในเวลานั้นและให้ความแม่นยำในการรู้จำเสียงที่เพิ่มขึ้น

รุ่นอะคูสติกที่ได้รับการปรับปรุงของเรานั้นใช้เครือข่าย Recural Neural (RNN) RNNs มีลูปป้อนกลับในโทโพโลยีของพวกเขาทำให้พวกเขาสามารถสร้างแบบจำลองการพึ่งพาชั่วคราว: เมื่อผู้ใช้พูด / u / ในตัวอย่างก่อนหน้านี้อุปกรณ์ที่เปล่งเสียงของพวกเขามาจาก / j / เสียงและจาก / m / เสียงก่อน ลองพูดออกมาดัง ๆ ว่า "พิพิธภัณฑ์" - มันไหลอย่างเป็นธรรมชาติในหนึ่งลมหายใจและ RNN สามารถจับภาพนั้นได้ ประเภทของ RNN ที่ใช้ในที่นี้คือหน่วยความจำระยะสั้นระยะยาว (LSTM) RNN ซึ่งผ่านหน่วยความจำเซลล์และกลไกการสลับซับซ้อนที่บันทึกข้อมูลได้ดีกว่า RNN อื่น ๆ การนำโมเดลดังกล่าวไปใช้ปรับปรุงคุณภาพของตัวจำแนกลายมือของเราอย่างมีนัยสำคัญ

การเปลี่ยนแปลงทางเทคโนโลยีเกิดขึ้นโดย Google และขณะนี้กำลังถูกใช้เพื่อเพิ่มประสิทธิภาพการค้นหาด้วยเสียงในแอป Google ในทั้ง iOS และ Android รวมถึงการเขียนตามคำบอกบนอุปกรณ์ Android

ที่มา: บล็อก Google Research