Share
Trang chủ / Tất cả hướng dẫn / Lập trình windows / Nhận dạng lời nói trong C#

Nhận dạng lời nói trong C#

Hướng dẫn nhận dạng lời nói trong c#, Speech recognition, speech to text, text to speech, and speech synthesis in C#

Giới thiệu

Máy tính được thiết kế để phục vụ cho con người, thật buồn nếu con người phải đi học ngôn ngữ của máy tính để “thuyết phục” máy tính làm việc cho mình. Ngành khoa học máy tính vẫn đang phát triển nhiều công nghệ để việc giao tiếp giữa con người và máy tính trở nên dễ hơn, tự nhiên và thân thiện với con người hơn. Một trong những kênh giao tiếp quan trọng chính là giao tiếp bằng lời.

Ngày hôm nay, chúng ta sẽ cùng nhau tìm hiểu về cách để nhận dạng lời nói trong C#, Thư viện mà chúng ta sẽ sử dụng là System.Speech. Qua bài viết ngày hôm nay, các bạn sẽ có thể viết được nhiều hơn một ứng dụng nhận biết từ mà người dùng đang nói là gì.

Môi trường và thư viện

  • Ngôn ngữ lập trình : C#
  • Thư viện System.Speech, thư viện này nằm trong bộ .Net framwork 4.5, 4, 3.5, 3.0 và .NET 4 Client Profile
  • Công cụ : Visual Studio
  • Windows 8, windows 7, windows vista

Thư viện System.Speech

Các bạn có thể đọc kỹ về thư viện này tại trang của Microsoft : http://msdn.microsoft.com/en-us/library/gg145021(v=vs.110).aspx

Thư viện này  thư viện này nằm trong bộ .Net framwork 4.5, 4, 3.5, 3.0 và .NET 4 Client Profile. Nó chứa các class được viết sẵn để hỗ trợ chúng ta nhận dạng lời nói.

Để thêm thư viện này vào project bạn làm như trong hình

Ảnh Thêm thư viện vào project

Bắt đầu code

Trong bài viết này, mình sẽ tạo một ứng dụng windows form, Mình đổi tên file form1.cs thành frmMain.cs. sau khi thêm thư viện ở bước trên, nhưng đoạn code từ đây về sau sẽ đặt ở file frmMain.cs

Bây giờ chúng ta sẽ gọi các namespace cần dùng vào.

using System.Speech.Recognition;
using System.Speech.Synthesis;

Trong class frmMain, ta sẽ khai báo một attribute tên _recognizer

private SpeechRecognitionEngine _recognizer = null;

Trong hàm khởi tạo frmMain

_recognizer = new SpeechRecognitionEngine(); //Khởi tạo một instance
_recognizer.SpeechRecognized += _onSpeechRecognized; // Sự kiện nhận dạng thành công
_recognizer.SpeechRecognitionRejected += _onSpeechRejected; // Sự kiện nhận dạng thất bại
_recognizer.SetInputToDefaultAudioDevice(); // Cài đặt thiết bị input là thiết bị mặc định
_recognizer.RecognizeAsync(RecognizeMode.Multiple);

Chúng ta sẽ tự định nghĩa các phương thức _onSpeechRecognized và _onSpeechRejected, các phương thức này sẽ được gọi lên khi các sự kiện SpeechRecognized, SpeechRecognitionRejected  xảy ra. Chúng ta sẽ định nghĩa hai phương thức này ở phần khác.

Trong dòng _recognizer.RecognizeAsync(RecognizeMode.Multiple), nếu RecognizeMode.Single thì _recognizer sẽ nhận dạng một tiếng, sau đó ngưng hoạt động.

Tiếp theo chúng ta sẽ định nghĩa nhưng mẫu để so sánh với âm thanh thu vào từ mic, từ đó sẽ đưa ra được những từ mà người dùng vừa nói

_recognizer.RequestRecognizerUpdate();
_recognizer.LoadGrammar(new Grammar(new GrammarBuilder("test")) { Name = "testGrammar" });  _recognizer.LoadGrammar(new Grammar(new GrammarBuilder("demo")) { Name = "demoGrammar" }); _recognizer.RequestRecognizerUpdate(); 

Sau đọan code trên, thì trong danh sách mẫu của _recognizer sẽ chỉ có hai tiếng  là “demo” và “test”.
Lúc tạo grammar, bạn có thể cung cấp name của grammar để sử dụng trong một số trường hợp mà chuỗi text của bạn khá phức tạp, sẽ nói ở phần sau. Tuy nhiên, nếu bạn không muốn để tên thì có thể code như sau

_recognizer.LoadGrammar(new Grammar(new GrammarBuilder("demo")));

Khi người dùng đọc vào tiếng “demo”, và _recognizer nhận dạng được thì phương thức _onSpeechRecognized sẽ được gọi.
Nếu text nhận dạng không phải là “test” hoặc “demo” thì phương thức _onSpeechRejected sẽ được gọi.

Theo cách ở trên thì bạn sẽ chỉ nhận dạng được một vài tiếng cố định. Bạn có thể làm như sau để nhận dạng được nhiều tiếng hơn, đây là những tiếng được microsoft định nghĩa sẵn cho chúng ta.

_recognizer.LoadGrammar(new DictationGrammar());

Phương thức xử lý các sự kiện

private void _onSpeechRecognized (object sender, SpeechRecognizedEventArgs e)
 {
 if (e.Result.Text == "test" || e.Result.Text == "demo")
 {
 MessageBox.Show("Recognized : " + e.Result.Text);
 }
 }

private void _onSpeechRejected (object sender, SpeechRecognitionRejectedEventArgs e)
 {
 string result = "Speech rejected. Did you mean:";
 foreach (RecognizedPhrase r in e.Result.Alternates)
 {
 result += "\n" + r.Text;
 }
 MessageBox.Show(result);
 }

Nếu thất bại thì _recognizer sẽ trả về cho bạn những tiếng gần với input nhất có trong danh sách mẫu. Trong ví dụ này, bạn nói tiếng “mo” thì nó cũng sẽ trả về cho bạn “demo”. Có lẽ khi viết thư viện này, microsoft xác định rằng nó phục vụ cho việc điều khiển máy tính, chứ không phải để nhập liệu chính xác.

Nhưng trong ví dụ trên, mỗi một Grammar chúng ta chỉ để một tiếng, chúng ta muốn cùng một grammar mà để nhiều tiếng, thì sử dụng class tên Choices, Grammar kiểu choice sẽ cho phép chúng ta liệt kê ra nhiều tiếng, khi nhận dạng, nó sẽ nhận dạng một trong những tiếng này :

_recognizer.LoadGrammar(new Grammar(new GrammarBuilder(new Choices("dog","cat","snake"))) { Name = "animalGrammar" });

Nhận dạng một câu

Để có thể nhận dạng được một mẫu câu, ví dụ như “test demo” thì bạn làm như sau :

GrammarBuilder grammarBuilder = new GrammarBuilder();
grammarBuilder.Append("I"); // add "I"
grammarBuilder.Append(new Choices("like", "dislike")); // load "like" & "dislike"
grammarBuilder.Append(new Choices("dogs", "cats", "birds", "snakes",
 "fishes", "tigers", "lions", "snails", "elephants")); // add animals
_recognizer.RequestRecognizerUpdate();
_recognizer.LoadGrammar(new Grammar(grammarBuilder)); // load grammar

Khi nhận dạng, thì nó sẽ cố nhận dạng thành một câu, nếu tiếng đầu tiên là I, tiếng tiếp theo là Like và dogs, thì nó sẽ cho bạn một câu là “I like dogs”.

Có trường hợp bạn nói rõ tiếng I, dogs, nhưng không rõ like hay dislike, thì phương thức _onSpeechRejected  sẽ được gọi, và trong e.Result.Alternates sẽ chứ hai câu là “I like dogs” và “I dislike dogs”

Để lấy từ từ trong câu, bạn có thể gọi e.Result.Words[i]

Tải về

[download id=”126″]

Tài liệu tham khảo :

  • System.Speech Namespaces : http://msdn.microsoft.com/en-us/library/gg145021(v=vs.110).aspx
  • http://www.codeproject.com/Articles/483347/Speech-recognition-speech-to-text-text-to-speech-a