Metode & Algoritma | List Tutorials | Source Code | About | Sitemap
Konsultan Tesis
Bimbingan dan Konsultasi Tesis Informatika bersama team Project Graduate Indonesia. Konsultasi hanya untuk yang sudah me-Like FB kami (Silahkan LIKE tombol ini jika belum).
. Scroll kebawah untuk memasukan kode AntiSpam Protection. Hasil konsultasi akan kami kirimkan ke email Anda.

Pengenalan Suara Voice Speech Recognition




.


Metode dan Algoritma | Pengenalan Suara Voice Speech Recognition . Anda bisa melakukan konsultasi tentang Pengenalan Suara Voice Speech Recognition melalui form di samping kanan !!!

Pengenalan Suara 


Pengenalan suara (Voice recognition ataudikenal juga sebagai automatic speech recognition,  computer  speech  recognition) adalah  proses  mengubah sinyal suara kekalimat (text)11). Dalam hal ini diperlukan algoritma yang diimplementasikan  pada  program   komputer   untuk   menjalankan  perintah tersebut. Aplikasi pengenalan suaramuncul beberapa tahun yang lalu termasuk voicedialing, data entry sederhana (contohmemasukkan nomor kartu kredit) danmenyediakan dokumen terstruktur (contohlaporan radiologi).


Kinerja Sistem Pengenalan Suara 


Sistem pengenalan suara, tergantung pada beberapa faktor, dapat memiliki rentang kinerjayang diukur dari rata-rata error kalimat. Faktor- faktor ini termasuk lingkungan, rata-rataberbicara, konteks (atau tata bahasa) yang digunakan dalam pengenalan.


Kebanyakan pengguna pengenalan suara cenderung setuju bahwa mesin  perintah  dapat mencapai  kinerja  yang  tinggi  pada  kondisi terkontrol. Bagian yang membingungkanterutama datang dari campuran penggunaan istilah pengenalan suara dan pendiktean.


Sistem pendiktean memerlukan periode pendek pelatihan yang dapat menangkap suarayang berlanjutan dengan kosakata yang luas dengan akurasi  yang  tinggi.  Kebanyakan perusahaan  komersial  mengklaim bahwa software pengenalan dapat mencapai antara98% sampai 99% keakuratannya  jika  beroperasi  pada  kondisi  yang  optimal. Kondisi optimal ini berarti pengetesan subjek memiliki 1) karakteristik speaker yangcocok dengan data training, 2) pembicara yang sama, dan 3) lingkungan yang tenang(tanpa noise). Inilah penyebab mengapa pada kebanyakan pengguna, menemukan kinerjarata-rata pengenalan lebih rendah  dari  98%  sampai  99%.  Keterbatasan  yang lainnya  adalah kosakata, sistem tanpa pelatihan hanya dapat mengenali sejumlah kecil kalimat dari beberapa pembicara.


Formula Noisy Channel pada Statistika Pengenalan Suara


Banyak metode modern seperti sistem pengenalan suara HMM (Hidden Markov Model)berdasarkan formulasi noisy channel. Metoda ini menyatakan bahwa tugas dari sistempengenalan suara untuk mencari rangkaian kata yang mirip untuk sinyal akustik yangdiketahui. Dengan kata lain,          sistem  mencari rangkaian kata  W   diantara            semua kemungkinan kata dari rangkaian W* sinyal akustik A. Menurut Hidden MarkovModel terminologi disebut rangkain observasi.


Pemodelan akustik dan pemodelan bahasa penting untuk dipelajari pada statistikapengenalan suara. Pada skripsi ini akan fokus pada penjelasan penggunaan hiddenMarkov Model (HMM) karena digunakan pada banyak sistem secara luas


Pengenalan Percakapan


Speech Recognition atau pengenalan percakapan adalah proses yang mengkonversi sinyal  percakapan  menjadi  kata-kata teridentifikasi,  dengan melalui serangkaianalgoritma12). Aplikasi-aplikasi yang terlahir dariteknologi tersebut adalah voice dialing(contohnya “call home”), call routing(contohnya “I would like to make a collectcall”), simple data entry, dan persiapanmembuat dokumen terstruktur.


Sejarah Pengenalan Percakapan


Penelitian dalam Pengenalan PercakapanOtomatis (Automatic Speec Recognition—ASR) sudah dimulai lebih dari 60 tahun yanglalu5). Percobaan  pertama  untuk  membuat  sistem  ASR  dengan  mesin berlangsung pada tahun 1950an, saat banyak peneliti berusaha mengeksploitasi ide-ide mendasar darifonetika akustik. Pada tahun 1952 di Laboraturium Bell, Davis, Biddulph, dan Balashekmembangun sebuah sistem untuk mengenali digit yang diucapkan oleh satu pembicara.Sistem tersebut bekerja dengan cara mengukur resonansi spektral di daerah vokal padatiap digitnya.


Dengan usaha mandiri di RCA Laboratories  pada tahun 1956, Olsondan Belar mencoba untuk mengenali 10 suku kata berbeda pada satu pembicara,  yangkemudian diwujudkan dalam 10 kata dengan suku kata satu (monosyllabic words).Sistem tersebut juga bekerja dengan pengukuran spektral terutama di daerah vokal. Padatahun 1959, pada sebuah Universitas di Inggris, Fry dan Denes mencoba membuat pengenal fonem untuk mengenali 4 vokal dan 9 konsonan. Mereka menggunakanSpectrum Analyzer dan pattern matcher untuk membuat keputusan pengenalan.


Aspekyang tergolong baru dalam penelitian ini adalah penggunaan informasi statistik tentangurutan fonem di Inggris yang diperbolehkan (sintaks bahasa yang belum sempurna).Kasusnya adalah untuk meningkatkan akurasi  fonem keseluruhan untuk kata-kata yangterdiri dari dua fonem atau lebih. Usaha lain yang dilakukan dalam periode ini adalahpengenal vokal dari Forgie and Forgie, yang dibuat di MIT  Lincoln  Laboratories  padataun 1959,  yang mana mengenali 10 vokal yang melekat dalam format /b/-vokal-/t/ tanpa tergantung pada pembicaranya. Pada sistem ini digunakan Filter Bank Analyzeruntuk menghasilkan  informasi  spektral,  dan   estimasi  variasi   waktu   dari resonansipernapasan manusia dibuat untuk menentukan vokal mana yang dibicarakan.


Pada tahun 1960an beberapa ide-ide mendasar dalam pengenalan percakapanbermunculan dan dipublikasikan. Namun, ide-ide tersebut berawal  di  Jepang  saat beberapa  peneliti  Jepang  membuat  special- purpose hardware sebagai bagian darisistemnya. Satu sistemnya, yang dibuat oleh Suzuki dan Nakata dari Lab Radio Researchdi Tokyo, adalah perangkat  keras  pengenal  vokal.  Sistem  tersebut  menggunakanelaborated filter bank spectrum analyzer yang menghubungkan semua output dari tiapkanal analis spektrum (dengan diberi nilai) ke sirkuit vowel-decision. Disinimenggunakan skema logis keputusan mayoritas yang digunakan untuk memilih vokal yangdiucapkan. Perangkat keras Jepang lainnya yang dibuat oleh Doshita dari Universitas Kyoto pada tahun   1962   adalah   pengenal   fonem.  


Dalam   perangkat   keras   ini, diperlukan  pembagi  percakapan  dengan  analisis  zero-crossing  dari banyak daerahberbeda di suara input untuk menghasilkan output yang terkenali. Usaha orang Jepangyang ketiga adalah perangkat keras pengenal digit dari Nagata di Laboratorium NEC padatahun 1963. Perangkat keras ini merupakan yang paling terkenal sebagai percobaan pertama dalam pengenalan percakapan di NEC dan merupakan awal dari program risetyang lama dan sangat produktif.


Sekitar tahun 1960an dibuat tiga proyek yangberdampak sangat besar dalam penelitian dan pengembangan pengenalan percakapanselama 20 tahun terakhir. Proyek pertama adalah hasil usaha Martin dan teman- temannya di  Laboratorium  RCA,  yang  dimulai  pada  akhir  1960an. Proyek inimengembangkan solusi realistis untuk permasalahan yang berhubungan denganketidakseragaman skala waktu pada kasus-kasus percakapan.


Martin  mengembangkan beberapa  metoda  normalisasi- waktu, berdasarkan pada kemampuan untukmendeteksi awal dan akhir percakapan, yang secara signifikan mengurangi variasi nilaipengenalan. Martin mengembangkan metode tersebut dan berhasil mempublikasikan produk   pengenalan  percakapannya  dengan  dibantu  oleh  Threshold TechnologyCompany. Pada saat itu pula, di The Soviet Union, Vintsyuk mengusulkan penggunaanmetode dynamic programming untuk menyamaratakan waktu pada sepasang ungkapan,yang kemudian dinamakan metoda dynamic time warping. Walaupun inti dari konsepdynamic time warping dikembangkan di dalam proyek Vintsyuk, namun proyek ini tidakterdengar sampai ke belahan bumi bagian barat hingga awal 1980an, dimana metode-metode formal sudah diusulkan dan diimplementasikan oleh peneliti lain.


Karya  sukses  terakhir  pada  tahun  1960an  adalah  penelitian perintis dari Reddy dibidang pengenalan percakapan kontinyu dengan penelusuran dinamis fonem-fonem.Penelitian Reddy selanjutnya berkembang menjadi program riset pengenalan percakapan diUniversitas Carnegie Mellon yang sampai saat ini merupakan pemimpin sistem pengenalanpercakapan kontinyu.
Pada tahun 1970an, riset pengenalan percakapan meraih banyak pengembangan-pengembangan. Pertama pengembangan di bidang kata terisolasi atau pengenalanungkapan diskrit oleh Velichko dan Zagoruyko di Russia, Sakoe dan Chiba di Jepang, danItakura di Amerika. Velichko dan Zagoruyko mempelajari pengembangan ide-idepengenalan-pola dalam pengenalan percakapan. Chiba dan Sakoe meneliti bagaimanaDynamic  Programming  dapat  diaplikasikan  dengan  baik.


Penelitian Itakura menunjukkan ide Linear Predictive Coding (LPC), yang pada saat itu  sudah pernah  digunakan  dalam  Low-bit-rate  Speech  Coding,  dan dapat dikembangkan dalam sistem rekognisi percakapan melalui penggunaan  pengukuran  jarak  teratur berdasarkan  parameter  spektral LPC.
Pengembangan lain di tahun 1970an adalah awal dari penelitian panjang dalampengenalan percakapan di IBM dimana para peneliti mempelajari tiga tugas berbedaselama hampir dua dekade. Tiga tugas tersebut adalah : New Raleigh Language untukoperasi basis data sederhana, The Laser Patent Text Language untuk merekam patenlaser, dan tugas korespondensi kantor, serta Tangora, untuk pengucapan memo sederhana.


Pada AT&T Bell Labs, peneliti memulai serangkaian eksperimen yang bertujuan membuatsistem rekognisi percakapan yang benar-benar tidak tergantung pada pembicaranya. Untuk mencapainya, algoritma clustering digunakan untuk menentukan beberapa polaberbeda yang diperlukan  untuk  merepresentasikan  semua  variasi  kata-kata  berbeda pada populasi pengguna yang luas. Penelitian ini telah dikembangkan selama lebih dari 10tahun sehingga tehnik untuk membuat pola bebas- pembicara (Independent Speaker) saatini dapat digunakan dengan bebas.Setelah rekognisi kata terisolasi menjadi kunci fokusriset di tahun 1970an, masalah rekognisi kata tersambung menjadi fokus  riset pada tahun 1980an.


Tujuannya adalah untuk menciptakan sistem kokoh yang mampu mengenaliserangkaian kata-kata yang diucapkan dengan lancar berdasarkan pada penyesuaian pola-pola berkesinambungan pada kata- kata individu. Banyak algoritma pengenalan katatersambung yang diformulasikan dan diimplementasikan, diantaranya :


-    pendekatan pemrograman dinamis dua-tingkat oleh Sakoe di Nippon ElectricCorporation (NEC)
-     metode one-pass oleh Birdle dan Brown di Joint Speech Research Unit (JSRU) diInggris
-     pendekatan pembangunan tingkat oleh Myers dan Rabiner di Bell Labs, dan
-    pendekatan pembuatan tingkat singkronisasi kerangka oleh Lee dan Rabiner di BellLabs.


Tiap prosedur penyesuaian ‘optimal’ ini memiliki keuntungan implementasinya masing-masing, yang dieksploitasi untuk banyak tugas. Penelitian percakapan pada tahun 1980andicirikan dengan adanya pergeseran teknologi dari pendekatan berdasarkan cetakan(template) ke metoda   modeling   statistikal—terutama  pendekatan  Hidden   Markov Model (HMM). Walaupun metodologi HMM dapat dipahami oleh beberapa laboratorium(terutama IBM,  Institute for  Defense Analyses (IDA),   dan  Dragon   Systems), namun  belum  dapat  disebarluaskan sebelum pertengahan tahun 1980an, dimana padasaat itu tehnik ini telah diaplikasikan ke seluruh laboratorium riset pengenalan percakapandi dunia.


Teknologi ‘baru’ lainnya yang dikenalkan di akhir tahun 1980an adalah ide atau gagasanmengaplikasikan jaringan syaraf tiruan (JST) atau Artificial Neural Network (ANN) padapermasalahan pengenalan percakapan. JST  pertama kali  dikenalkan pada  tahun1950an, namun tidak pernah terbukti berguna karena memiliki banyak masalah dalam prakteknya. Namun, pada tahun 1980an, pemahaman mendalam tentang keuntungan dankerugian dari JST dipelajari, sebagaimana dengan hubungan teknologi tersebut denganmetode klasifikasi sinyal klasik. Beberapa cara baru untuk mengimplementasikan sistemjuga dikenalkan.


Tahun 1980an merupakan dekade dimana motivasi utama diberikan untukmengembangkan sistem pengenalan percakapan kontinyu oleh komunitas DefenseAdvanced Research Projects Agency (DARPA). Sponsor program riset besar inibertujuan meraih akurasi tinggi untuk pengenalan percakapan kontinyu 1000 kata.Kontribusi riset utama dihasilkan  oleh  CMU  (juga  dikenal  dengan  SPHINX  System), BBN dengan Bylos System, Lincoln Labs, SRI, MIT, dan AT&T Bell Labs. ProgramDARPA  berlanjut  sampai  tahun  1990an,  dengan  pergeseran tekanan kepada bahasanatural di pengenalnya. Pada waktu yang sama, teknologi pengenalan percakapan telahbanyak digunakan dalam jaringan telefon untuk mengotomasikan juga mengembangkan servis-servis operator.


 Hidden Markov Model


Hidden Markov Model (HMM) merupakan pendekatan yang dapat mengelompokkansifat-sifat spektral dari tiap bagian suara pada beberapa pola4). Teori dasar dari HMMadalah dengan mengelompokkan sinyal suara  sebagai  proses  parametrik  acak,  dan parameter  proses  tersebut dapat dikenali (diperkirakan) dalam akurasi yang tepat.


Arsitektur Hidden Markov Model


Diagram dibawah menunjukkan arsitektur umum dari HMM, seperti disajikan padagambar 2.1. Tiap bentuk oval mewakili variabel random yang dapat mengambil nilai.Variabel random x(t) yaitu nilai dari variabel tersembunyi pada waktu t. Variabel randomy(t) yaitu nilai variabel yang diteliti pada waktu t. Tanda panah pada diagrammenunjukkan ketergantungan kondisi.
Dari diagram, ini jelas bahwa nilai variabel tersembunyi x(t) (pada waktu t) hanyatergantung pada nilai variabel tersembunyi x(t-1) (pada waktu t-1). Serupa, nilai variabel yang diteliti y(t) hanya tergantung pada nilai variabel tersembunyi x(t) (keduanya padawaktu t).


Implementasi HMM pada Pengenalan Suara


Salah satu implementasi HMM yang digunakan pada skripsi ini adalah implementasi HMMpada sistem pengenalan suara. Diagram blok disajikan pada gambar tersebut menunjukkan diagram blok dari pendekatan pengenalan pola pada sistem pengenalan suara kontinyu. Langkah-langkah pengenalan pola secara umum dapat dijelaskan sebagai berikut:


Suara yang menjadi input pada Gambar 2.2 akan melalui proses Feature Analysis yangmemfilter suara input menjadi spektral-spektral suara. Setelah melalui proses FeatureAnalysis, spektral suara kemudian akan dipecah menjadi suku kata-suku kata pada prosesUnit Matching System. Pada proses Unit Matching System, sistem akan membaca database suku kata untuk kemudian dicari suku kata-suku kata yang mirip dengan spektral suara input.


Pada Lexical Decoding, tiap suku kata yang terdapat di Unit Matching System disusun menjadi kata berdasarkan Word Dictionary. Pada Synctactic Analysis,tiap kata yang terdapat di Lexical Decoding disusun menjadi frase berdasarkan databasefrase Grammar. Dengan berdasarkan pada database Task Model, Semantic Analysismemungkinkan pembentukan kalimat dari frase-frase yang ada di Syntactic Analysis.


Sedangkan pengertian dari tiap-tiap proses adalah sebagai berikut:


a.   Feature Analysis


Merupakan  analisis  spektral  dan  atau  temporal  dari  sinyal suara yang dilakukan untukmengobservasi vektor yang akan digunakan untuk melatih HMM yang mengelompokkan berbagai suara percakapan.


b.   Unit Matching System


Unit Matching System bertugas menyamakan semua bagian- bagian  percakapan  unit dengan  input  percakapan.  Teknik untuk memberikan nilai kesesuain, dan menentukan nilai pasangan terbaik (subyek ke leksikal dan batasan sintaktik sistem) termasuktumpukan prosedur dekoding, dan prosedur penilaian  akses  leksikal.  Kemungkinan  dapat  memuat  unit sub-kata linguistik seperti  phones,  diphones,  demisyllables, dansyllables, juga unit derivasinya seperti fenemes, fenones, dan unit akustik. Kemungkinan lain juga meliputi unit kata keseluruhan, dan bahkan unit yang berkorespondensi ke kelompok 2 atau lebih kata (frase dan preposisi seperti and an, in the, of a, dll).


Secaraumum, makin sederhana unitnya (contohnya phones), maka makin sedikit dari merekayang berada di dalam bahasa, dan makin kompleks strukturnya di percakapan kontinyu.Untuk rekognisi suara skala besar (menggunakan lebih  dari  1000  kata),  penggunaansub-kata unit percakapan semakin dibutuhkan karena sulit untuk merekam set pelatihanyang cukup untuk mendisain unit-unit HMM jika katanya terlalu banyak. Namun, untukaplikasi spesialisasi (contohnya menggunakan kosakata yang sedikit, dan  tugas-tugas yang  dibatasi),  menganggap  kata  sebagai basis unit percakapan merupakan hal yangmasuk akal dan praktis.


c.   Lexical Decoding


Proses ini meletakkan batasan-batasan pada unit matching system sehingga jalan-jalanyang dilalui merupakan jalan-jalan yang berhubungan dengan bagian-bagian percakapanyang terdapat pada kamus kata. Prosedur ini menjelaskan bahwa kamus kata pengenalan suara harus dispesifikasikan dalam istilah unit dasar yang dipilih untuk pengenalan. Spesifikasi tersebut dapat berupa satu atau lebih state jaringan terbatas, atau berupastatistikal. Pada kasus dimana unit yang dipilih adalah   kata-kata   (atau   kombinasi   kata—frase),   langkah Lexical Decoding dapat dihilangkan dan struktur pengenalan dapatdisederhanakan.


d.   Syntactic Analysis


Proses ini, meletakkan batasan-batasan lebih jauh pada sistem  penyesuaian  unit  sehingga jalur  yang  dicari  benar- benar merupakan jalur yang berisikan kata-kata yang sesuai dengan kata-kata inputnya. Kata – kata dalam jalur tersebut terdiri  atas  kata-kata  dan kata-kata  tersebut  memiliki rangkaian  yang  sesuai  dengan  yang  terletak  pada kamus katanya. Kamus kata tersebut dapat direpresentasikan dengan jaringan statedeterministik terbatas (dimana semua kombinasi kata yang diterima oleh kamus katadisebutkan), atau dengan kamus kata statistikal.


Contohnya model kata trigram yangmana kemungkinan urutan 3 kata spesifik sudah ditentukan. Untuk beberapa tugaskontrol dan perintah, hanya satu kata dari beberapa set terbatas yang dibutuhkanuntuk dikenali. Oleh sebab itu, kamus katanya bersifat trivial atau kadang- kadang tidakdiperlukan. Tugas-tugas tersebut biasanya termasuk kedalam tugas pengenalan kataterisolasi. Untuk aplikasi lain (contohnya rangkaian digit) kamus kata yang sangatsederhana sudah cukup memenuhi persyaratan tersebut. Namun, ada tugas-tugas dimanakamus kata menjadi faktor dominan. Maka kamus kata  dapat mengembangkan performa rekognisi dengan menghasilkan    batasan-batasan pada rangkaian unit percakapan yangmerupakan kandidat-kandidat valid.  Walaupun  hal  ini  menambah  batasan-batasan  lebih lanjut dalam proses pengenalan


e.   Semantic Analysis


Proses ini, seperti pada synctactic analysis maupun lexical decoding,  menambahbatasan-batasan lebih  lanjut  pada  set jalur  pencarian  rekognisi  percakapan  input. Namun,  pada
Semantic Analysis, batasan-batasan tersebut diatur melalui model dinamis dari staterekognisi. Berdasarkan state rekognisi, beberapa string input yang benar dieliminasi secarasyntactic dari beberapa pilihan. Hal ini membuat tugas rekognisi lebih mudah dan dapatmeningkatkan performa sistem.



Pembuatan Software Pembuka Program Aplikasi Komputer Berbasis Pengenalan Suara



Abstrak


Teknologi wicara adalah salah satu teknologi aplikasi yang telah ditemukan beberapa tahun lalu. Salah satunya adalah speaker recognition yang merupakan suatu proses yang sering disebut dengan verifikasi pengucap. Yang berarti mengenali suara dengan cara membandingkan dengan suara standar. Dengan mekanisme kerja pangambilan contoh-contoh suara. Contoh-contoh suara pada speaker verification akan diproses dengan menggunakan metode window hamming dan fast fourier transform (fft). Kemudian setelah itu diproses pada filter bank. Contoh-contoh suara yang telah diproses tersebut akan mengisi data base dari feature-feature program aplikasi. Pada saat ada suara lain yang masuk, akan dicocokkan dengan contoh-contoh suara yang telah ada pada data base dan akan dicari nilai error terkecilnya. Hasil perbandingan suara baru dengan suara contoh dengan nilai error terkecil diasumsikan sama.


Banyak sekali teknologi saat ini yang memanfaatkan teknologi dalam bidang suara, salah satunya adalah robot. Dimana gerakan-gerakan robot diatur dengan suara manusia. Namun banyak persoalan yang terjadi ketika suara dimanfaatkan oleh sebuah sistem karena setiap orang memiliki ciri suara yang berbeda-beda. Suara merupakan modal utama yang dimiliki manusia untuk berkomunikasi dengan orang lain.


Dengan suara manusia dapat memberikan informasi maupun perintah. Salah satu teknologi yang memanfaatkan suara adalah proses login atau password. Dimana mengatasi hal tersebut digunakan proses pengenalan suara yang dikeluarkan oleh manusia.
Pada penelitian yang telah dilakukan oleh Yesika Eka Kartikasari, dibuat sebuah sistem atau software yang memanfaatkan teknologi pengenalan suara (speech Recognition). Sistem ini diharapkan akan mengenali dari speaker dan kemudian hasil dari pengenalan suara tersebut digunakan sebagai perintah untuk membuka aplikasi komputer.


Masalah


Dalam software ini memiliki kesulitan dalam pengambilan data input yang merupakan sinyal suara dengan menggunakan software tcl/tk dan menjadikannya sebagai data standart dalam database. Selain itu bagaimana proses matching sinyal yang masuk dengan sinyal yang ada pada database sehingga sinyal independent bisa dikenali sebagai perintah untuk membuka program aplikasi


Kebutuhan


1. Bahasa pemrograman yang digunakan adalah bahasa C/Tcl/Snack2.2 pada Windows
2. Sistem hanya bisa diakses oleh orang-orang dengan dialek yang umum (dalam hal ini adalah
Jawa)
3. Objek perekam berusia antara 20 thn – 21 thn.
4. Software yang bisa dihubungkan dengan software ini adalah software yang bisa diakses
hanya yang tersimpan dalam database, dalam hal ini adalah microsoft word, excel, explorer,
power point, dan notepad.


Pemodelan Dalam Rekayasa Perangkat Lunak


Pemodelan dalam suatu rekayasa perangkat lunak merupakan suatu hal yang dilakukan di tahapan awal. Di dalam suatu rekayasa dalam perangkat lunak sebenarnya masih memungkinkan tanpa melakukan suatu pemodelan. Hal itu tidak dapat lagi dilakukan dalam suatu industri perangkat lunak. Pemodelan delam perangkat lunak merupakan suatu yang harus dikerjakan di bagian awal dari rekayasa, dan pemodelan ini akan mempengaruhi perkerjaan-pekerjaan dalam rekayasa perangkat lunak tersebut.


1. Proses


Proses memiliki atribut dan karakteristik seperti :


· Understandability, yaitu sejauh mana proses secara eksplisit ditentukan dan bagaimana kemudahan definisi proses itu dimengerti. Dengan menggunakan software ini, maka suara yang digunakan sebagai masukan dapat memberikan instruksi pada komputer.


· Visibility, apakah aktivitas-aktivitas proses mencapai titik akhir dalam hasil yang jelas sehingga kemajuan dari proses tersebut dapat terlihat nyata/jelas. Pengoperasian aplikasi komputer dapat dilakukan dengan menggunakan perintah suara. Keberhasilan sistem dapat ditunjukkan keberhasilan dalam memasukkan perintah suara mengeksekusi aplikasi program pada komputer.


· Supportability, yaitu sejauh mana aktivitas proses dapat didukung oleh suatu tool. Dalam proses pembuatan software, beberapa macam software diperlukan, diantaranya yaitu:


1. Perekaman Suara


Pada proses perekaman suara, digunakan software perekaman suara buatan sendiri yang berbasis pada Snack dan Tcl/tk.


2. Proses Front End


Sinyal yang masuk dari hasil perekaman merupakan sinyal yang masih terhubung dengan noise dan masih memiliki tail baik di awal sinyal maupun akhir sinyal dan merupakan sinyal yang bersifat variant time. Pada proses front end ini, sinyal tail-tail dan sinyal-sinyal noise dipotong dan diambil sinyal murninya saja.


3. Proses Frame Blocking


Pada proses ini dilakukan pemotongan sinyal dalam slot-slot tertentu agar dianggap invariant. Pada proyek akhir ini sinyal suara dipotong sepanjang 20 milidetik di setiap pergeseran 10 milidetik. Setiap potongan tersebut disebut frame. Jadi dalam satu frame terdapat 240 sampel dari 12000 sampel yang ada.


4. Proses Windowing


Setelah proses frame blocking, sinyal diproses windowing untuk mengurangi efek diskontinuitas ketika sinyal ditransformasikan ke domain frekuensi. Proses windowing dilakukan tiap-tiap subband yang terdiri 240 data sample dan digeser setiap setengah subband yaitu 120 sample. Karena adanya pergeseran inilah kemungkinan puncak-puncak yang mestinya terambil menjadi terpotong dapat terjadi.


5. FFT (Fast Fourier Tramsform)


Pada proses ini sinyal yang sebelumnya berada dalam domain waktu akan dirubah dalam domain frekuensi. Setiap sinyal yang berasal dari alam merupakan sinyal analog yang bila diolah harus dirubah dalam bentuk sinyal digital. Dan pengolahan dalam digital merupakan pengolahan dalam bentuk diskrit. Pada proyek akhir ini sinyal dalam domain waktu akan dirubah dalam domain frekuensi dengan 512 titik. Karena hasil yang diperoleh berupa hasil dari fungsi konvolusi maka hanya akan diambil 256 titik saja yang akan diolah dalam proses selanjutnya. Sedangkan 256 sisanya tidak dipergunakan karena berupa pencerminan saja.


6. Liftering


Pengujian selanjutnya setelah proses FFT adalah liftering. Sebelum proses liftering dilakukan hasil dari FFT di invers terlebih dahulu. Hasil dari IFFT (Invers Fast Fourier Transform) diliftering dengan cara memprosesnya kembali dengan Fast Fourier Transform (FFT) yang bertujuan untuk mendapatkan hasil yang sebenarnya. Pada liftering ini data yang diambil adalah 16 data saja tiap framenya yang bisa mewakili semua data yang telah terolah dalam FFT.


7. Cepstrum


Cepstrum pada dasarnya sama dengan FFT, hanya saja hasil dari cepstrum harus melewati beberapa proses, seperti yang telah dijelaskan di atas yaitu dari hasil FFT harus di invers dulu untuk mendapatkan nilai lifternya dan untuk mendapatkan nilai cepstrum maka nilai lifter tersebut harus diproses dengan FFT kembali, hasil dari proses FFT kedua inilah yang disebut sebagai nilai cepstrum.


8. Dynamic Time Warping


Pengujian terakhir dari proses pengolahan sinyal wicara adalah membandingkan sinyal hasil cepstrum antara data input dan data standarnya.


· Acceptability, apakah proses yang telah ditentukan dapat diterima dan mampu bertanggung jawab selama pembuatan produk perangkat lunak hal ini bisa diwujudkan pada tahap pemrosesan sinyal suara untuk mendapatkan ciri atau parameter, sehingga didapatkan algoritma sistem yang lebih baik. Selain itu pengambilan sample yang lebih banyak lagi untuk tiap dependent speaker agar bisa didapatkan hasil yang lebih akurat.


· Reliability, apakah proses didesain sedemikian rupa sehingga kesalahan proses dapat dihindari sebelum terjadi kesalahan pada produk. Seperti yang telah dijelaskan sebelumnya, dalam proses perekaman suara digunakan beberapa macam metoda, hal ini digunakan agar perhitungan yang didapatkan akurat sehingga setiap orang memiliki frekuensi sinyal yang berbeda.


· Robustness, dapatkah proses terus berjalan walaupun terjadi masalah yang tak diduga. Dalam proses perekaman suara, dibutuhkan beberapa sample suara yang digunakan sebagai percobaan. Apabila dalam pelaksanannya orang yang hendak diambil sample suara tersebut sedang sakit, maka diharapkan suara tersebut masih dapat memberikan instruksi pada komputer.


· Maintainability, dapatkah proses berkembang untuk mengikuti kebutuhan atau perbaikan. Untuk saat ini software baru bisa mengenali beberapa macam instruksi, diharapkan pengembangan software dapat mengenali lebih banyak instruksi yang disimpan dalam database.


· Rapidity, bagaimana kecepatan proses pengiriman sistem dapat secara lengkap memenuhi spesifikasi. Diharapkan komputer dapat merespon dengan cepat dalam memproses suara yang diberikan.


2. Aktor


1. Pengguna: kustomer yang hendak menggunakan suara untuk memberikan instruksi pada komputer.
2. Pelanggan : perusahaan yang akan menggunakan software.
3. Analisi Pasar : tim yang bertugas mensurvey kebutuhan pasar
4. Regulasi : manajer yang berhak mengatur kegiatan pembuatan software
5. Rekayasa Software : tim yang berhak mengambil keuntungan dalam pembuatan software, termasuk menggunakan ulang beberapa komponen untuk produk lain.


3. Model Spiral Boehm


Model proses nyata waterfall yang berorientasi dokumen telah diambil sebagai standar umum oleh banyak agen pemerintah dan pembuat perangkat lunak. Jadi, tidak mudah melupakan model tersebut walaupun masih terdapat masalah-masalah yang ditimbulkan dalam model tersebut. Kita membutuhkan sebuah proses yang lebih baik untuk manajemen yang dapat menggunakan semua model umum seperti yang telah kita bicarakan sebelumnya. Model perbaikan tersebut juga harus memenuhi kebutuhan-kebutuhan pembuat perangkat lunak. Pendekatan alternatif diusulkan oleh Boehm (1988). Boehm mengusulkan sebuah model yang secara eksplisit menjelaskan bahwa resiko yang disadari mungkin membentuk dasar model proses umum. Model Boehm berbentuk spiral. Setiap loop mewakili sebuah tahap dari proses perangkat lunak.


Tidak ada tahap yang tetap dalam model ini. Manajemen harus memutuskan bagaimana membentuk proyek kedalam tahap-tahap. Perusahaan biasanya bekerja dengan beberapa model umum dengan tahap tambahan untuk proyek khusus atau ketika masala-masalah ditemukan selama pembuatan proyek.


Setiap loop dibagi dalam 4 sektor



1. Pembuatan tujuan


Tujuan, hambatan dalam proses ataupun produk serta resiko-resiko proyek ditentukan. Rencan rinci manajemen juga ditulis lengkap. Pembuatan strategi-strategi alternatif direncanakan sesuai dengan resiko yang ada.


2. Perkiraan dan pengurangan resiko


Untuk setiap resiko yang telah diidentifikasi, akan dibuat analisis rincinya. Kemudian diambil langkah-langkah untuk mengurangi resiko. contohnya, jika ada resiko bahwa persyaratan-persyaratan tidak tepat maka sebuah model contoh mungkin dapat dikembangkan.


3. Pengembangan dan validasi


Setelah evaluasi resiko, sebuah model pengembangan untuk sistem dipilih. Misalnya, jika resiko interface pengguna yang dominan maka model pengembangan yang tepat mungkin pengembangan evolusioner dengan menggunakan model contoh (prototipe)
Jika resiko keselamatan yang diutamakan, model pengembangan yang sesuai adalah transformasi formal dan seterusnya. Model waterfall mungkin tepat digunakan jika resiko yang diutamakan adalah integrasi sistem.


4. Perencanaan


Jika diputuskan untuk melanjutkan pada loop spiral berikutnya maka proyek dibicarakan kembali dan rencana dibuat untuk tahap selanjutnya. Tidak perlu untuk menggunakan satu model tunggal pada setiap loop spiral bahkan dalam keseluruhan sisten perangkat lunak. Model spiral encompasses model lainnya. Pemodelan digunakan pada salah satu psiral untuk memecahkan masalah kebutuhan. Kemudian dapat diikuti oleh model konvensional, waterfall. Transformasi formal digunakan untuk mengembangkan bagian-bagian sistem yang memiliki persyaratan keselamatan yang tinggi dan pendekatan reuse digunakan untuk pengimplementasian bagian-bagian lain dari sistem data manajemen.


Pada implementasinya, model spiral ini juga banyak digunakan, tetapi biasanya dikombinasikan dengan model yang lain. Pemodelan waterfall, yang sangat bagus dalam menentukan millestones dan pemodelan spiral, yang sangat bagus dengan menggunakan prototyping, merupakan kombinasi yang sering dipakai di dalam kontrak-kontrak untuk perangkat lunak dewasa ini.
4 Testing


1. Perekaman Suara Sebagai Sample


Perekaman suara dari 20 orang dengan jenis kelamin yang berbeda yaitu 10 orang wanita dan 10 orang laki-laki dengan kata yang sama. Perekaman tersebut dilakukan secara berulang-ulang dengan kata yang berbeda dari perekaman sebelumnya. Kata-kata yang direkam merupakan feature yang ada pada komputer, dalam hal ini antara lain: Microsoft Word, Excel, Explorer, Power Point, dan Notepad.


2. Pembuatan Database


Pembuatan database dari sinyal-sinyal suara yang telah disimpan sebagai sinyal standart dari software yang akan digunakan yaitu Microsoft Word, Excel, Explorer, Power Point, dan Notepad.


3. Proses Penyesuaian suara (matching voice)


Proses Penyesuaian suara dan pengambilan rata-rata dari masing-masing user pada database sehingga pada saat ada sinyal independent (sinyal baru) yang masuk dapat dicari nilai errornya. Data dengan nilai error terkecil diasumsikan mempunyai tipikal suara yang sama dengan sinyal suara standart dan akan diijinkan untuk melakukan akses pada komputer untuk membuka suatu program aplikasi.





Pengenalan Suara Voice Speech Recognition


Source Code ActionScript AS3 ASP.NET AJAX C / C++ C# Clipper COBOL ColdFusion DataFlex Delphi Emacs Lisp Fortran FoxPro Java J2ME JavaScript JScript Lingo MATLAB Perl PHP PostScript Python SQL VBScript Visual Basic 6.0 Visual Basic .NET Flash MySQL Oracle Android
Related Post :


Project-G
Judul: Pengenalan Suara Voice Speech Recognition
Rating: 100% based on 99998 ratings. 5 user reviews.
Ditulis Oleh hank2

Anda sedang membaca artikel tentang Pengenalan Suara Voice Speech Recognition, Semoga artikel tentang Pengenalan Suara Voice Speech Recognition ini sangat bermanfaat bagi teman-teman semua, jangan lupa untuk mengunjungi lagi melalui link Pengenalan Suara Voice Speech Recognition.


Posted by: Metode Algoritma Updated at: 06.12

{ 0 komentar... Views All / Send Comment! }

Posting Komentar