Виділення ключового слова

Виділення ключового слова (або, простіше, виділення слова) - це проблема, яка вперше була визначена в контексті обробки природної мови.[1][2] Вирішення проблеми полягає у виділенні деякого ключового слова в промовленого аудіопотоці.

Виділення ключового слова також є однією з проблем оптичного розпізнавання символів.[1] Вона постає тоді, коли потрібно виділити всі екземпляри деякого слова у документі, не розпізнаючи його повністю.

При обробці мовлення[ред. | ред. код]

Перші спроби розв'язання проблеми виділення ключових слів з’явилися наприкінці 1980-х. [2]

Особливим випадком виявлення ключових слів є виявлення «слів пробудження» (їх також називають «гарячими словами» за аналогією «гарячих клавіш»), що використовуються особистими голосовими помічниками, такими як Alexa або Siri, щоб «прокинутися» при вимові їх імені.

У Сполучених Штатах Америки Агенція національної безпеки використовує пошук ключових слів щонайменше з 2006 року.[3] Ця технологія дозволяє аналітикам здійснювати пошук у великих обсягах записаних розмов та виявляти ті, що містять підозрілі ключові слова. Розмови можуть бути проіндексовані — тоді аналітики просто виконують запит до бази даних для того, щоби знайти те, що їх цікавить. IARPA профінансувала дослідження щодо виявлення ключових слів у програмі Babel .


Деякими з підходів, що використовуються для розв'язання цієї проблеми є:

В оптичному розпізнавання[ред. | ред. код]

Виділення ключових слів при обробці зображень документа можна розглядати як приклад більш загальної проблеми отримання зображень за вмістом. Метою є отримання найрелевантніших екземплярів запиту у колекції відсканованих документів.[1] Запитом може бути текстовий рядок (запит-рядок) або зображення слова (запит-приклад).

Література[ред. | ред. код]

 

  1. а б в Giotis, A.P; Sfikas, G.; Gatos, B.; Nikou, C. (2017). A survey of document image word spotting techniques. Pattern Recognition. 68: 310—332. doi:10.1016/j.patcog.2017.02.023.
  2. а б Rohlicek, J.; Russell, W.; Roukos, S.; Gish, H. (1989). Continuous hidden Markov modeling for speaker-independent word spotting. Proceedings of the 14th IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP). 1: 627—630.
  3. Froomkin, Dan. THE COMPUTERS ARE LISTENING. The Intercept. Архів оригіналу за 27 червня 2015. Процитовано 20 червня 2015.
  4. Sainath, Tara N and Parada, Carolina (2015). Convolutional neural networks for small-footprint keyword spotting. Sixteenth Annual Conference of the International Speech Communication Association. arXiv:1711.00333.